报价宝 > 科技 >

分享用小型资料集处理资料的7个小技巧

消息来源:baojiabao.com 作者: 发布时间：2024-11-30

报价宝综合消息分享用小型资料集处理资料的7个小技巧

点选上方关注，All in AI 中国

我们经常听说，大资料是那些成功的机器学习专案的关键。

这是一个主要问题：许多组织没有你需要的资料。

如果没有最基本的原材料，我们如何原型化和验证机器学习思想？在资源稀缺的情况下，如何有效地利用资料获取和创造价值？

在我的工作场所，我们为客户制作了很多功能原型。正因为如此，我经常需要让小资料走得更远。在本文中，我将分享7个技巧来改进使用小型资料集进行原型设计时的结果。

1. 要意识到你的模型不能很好地推广

这应该是目前最重要的。你正在建立一个模型，它的知识是浩瀚的知识海洋中的一小部分，而这种情况应该是必然的。

如果你正在构建一个基于室内照片的计算机视觉原型，不要期望它在户外工作得很好。如果你有一个基于聊天室玩笑的语言模型，不要期望它适用于梦幻的小说。

确保你的经理或客户能理解这一点。这样，每个人都可以对模型应该交付的结果有一个现实的期望。它还为提出有用的新的KPI提供了机会，以便在原型范围内外对模型效能进行量化。

2.建立良好的资料基础设施

在许多情况下，客户端没有你需要的资料，公共资料也不是一个选项。如果原型的一部分需要收集和标记新资料，请确保你的基础设施尽可能少地产生摩擦。

你需要确保资料标记非常简单，以便非技术人员也可以使用。我们已经开始使用Prodigy，我认为这是一个很好的工具：既可访问又可扩充套件。根据专案的大小，你可能还想设定一个自动资料摄取器，它可以接收新资料并自动将其提供给标记系统。

如果将新资料快速而简单地汇入系统，你将获得更多的资料。

3.做一些资料扩充

通常可以通过增加现有的资料来扩充套件资料集。它是对资料进行微小的更改，而不应该显著地更改模型输出。例如，如果一只猫旋转了40度，它的影象仍然是一只猫的影象。

在大多数情况下，增强技术允许你生成更多的"semi-unique"资料点来训练模型。首先，可以尝试在资料中新增少量高斯噪声。

对于计算机视觉，有许多简单的方法来增强影象。我对Albumentations库有很多的经验，它做了许多有用的影象转换，同时保持你的标签完好无损。

许多人发现另一种有用的增强技术是Mixup。这种技术实际上是获取两个输入影象，将它们混合在一起并组合它们的标签。

在扩充套件其他输入资料型别时，需要考虑哪些转换会更改标签，哪些不会。

4.生成一些合成数据

如果你已经用尽了扩充套件真实资料的选项，你可以开始考虑建立一些假资料。生成合成资料也是覆盖真实资料集没有的一些边缘情况的好方法。

例如，许多机器人强化学习系统(如OpenAI的Dactyl)在部署到真实机器人之前，都是在模拟的3D环境中进行训练的。对于影象识别系统，你同样可以构建3D场景，为你提供数千个新的资料点。

有许多方法可以建立合成数据。在Kanda，我们正在开发一个基于 turntable-based 的解决方案，来建立用于物件检测的资料。如果你有很高的资料需求，你可以考虑使用Generative Adverserial Networks 来建立合成数据。要知道GAN是出了名的难训练，所以首先要确保它是可以建立的。

有时你可以将这些方法结合起来:苹果有一个非常聪明的方法，使用GAN来处理3D建模人脸的影象，使其看起来更像照片。

5. 小心幸运的分割

在训练机器学习模型时，通常会将资料集按照一定的比例随机分割成训练集和测试集。通常情况下这很好。但是，在处理小资料集时，由于训练示例的数量较少，存在很高的噪声风险。

在这种情况下，你可能会意外地得到一个幸运的分割：一个特定的资料集分割，你的模型将在其中执行并很好地推广到测试集。

而在这种情况下，k-fold交叉验证是更好的选择。本质上，你将资料集分割为k个"folds"，并为每个k训练一个新的模型，其中一个folds用于测试集，其余的用于训练。这控制了你所看到的测试效能不仅仅是由于幸运(或不幸)的分割。

6. 使用迁移学习

如果你使用的是某种标准化的资料格式，比如文字、影象、视讯或声音，那么你可以利用其他人之前在这些领域所做的所有工作来进行迁移学习。这就像站在巨人的肩膀上。

当你进行迁移学习时，你采用别人建立的模型(通常，"其他人"是Google、Facebook或一所主要大学)，并根据你的特殊需要对它们进行微调。

迁移学习之所以有效，是因为大多数与语言、影象或声音有关的任务都具有许多共同的特征。对于计算机视觉，它可以检测特定型别的形状、颜色或图案。

最近，研究出来一个高精度的目标检测原型。通过微调一个MobileNet单镜头检测器，我可以极大地加快开发速度，该检测器是在Google的Open Images v4资料集(约900万标记影象!)上训练的。经过一天的训练，我能够使用~1500张带标签的影象生成一个相当健壮的物件检测模型，测试图为0.85。

迁移学习是有效的，因为与语言、影象或声音有关的大多数任务都有许多共同特征。对于计算机视觉，它可以是检测某些型别的形状、颜色或图案。

7. 尝试一组"weak learners"

有时候，你不得不面对这样一个事实：你没有足够的资料来做任何花哨的事情。幸运的是，有许多传统的机器学习算法可以使用，它们对资料集的大小不那么敏感。

当资料集较小且资料点维度较高时，支援向量机等算法是一个很好的选择。

不幸的是，这些算法并不总是像最先进的方法那样精确。这就是为什么他们可以被称为"weak learners"，至少与高度引数化的神经网络相比。

提高效能的一种方法是将这些"weak learners"(这可以是一组支援向量机或决策树组合起来，以便他们"一起工作"来生成预测。这就是整合学习的全部内容。

2020-02-02 14:04:00

文章标签: 报价宝降噪耳机价格耳机价格红米手机价格华为手机价格小米手机价格电视机价格笔记本电脑价格笔记本价格汽车价格数码相机价格汽车价格笔记本价格华为手机价格红米手机价格

相关文章

B站怎么炸崩了哔哩哔哩服务器今日怎么又炸挂了？技术团队公开早先原因
2023-03-06 19:05:55
苹果iPhoneXS/XR手机电池容量续航最强？答案揭晓
2023-02-19 15:09:54
华为荣耀两款机型起内讧：荣耀Play官方价格同价同配该如何选？
2023-02-17 23:21:27
google谷歌原生系统Pixel3 XL/4/5/6 pro手机价格：刘海屏设计顶配版曾卖6900元
2023-02-17 18:58:09
科大讯飞同传同声翻译软件造假浮夸不能只罚酒三杯
2023-02-17 18:46:15
华为mate20pro系列手机首发上市日期价格，屏幕和电池参数配置对比
2023-02-17 18:42:49
小米MAX4手机上市日期首发价格骁龙720打造大屏标准
2023-02-17 18:37:22
武汉弘芯遣散!结局是总投资1280亿项目烂尾光刻机抵押换钱
2023-02-16 15:53:18
谷歌GoogleDrive网云盘下载改名“GoogleOne” 容量提升价格优惠
2023-02-16 13:34:45
巴斯夫将裁员6000人众化工巨头裁员潮再度引发关注
2023-02-13 16:49:06
人手不足韵达快递客服回应大量包裹派送异常没有收到
2023-02-07 15:25:20
资本微念与李子柒销声匿迹谁赢？微念公司退出子柒文化股东
2023-02-02 09:24:38
三星GalaxyS8 S9 S10系统恢复出厂设置一直卡在正在检查更新怎么办
2023-01-24 10:10:02
华为Mate50 RS保时捷最新款顶级手机2022多少钱？1.2万元售价外观图片吊打iPhone14
2023-01-06 20:27:09
芯片常见的CPU芯片封装方式 QFP和QFN封装的区别？
2022-12-02 17:25:17
华为暂缓招聘停止社招了吗?官方回应来了
2022-11-19 11:53:50
热血江湖手游：长枪铁甲刚猛热血正派枪客全攻略技能介绍大全
2022-11-16 16:59:09
东京把玩了尼康微单相机Z7 尼康Z7现在卖多少钱?
2022-10-22 15:21:55
苹果iPhone手机灵动岛大热:安卓灵动岛App应用下载安装量超100万次
2022-10-03 22:13:45
苹果美版iPhone可以在中国保修从哪看怎么查询iPhone的生产日期？
2022-09-22 10:00:07

最新资讯

淘宝天猫仅退款属于诈骗吗？淘宝天猫开始部分取消仅退款
2024-10-01 13:01:28
哈啰app借钱|哈啰借钱app下载安装免费小小上当和电话骚扰
2024-10-01 11:22:38
白嫖党｜山西大同大学学生网购申请“仅退款”被拒骂客服一小时
2024-09-27 09:10:44
北大数学教授袁新意《姜萍事件的疑点分析》点评姜萍板书阿里巴巴竞赛受质疑
2024-06-28 10:07:40
天猫新规可以无条件申请“仅退款”了？淘宝天猫又离狗多多零元购近了一步
2024-06-28 09:27:13

手机

中国11月手机出货量增34% 5G手机出货量2709.2万部
2023-12-28 19:27:57
荣耀发布新一代旗舰荣耀Magic5系列，新款上市价格分期0首付3999元起
2023-03-06 16:12:32
美国商务部指违禁，长江存储被美国拜登制裁名单面临停工裁员
2023-02-17 18:41:53
苹果Apple iOS车载系统CarPlay支持哪些更多汽车品牌
2023-02-02 17:33:27
香港去哪买三星手机回来吗？买香港便宜售价手机市场地点和网站
2023-02-02 11:03:11

数码

华为5G芯片正式亮相：预示华为将发首款5G手机
2023-08-31 13:22:33
腾讯传计划放弃虚拟现实VR硬件计划
2023-02-17 23:32:30
三星手机份额大跌！三星手机中国市场份额变化国内仅剩3%
2023-02-01 17:06:15
三星手机份额大跌在中国没市场了！国内市场占有率仅剩1%国外比苹果销量高
2023-02-01 16:59:53
vivo发布2022 vivoNEX手机极简易浏览器下载：简洁流畅无广告！
2022-12-02 17:29:30

科技

B站怎么炸崩了哔哩哔哩服务器今日怎么又炸挂了？技术团队公开早先原因
2023-03-06 19:05:55
苹果iPhoneXS/XR手机电池容量续航最强？答案揭晓
2023-02-19 15:09:54
华为荣耀两款机型起内讧：荣耀Play官方价格同价同配该如何选？
2023-02-17 23:21:27
google谷歌原生系统Pixel3 XL/4/5/6 pro手机价格：刘海屏设计顶配版曾卖6900元
2023-02-17 18:58:09
科大讯飞同传同声翻译软件造假浮夸不能只罚酒三杯
2023-02-17 18:46:15

品牌选车

选择品牌

选择车系

选择车型