极速大发快3—在线快三娱乐从聊胜于无到可堪大用,半监督学习革命悄悄来临 | 雷锋网

  • 时间:
  • 浏览:4

雷锋网 AI 科技评论按:对机器学极速大发快3—在线快三娱乐习工程师们来说,最总是 遇到的情況之一什么都极速大发快3—在线快三娱乐让我轻松挂接到一大堆数据,之后 却不在 非常有限的资源做数据标注。每个遇到你一种尴尬处境的人都不在 冷静下来,把让当我们当我们当我们 都 的情況总结成简洁明了的「有监督数据没有来越多,但未标注数据有什么都」,之后 在查阅论文之后按图索骥找到一类看似可行的方案:半监督学习(semi-supervised learning)。

之后 接下来事情就开始英语 英语 走样了。

听上去很美,踏上去是大坑

总是 以来,半监督学习删改都不 机器学习领域内的另俩个大坑,每个尝试想从中间捞到好处的工程师最终都不在 对传统的、老式的数据标注增加更多的理解而已。不同的什么的问题里机会会有不同的表现,之后 最终大同小异,让当我们当我们当我们 都 来看下面这张图:

当标注数据没有来越多的之后,半监督学习确实还可以 带来一定的性能提升。之后 实际使用的之后你就会发现,那先 提升不在 帮你把极速大发快3—在线快三娱乐模型表现从「糟糕透了、不可接受」提高到「稍微好了不在 什么都、但还是没极速大发快3—在线快三娱乐土办法使用」而已。说到底,机会你的标注数据规模较小,以至于半监督学习还可以 起到帮助语句,那一起去也说明你的分类器表现仍然在另俩个很差的水平,不在 实际使用。

除此之外,半监督学习也时需什么都额外的资源代价,之后 使用了半监督学习的土办法面对更多的标注数据的之后,性能增长曲线会比有监督学习更平缓;原因分析分析 之一是无标注数据机会会带来偏倚(见 MITPress-%20SemiSupervised%20Learning.pdf 第四节)。在宽度学习早期另俩个流行过一种半监督学习做法,首先在未标注数据上学习另俩个自动编码器,之后 在有标注数据上进行微调(fine-tune)。现在机会几乎不在 人不在 做了,机会让当我们当我们当我们 都 通过无数的实验发现,通过自动编码器学习到的表征会影响到精细调节阶段增加的有标注数据带来的性能提升幅度,之后 是起到限制作用。有趣的是,即便今天让当我们当我们当我们 都 机会大幅度改进了生成式土办法,这仍然好难要我一种模式变得更好使;这很机会是机会,做出另俩个好的生成式和模型和做出另俩个好的分类器毕竟删改都不 一回事。什么都结果是,今天的工程师们做微调的之后,让当我们当我们当我们 都 是在监督学习的基础上做微调的(即便对于语言模型也一样,学习文本确实是一种自监督学习过程) —— 从实用宽度讲,从什么都有监督预训练模型上做迁移学习的效果比从无监督学习模型上做迁移的效果好没有来越多了

什么都,另俩个一定要尝试半监督学习的机器学习工程师很机会会走上另俩个两根路径:

  1. 机会数据少,什么都模型的表现糟透了。让当我们当我们当我们 都 试试半监督学习吧(毕竟这还一阵一阵技术含量,标数据太枯燥了);

  2. 你看,准确率提升了吧!不过数字还是挺低的,看来让当我们当我们当我们 都 还是得多标什么都数据

  3. 标数据毕竟还是有用的,我多标好几倍数据之后半监督学习模型的表现又提升了什么都。不过我一阵一阵好奇,我都标了不在 多数据了,直接用监督学习会如何在么在样

  4. 实践证明,有不在 多数据之后,监督学习还是更简单直接,效果也更好。另俩个们如何在么在不一开始英语 英语 就多标注点数据呢,花了不在 多时间精力试了半监督学习结果还是用不上……

机会你比较幸运语句,你的什么的问题有机会会另俩个两根性能曲线:

在你一种情況下,在某另俩个数据规模之内半监督学习的效果会好什么都,确实提高了数据使用下行速度 。但以我的经验,首先好难达到另俩个的情況;其次,半监督学习的提升总是 没有来越多的,学术论文里刷刷分还行,对实际应用来说影响很小,机会考虑到使用的土办法的复杂化性和多使用的计算资源语句,还是不如直接多标点数据的投入产出比比较好。

革命来临

不过别急,咱们这篇文章的标题删改都不 「悄悄来临的半监督学习革命」吗?

如今有件事是微微让我兴奋的,那什么都我半监督学习的性能提升曲线逐渐变成了你一种样子:

这就会产生真正的区别了。首先,你一种曲线符合了每本人对于半监督学习的期待:更多的数据删改都不 更好的性能,之后 对于同样的有标注数据,性能总是 比监督学习土办法更好;即便是数据量足够大、监督学习机会都都还可以发挥出好的效果的范围内,半监督学习也仍然有提升。之后 ,为了达到那先 提升所时需额外付出的计算复杂化度和资源也机会很小了。你一种「魔法般的区域」的起始点更低,之后 不受到数据规模限制。

什么都占据 了那先 呢?什么都方面删改都不 了新的改进,比如什么都很聪明的土办法为数据做自我标注,以及新的表示损失的土办法,让损失和数据中的噪声以及自我标注机会带来的偏倚之间相互协调。这两篇论文是近期改进的典型例子,之后 都还可以引领你浏览更多相关的论文:

MixMatch: A Holistic Approach to Semi-Supervised Learning

  • MixMatch:一种半监督学习的整体性土办法

  • https://arxiv.org/abs/1905.02249 

  • 论文摘要:半监督学习土办法的提出是为了更好地利用未标注的数据,减轻对于大规模标注数据集的依赖;如今也证明了这是一种强有力的学习范式。在这篇论文中,作者们把当极速大发快3—在线快三娱乐前不同任务中的做法为半监督学习做了统一,得到了一种新的算法,MixMatch,它的工作土办法是通过 MixUp 猜测数据扩增土办法产生的无标签样本的低熵标签,并把无标签数据和有标签数据混合起来。作者们通过实验表明 MixMatch 在多种不同的数据集、多种不同的有标签数据规模中都能以很大幅度领先此前的所有土办法。比如,在 CIFAR 数据集上、不在 280 个标签的情況下,作者们把错误率降低到了之后土办法的 1/4,在 STL-10 数据集上也降低到了之后土办法的一半。作者们也展示了 MixMatch 还可以 在差分隐私的使用目的下,在准确率和隐私保护之间取得好得多的平衡。最后,作者们进行了对照实验,分析了 MixMatch 土办法中的那先 组件最为关键。

Unsupervised Data Augmentation

  • 无监督数据扩增

  • https://arxiv.org/abs/1904.12848

  • 论文摘要:面对渴求极少量数据的宽度学习,数据扩增土办法还可以 缓和一偏离 需求,但数据扩增土办法往往只应用在有监督学习设定中,带来的提升也较为有限。在这篇论文中,作者们提出了一种在半监督学习设定中,把数据扩增土办法运用在未标注数据上的新土办法。让当我们当我们当我们 都 的土办法,无监督数据扩增 UDA,会鼓励模型面对未标注数据和扩增过的未标注数据时产生一致的预测。与此前使用高斯噪声和 dropout 噪声的土办法不同,UDA 有什么都小的调整,它借助目前最先进的数据扩增土办法产生了难度更高、更真实的噪声。那先 小调整让 UDA 在六种语言任务、一种视觉任务中都带来了显著的表现提升,即便使用到的有标注数据集非常小。比如,在 IMDb 数据集的分类测试中,UDA 只使用 20 个标签就得到了比此前最好的土办法在 25,000 个有标签数据上训练更好的结果。在标准的半监督学习测试(CIFAR-10,800 个标签;以及 SVHN,800 个标签)中,UDA 击败了此前所有的土办法,之后 把错误率降低了至少 80%。UDA 在大规模数据集上删改都不 好的表现,比如在 ImageNet 上,只时需额外增加 180 万张无标签图像,相比此前的土办法,UDA 都上还可以 继续提升首位和前五位命中率。

在半监督学习的整个世界得到革新之后,让当我们当我们当我们 都 也开始英语 英语 意识到半监督学习机会在机器学习的隐私什么的问题方面机会都都还可以大有作为。比如使用在 PATE 中(有监督数据是时需保护的隐私数据,含晒 强隐私保护能力的学生模型不在 通过无标签数据训练)。有能力保护隐私的知识蒸馏土办法也是联邦学习的关键组成偏离 之一,而联邦学习的效果什么都我高效的分布式学习,它不时需模型接触删改的用户数据,之后 含晒 数学上强有力的隐私保护。(了解更多还可以 参见雷锋网 AI 科技评论此前关于 差分隐私保护 PATE 以及 联邦学习 的文章)

如今,在真实使用场景中考虑半监督学习机会重新成为了一件很有价值的事情。之后的研究者们对半监督学习的不屑态度如今要受到挑战,这也说明了你一种领域内技术水平发展之快。那先 趋势总是 出现确实还不在 多久,让当我们当我们当我们 都 也还时需观察那先 土办法都都还可以经得住时间的考验。之后 ,机会常用的机器学习工具和范式能从那先 新进展中获得大的进步语句,这无疑是十分诱人的。

via towardsdatascience.com,雷锋网(公众号:雷锋网) AI 科技评论编译

雷锋网版权文章,未经授权禁止转载。详情见转载须知。