年度必读:2018最具突破性人工智能论文Top 10

皖南网 2019-04-11





  转载,新智元报道  

来源; topbots.com、Reddit

编辑:肖琴、三石

【新智元导读】本文总结了2018年以来最重要的10篇AI研究论文,让你对今年机器学习的进展有一个大致的了解。当然,还有很多具有突破性的论文值得一读,但本文作者认为这是一个很好的列表,你可以从它开始。


今天,Reddit上的一条帖子火了:


对于初学者来说,在机器学习和人工智能领域必须的论文有哪些?


想必这个问题引起了许多人的共鸣。


网友推荐的Statistical Modeling: The Two Cultures大受好评,强调经典统计数据和ML预测/建模之间的重要区别。 


https://projecteuclid.org/euclid.ss/1009213726


也有网友表示,对于初学者,最好还是可以从书籍入手,而不是文献。并推荐了Norvig & Russell的Artificial Intelligence,以及Goodfellow的Deep Learning 。并强调若是没有良好的基础,直接读单个的论文是十分困难的,因为论文通常在页数上是有限的,所以在上下文理解上还是有一定局限性。


而近期,作者Mariya Yao在Topbots上发表一篇文章,对今年AI论文Top10做了大盘点。


考虑到AI领域的快速发展,试图跟上AI的最新研究可能非常困难。如果你埋头于那些你还没来得及阅读的论文,那么本文能助你一力。


为了帮助你赶上进度,我们总结了2018年以来最重要的10篇AI研究论文,让你对今年机器学习的进展有一个大致的了解。当然,还有很多具有突破性的论文值得一读,但我们认为这是一个很好的列表,你可以从它开始。


此外,我们计划在未来几周发布自然语言处理(NLP)和计算机视觉方面的重要论文,敬请期待。


以下是我们推荐的2018必读Top 10论文:

  • Universal Language Model Fine-tuning for Text Classification

  • Obfuscated Gradients Give a False Sense of Security: Circumventing Defenses to Adversarial Examples

  • Deep Contextualized Word Representations

  • An Empirical Evaluation of Generic Convolutional and Recurrent Networks for Sequence Modeling

  • Delayed Impact of Fair Machine Learning

  • World Models

  • Taskonomy: Disentangling Task Transfer Learning

  • Know What You Don’t Know: Unanswerable Questions for SQuAD

  • Large Scale GAN Training for High Fidelity Natural Image Synthesis

  • BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding



1、文本分类的通用语言模型微调


标题:Universal Language Model Fine-tuning for Text Classification

作者:Jeremy Howard & Sebastian Ruder (2018)

https://arxiv.org/abs/1801.06146


论文摘要

迁移学习已经对计算机视觉领域产生了很大的影响,但NLP领域的现有方法仍然需要针对任务进行修改和从零开始进行训练。本文提出一种有效的迁移学习方法——通用语言模型微调(Universal Language Model Fine-tuning, ULMFiT),该方法可应用于任何NLP任务,并介绍了对语言模型进行微调的关键技术。


我们的方法在六个文本分类任务上显著优于最先进的技术,在大多数数据集上将错误率降低了18-24%。此外,仅使用100个标记示例,它的性能不比在100倍以上的数据上从零开始训练的模型的性能差。我们将开源预训练模型和代码。


概要总结

这篇论文建议使用预训练的模型来解决广泛的NLP问题。使用这种方法,你不需要从头开始训练模型,只需要对原始模型进行微调。他们的方法称为通用语言模型微调(ULMFiT),其性能优于最先进的结果,误差降低了18-24%。更重要的是,只使用100个标记示例,ULMFiT的性能与在10K标记示例上从零开始训练的模型的性能相当。


核心思想

为了解决标记数据的缺乏的困难,使NLP分类任务更容易、更省时,研究人员建议将迁移学习应用于NLP问题。因此,你不用从头开始训练模型,而是可以使用另一个经过训练的模型作为基础,然后只对原始模型进行微调来解决特定问题。


但是,为了取得成功,微调应考虑几个重要因素:

  • 不同的层应该被微调到不同的程度,因为它们分别捕获不同类型的信息。

  • 当学习率先线性增加后线性衰减时,使模型参数适应特定任务的特征会更有效。

  • 同时对所有层进行微调可能会导致灾难性遗忘;因此,最好从最后一层开始逐层解冻模型。

 

最重要的成果

  • 显著优于最先进的技术:误差减少了18-24%。

  • 需要的标记数据更少:只有100个标记示例和50K未标记示例,性能与从零开始学习100倍以上的数据的性能相当。


AI社区的评价

在计算机视觉领域,经过预处理的ImageNet模型的可用性已经改变了这一领域,ULMFiT对于NLP问题也同样重要。


该方法适用于任何语言的任何NLP任务。来自世界各地的报告表明,该方法在德语、波兰语、北印度语、印度尼西亚语、汉语和马来语等多种语言方面,都取得了显著进步。


未来研究方向

  • 改进语言模型的预处理和微调。

  • 将这种新方法应用于新的任务和模型(如序列标记、自然语言生成、蕴涵或问题回答)。


可能的应用

ULMFiT可以更好地解决广泛的NLP问题,包括:

  • 识别垃圾邮件、机器人、攻击性评论;

  • 按照特定的特征对文章进行分组;

  • 对正面和负面评论进行分类;

  • 寻找相关文件等。


这种方法还可能有助于序列标记和自然语言生成。