为什么说NLP死了?

发布时间:
2024-09-10 18:32
阅读量:
3

做NLP有十几年,经历了统计时代到深度学习时代再到到现在的大模型时代。我以NLP中最代表性机器翻译为例说一下自己理解。

我的研究课题是研究机器翻译,刚刚读博的时候还在用moses。那个时候机器翻译流程特别长,清洗数据、词对齐、短语抽取、参数调节、解码测试。每个步骤都有专门的工具,每个步骤都可以专门研究发论文。那个时候由于机器翻译系统特别复杂,门槛很高,国内外研究的课题组很少。那段时间研究的方向是从词级别翻译到短语级别再到句法,虽然有像谷歌大力出奇迹的路线,总体思路是在翻译中用更多的知识。很多比赛也是在固定的公开数据集看各家翻译系统的BLEU得分。

15年开始机器翻译进入了深度学习时代,代表性的是seq-to-seq以及transformer。其实 transformer工作最重要的评测任务就是机器翻译。新的框架下,翻译的任务和摘要甚至ASR一样,被简化为串到串生成问题,省去了诸多中间步骤。从这个时候开始,机器翻译门槛就非常低,研究也变成如何做tokenize(诞生了各种BPE这样的方法)。虽然也有很多对transformer魔改的工作,但是在数据规模面前,并没有多少实际价值。这个时候模型数据还是使用双语数据,也有多语言翻译。如何使用海量的单语数据提升翻译效果,一直有研究尝试,但是并没有大的突破。

大模型时代,GPT核心是把所有任务都看成是生成任务,这自然就包括了翻译。在GPT4这样使用了全网数据训练模型后发现,不需要平行预料也能够和现有翻译系统可比的结果。而且更神奇的是,大模型有理解能力,能够理解输入文本后生成更合理的翻译结果。这是完全吊打现有的翻译系统的。因此,这个时候我们可以说翻译这个任务死了。

我看了一下去年EMNLP2023 oral 240篇论文中翻译相关的只有6篇,而且都是做语音、交互式这些工作,对比2020年是 36/602。

补充一个NLP中更难的任务,文本摘要。这个任务最困难的是标准答案都很难给出,之前做了很多年,根本没办法实用。目前大模型一个很重要的应用就是会议摘要。去年看到一篇文章 Summarization is (Almost) Dead ,里面讲到一个问题,安排人工盲测对比 摘要公开数据集的人工书写的摘要结果和gpt生成的结果,发现GPT结果比人工总结的结果还要好。

大模型出来后一方面可以说NLP is almost dead,另外也可以说 NLP just starts。大模型时代NLP有非常多值得研究的新问题。

END