为什么说NLP死了？

发布时间：

2024-09-10 18:32

阅读量：

做NLP有十几年，经历了统计时代到深度学习时代再到到现在的大模型时代。我以NLP中最代表性机器翻译为例说一下自己理解。

我的研究课题是研究机器翻译，刚刚读博的时候还在用moses。那个时候机器翻译流程特别长，清洗数据、词对齐、短语抽取、参数调节、解码测试。每个步骤都有专门的工具，每个步骤都可以专门研究发论文。那个时候由于机器翻译系统特别复杂，门槛很高，国内外研究的课题组很少。那段时间研究的方向是从词级别翻译到短语级别再到句法，虽然有像谷歌大力出奇迹的路线，总体思路是在翻译中用更多的知识。很多比赛也是在固定的公开数据集看各家翻译系统的BLEU得分。

15年开始机器翻译进入了深度学习时代，代表性的是seq-to-seq以及transformer。其实 transformer工作最重要的评测任务就是机器翻译。新的框架下，翻译的任务和摘要甚至ASR一样，被简化为串到串生成问题，省去了诸多中间步骤。从这个时候开始，机器翻译门槛就非常低，研究也变成如何做tokenize（诞生了各种BPE这样的方法）。虽然也有很多对transformer魔改的工作，但是在数据规模面前，并没有多少实际价值。这个时候模型数据还是使用双语数据，也有多语言翻译。如何使用海量的单语数据提升翻译效果，一直有研究尝试，但是并没有大的突破。

大模型时代，GPT核心是把所有任务都看成是生成任务，这自然就包括了翻译。在GPT4这样使用了全网数据训练模型后发现，不需要平行预料也能够和现有翻译系统可比的结果。而且更神奇的是，大模型有理解能力，能够理解输入文本后生成更合理的翻译结果。这是完全吊打现有的翻译系统的。因此，这个时候我们可以说翻译这个任务死了。

我看了一下去年EMNLP2023 oral 240篇论文中翻译相关的只有6篇，而且都是做语音、交互式这些工作，对比2020年是 36/602。

补充一个NLP中更难的任务，文本摘要。这个任务最困难的是标准答案都很难给出，之前做了很多年，根本没办法实用。目前大模型一个很重要的应用就是会议摘要。去年看到一篇文章 Summarization is (Almost) Dead ，里面讲到一个问题，安排人工盲测对比摘要公开数据集的人工书写的摘要结果和gpt生成的结果，发现GPT结果比人工总结的结果还要好。

大模型出来后一方面可以说NLP is almost dead，另外也可以说 NLP just starts。大模型时代NLP有非常多值得研究的新问题。

上一篇：为什么清华的四六级平均分比较低？

下一篇：中国历史上有哪些“冷门”政权？

END