在2017年,百度就已经开展了Scaling Law相关研究,并通过实证研究验证了深度学习模型的泛化误差和模型大小随着训练集规模的增长而呈现出可预测的幂律scaling关系。
然而,当时他们使用的是LSTM模型,而非Transformer,也没有将相关发现命名为「Scaling Law」。
几年后,OpenAI在2020年发表论文《Scaling Laws for Neural Language Models》,详细论证了模型的性能会随模型参数量、数据量、计算资源增加而指数提升。
对于Scaling Law的发现,百度、OpenAI等团队均有贡献,但具体是哪个团队最早发现尚未有定论。
Anthropic的首席执行官Dario Amodei在2014年至2015年间曾在百度工作,当时正值吴恩达领导百度的「百度大脑」计划时期。
Amodei和他的同事们当时正在研发语音识别系统,他们在不断尝试中观察到,随着给模型投入更多的数据、计算和训练,模型的表现越好。
虽然当时没有精确测量,但他们直观地感受到了这一规律。
直到2017年,Amodei在OpenAI第一次看到GPT-1的训练结果时,他才意识到这种「越多越好」的规则同样适用于语言数据。
而计算资源的增加,托起了Scaling Law生效的底层逻辑。
当时,包括Ilya Sutskever、「RL教父」Rich Sutton、Gwern Branwen在内的一批人都意识到了Scaling Law的存在。
2017年,百度发表论文《DEEP LEARNING SCALING IS PREDICTABLE, EMPIRICALLY》,展示了在机器翻译、语言建模、图像处理和语音识别等四个领域中,随着训练集规模的增长,深度学习的泛化误差和模型大小呈现出幂律增长模式。
然而,OpenAI在2020年发表的《Scaling Laws for Neural Language Models》论文忽略了百度这篇论文的重要性。
DeepMind的研究科学家@SamuelMLSmith对此表示不满,他曾线下与百度论文的一作Joel Hestness交流过Scaling Law问题,但两年后Scaling Laws论文发表时,他对自己没有发表论文感到遗憾。
Gwern Branwen也经常提及百度这篇论文被忽视的情况。
百度的2017年论文中提到,通过增加更多的数据和计算来训练更大的模型可以提高准确率已经成为一种共识,但他们想更进一步,分析训练集规模、计算规模和模型准确性提高之间的关系。
他们的研究结果表明,深度学习的泛化误差确实显示出幂律改进,但其指数必须通过实证进行预测。
他们引入了一种方法,能够准确预测随着训练集规模增加而变化的泛化误差和模型大小。
他们使用这种方法来估计四个应用领域中的六个深度神经网络模型的scaling关系。
他们的结果显示,在所有测试的领域中都存在幂律学习曲线,尽管不同应用产生了不同的幂律指数和截距,但这些学习曲线跨越了广泛的模型、优化器、正则化器和损失函数。
此外,他们还描述了可预测的准确度和模型大小scaling的重要意义,认为学习曲线可以帮助调试模型,并为改进的模型架构预测准确性目标。
对于百度而言,早期对Scaling Law的研究未能及时转化为广泛的实践应用,这在公司的发展史上或许算得上是一个不小的遗憾。
原创文章,作者:讯知在线,如若转载,请注明出处:http://mip.xzxci.cn/2024/11/28/23734.shtml