Meta新开源模型Llama 2 Long整体长文处理效能超越GPT-3.5 Turbo

Meta默默发表了新的语言模型研究论文〈Effective Long-Context Scaling of Foundation Models〉，这篇论文讲述关於处理长文本，最高可达到32,768个token的模型Llama 2 Long。这个模型表现良好，经过广泛的基准测试评估，在长上下文任务方面，Llama 2 Long明显优於之前发表的语言模型LLAMA 2，而在700亿参数的版本，不需要人工注释的长指令资料，表现就能优於gpt-3.5-turbo-16k模型整体能力。

语言模型逐渐改变人们与数位世界互动的方式，随着语言模型的部署和规模化，发展出越来越复杂且多样化的用例，但是要能支援更复杂的用例，模型势必需要更有效地处理长上下文输入。

不过，目前开源长上下文的模型仍然能力不足，在评估中表现不佳，而且这些模型通常是使用语言模型损失以及合成任务方法来评估效能，但这些方法无法完全展现模型在多样化、真实世界场景的能力，特别是在处理密集、知识丰富的文件，以及聊天机器人或是程式开发等应用。

用户想要使用强大的长上下文能力，通常还是只能使用Anthropic和OpenAI的大型语言模型API来实现，整体来说，目前缺乏与商业模型可相提并论的开源模型。

而Meta这篇论文的的主要贡献，便是训练出了能够在长上下文任务有良好表现的开源模型Llama 2 Long。研究人员把LLAMA 2当作基础，额外以4,000亿个token进行持续预训练，这些token被切割成许多较小的序列，来训练各种模型变体，像是70亿与130亿参数的模型变体，便使用长度32,768个token的序列进行训练，而340亿与700亿参数的模型变体，则使用使用长度为16,384个token的序列进行训练。

Meta的研究人员以更广泛的方法来评估Llama 2 Long，包括语言建模、合成任务和广泛的实际基准测试，这些测试可以涵盖长短上下文任务。在语言建模方法，他们发现Llama 2 Long存在明确与上下文长度有关的幂定律缩放行为（Power-Law Scaling Behavior），也就是说上下文长度增加时，模型的效能也会按照固定比例增加。这代表提供更多的文本资讯时，模型也会表现得更好，因此模型能够利用更多的文本资讯，做出更准确的预测。另外，幂定律缩放行为也说明，上下文长度是缩放语言模型的另一个重要的要素。

与Llama 2相比，Llama 2 Long除了在长上下文任务能力有明显的进步外，在标准短上下文任务，例如程式开发、数学和知识基准，也都有一定程度的改进。研究人员提到，他们发现一个简单且成本效益高的方法，不需要人工注释资料，就能微调持续预训练的长模型成聊天模型，在问答、摘要和多文件聚合任务的长上下文基准测试上，整体效能超越gpt-3.5-turbo-16k。

Meta研究人员继续Llama 2语言模型的发展，利用额外4,000亿个token进行训练，并在短、长任务超越Llama 2表现，而且相较於现有的开源长上下文模型，以及gpt-3.5-turbo-16k模型，Llama 2 Long在经过简单指令微调後，已经可以表现出良好的效能。

彙整

分類

Meta新开源模型Llama 2 Long整体长文处理效能超越GPT-3.5 Turbo

About the Author

openvpn怎么购买

You may also like these

香港金融业职员遇到 Deepfake 视讯会议诈骗，损失 8 亿元

Google新框架ASPIRE有效让AI自我评估输出对错

台达首度举办年终转职面谈会　徵才锁定电动车、AI、资通讯等领域 – 企业职场 – TechNice科技岛-掌握科技与行销最新动态

福斯汽车将让ChatGPT成为众多车款的标配