Mistral AI开源轻巧高效能语言模型Mistral 7B

人工智慧新创公司Mistral AI以Apache 2.0授权开源Mistral 7B语言模型,Mistral 7B的特别之处在於其规模较小仅有73亿,但是在所有基准测试上,其表现都优於规模更大的语言模型Llama 2 13B,还具有编写程式码以及处理8,000个token的能力。

整体来说,Mistral 7B在多个基准测试,包括常识推理、世界知识、阅读理解、数学和程式码等,表现亮眼,除了明显优於Llama 2 13B之外,也和Llama 34B模型打成平手,其编写程式码的能力接近CodeLlama 7B,并且在英文任务中表现良好。

在大规模多工语言理解(MMLU)基准测试上,Mistral 7B的表现相当一个3倍大的Llama 2模型,但是却可大幅节省记忆体消耗,吞吐量也有所增加,其提供了更高的性价比。

Mistral 7B运用了群组查询注意力(GQA)加快推理速度,还使用滑动视窗注意力(SWA),以更小的成本处理较长的序列。群组查询注意力方法分组多个查询并且同时进行处理,透过这种方式,群组查询注意力机制能够减少重复计算,提高推理速度并降低运算成本。

滑动视窗注意力机制则限制模型,在神经网路的每一个层级,只能关注前面一定范围的token,这个限制视窗会根据模型的层数向前滑动,在更高的层数中,模型能够间接关注序列中更早出现的token。运用这种方式,滑动视窗注意力机制可以降低计算和记忆体需求,并更高效地处理长序列,Mistral 7B每层注意前4,096个隐藏状态,能够以线性计算成本提高处理速度,特别是序列长度为16,000时,速度提高达2倍。

这两种技术组合使Mistral 7B在处理各种不同任务时,具有高效和灵活性,同时保持良好的可扩展性。

另外,官方也运用公开指令资料集微调Mistral 7B,经过微调後的Mistral 7B Instruct模型在MT-Bench测试中表现良好,能够与130亿参数的聊天模型的效能相当。用户现在可以下载Mistral 7B并立即开始使用,可以选择部署在AWS、Azure和GCP等云端平台上,并且在vLLM推论服务和Skypilot框架上运行,同时还支援在HuggingFace平台上使用。

由於Mistral 7B采用Apache 2.0授权,因此用户几乎能够不受限制地自由使用模型,Mistral AI官方认为,开源解决方案将会超越专有解决方案,因为开源能够集结社群力量使得技术更加卓越,并且也只有开源模型才能够对抗审查与偏见,并交给开发者完全的控制能力,可依照需求调整模型大小和成本。

openvpn合法吗

About the Author

0 0 投票数
Article Rating
订阅评论
提醒
guest
0 Comments
内联反馈
查看所有评论

You may also like these

0
希望看到您的想法,请您发表评论x