Mistral AI开源轻巧高效能语言模型Mistral 7B

人工智慧新创公司Mistral AI以Apache 2.0授权开源Mistral 7B语言模型，Mistral 7B的特别之处在於其规模较小仅有73亿，但是在所有基准测试上，其表现都优於规模更大的语言模型Llama 2 13B，还具有编写程式码以及处理8,000个token的能力。

整体来说，Mistral 7B在多个基准测试，包括常识推理、世界知识、阅读理解、数学和程式码等，表现亮眼，除了明显优於Llama 2 13B之外，也和Llama 34B模型打成平手，其编写程式码的能力接近CodeLlama 7B，并且在英文任务中表现良好。

在大规模多工语言理解（MMLU）基准测试上，Mistral 7B的表现相当一个3倍大的Llama 2模型，但是却可大幅节省记忆体消耗，吞吐量也有所增加，其提供了更高的性价比。

Mistral 7B运用了群组查询注意力（GQA）加快推理速度，还使用滑动视窗注意力（SWA），以更小的成本处理较长的序列。群组查询注意力方法分组多个查询并且同时进行处理，透过这种方式，群组查询注意力机制能够减少重复计算，提高推理速度并降低运算成本。

滑动视窗注意力机制则限制模型，在神经网路的每一个层级，只能关注前面一定范围的token，这个限制视窗会根据模型的层数向前滑动，在更高的层数中，模型能够间接关注序列中更早出现的token。运用这种方式，滑动视窗注意力机制可以降低计算和记忆体需求，并更高效地处理长序列，Mistral 7B每层注意前4,096个隐藏状态，能够以线性计算成本提高处理速度，特别是序列长度为16,000时，速度提高达2倍。

这两种技术组合使Mistral 7B在处理各种不同任务时，具有高效和灵活性，同时保持良好的可扩展性。

另外，官方也运用公开指令资料集微调Mistral 7B，经过微调後的Mistral 7B Instruct模型在MT-Bench测试中表现良好，能够与130亿参数的聊天模型的效能相当。用户现在可以下载Mistral 7B并立即开始使用，可以选择部署在AWS、Azure和GCP等云端平台上，并且在vLLM推论服务和Skypilot框架上运行，同时还支援在HuggingFace平台上使用。

由於Mistral 7B采用Apache 2.0授权，因此用户几乎能够不受限制地自由使用模型，Mistral AI官方认为，开源解决方案将会超越专有解决方案，因为开源能够集结社群力量使得技术更加卓越，并且也只有开源模型才能够对抗审查与偏见，并交给开发者完全的控制能力，可依照需求调整模型大小和成本。

彙整

分類

Mistral AI开源轻巧高效能语言模型Mistral 7B

About the Author

openvpn合法吗

You may also like these

AI EXPO Taiwan 2024 齐聚产官学领袖制高视野抢占 AI 新经济时代先机

Google新框架ASPIRE有效让AI自我评估输出对错

离通用AI更近了！Google DeepMind新AI媲美国际数学奥林匹克金牌的解题能力

福斯汽车将让ChatGPT成为众多车款的标配