Mistral AI开源采用SMoE架构的Mixtral 8x7B模型，整体效能超越Llama 2 70B与GPT-3.5

Mistral AI发表了最新的Mixtral 8x7B模型，这个模型是一个具有开放权重的稀疏混合专家模型（Sparse Mixture of Experts Model，SMoE），能够处理32,000个Token上下文，大多数基准测试表现都优於Llama 2 70B（700亿参数）和GPT 3.5模型，并采用Apache 2.0授权开源。

Mixtral 8x7B属於稀疏混合专家模型，而稀疏混合专家模型是一种深度学习架构，适合用於建置大型且高效的神经网路。专家系统是这类模型的重要概念，指的是网路中特定子模组或是子网路，每个专家都擅长处理特定类型的输入资料或是任务。

而稀疏混合专家模型中的稀疏性，则是指每次输入仅会触发一小部分专家，也就是说，并非每一个输入都需要经过所有专家处理，因此可有效降低运算成本。稀疏混合专家模型中经过训练的路由器，能够根据输入资料的特性，分配任务给最适合的专家，而在Mixtral 8x7B模型中，路由器会根据收到的任务决定2个最相关的专家，在2个专家各自处理完输入後，专家输出会被整合成最终的输出。

稀疏混合专家模型透过结合不同专家的知识和技能，以稀疏的方式处理资料，提高大型神经网路的效率和效能，在处理大量参数和资料的同时，将计算成本维持在合理范围。

Mixtral 8x7B模型总共拥有467亿个参数，虽然总参数数量很大，但在处理每个Token时，模型只会选择并使用其中的129亿个参数，而这便是稀疏性的体现，Mixtral 8x7B模型并不会每次都启动所有参数。而也因为模型每次只使用部分参数，使得处理速度和运算成本，相当於一个仅有129亿个参数的模型。

根据官方的资料，相比同为开源的Llama 2 70B模型，Mixtral 8x7B在多数基准测试表现更好，推理速度更是Llama 2 70B的6倍，而且Mixtral 8x7B在大多数标准基准测试中，表现也都与GPT3.5相当甚至超越。在幻觉（Hallucination）和偏见（Bias）方面，比起Llama 2，Mixtral表现更加真实，并且呈现较少的偏见。

目前Mixtral 8x7B能够处理英文、法文、义大利文、德文和西班牙文，其生成程式码的能力很出色。Mixtral 8x7B经过微调後的指令跟随模型Mixtral 8x7B Instruct，在MT-Bench获得8.3分，成为目前最佳的开源指令跟随模型，效能与GPT 3.5相当。

12 月 13, 2023Leave a Commentopenvpn注册教程

大数据

0 0 投票数

Article Rating

订阅评论

0 Comments

内联反馈

查看所有评论

彙整

分類

Mistral AI开源采用SMoE架构的Mixtral 8x7B模型，整体效能超越Llama 2 70B与GPT-3.5

About the Author

openvpn合法吗

You may also like these

AI EXPO Taiwan 2024 齐聚产官学领袖制高视野抢占 AI 新经济时代先机

Google新框架ASPIRE有效让AI自我评估输出对错

福斯汽车将让ChatGPT成为众多车款的标配

Fintech周报第226期：欧洲纯网银bunq推出生成式AI助理，能统整存户消费模式