Mistral AI开源采用SMoE架构的Mixtral 8x7B模型,整体效能超越Llama 2 70B与GPT-3.5

Mistral AI发表了最新的Mixtral 8x7B模型,这个模型是一个具有开放权重的稀疏混合专家模型(Sparse Mixture of Experts Model,SMoE),能够处理32,000个Token上下文,大多数基准测试表现都优於Llama 2 70B(700亿参数)和GPT 3.5模型,并采用Apache 2.0授权开源。

Mixtral 8x7B属於稀疏混合专家模型,而稀疏混合专家模型是一种深度学习架构,适合用於建置大型且高效的神经网路。专家系统是这类模型的重要概念,指的是网路中特定子模组或是子网路,每个专家都擅长处理特定类型的输入资料或是任务。

而稀疏混合专家模型中的稀疏性,则是指每次输入仅会触发一小部分专家,也就是说,并非每一个输入都需要经过所有专家处理,因此可有效降低运算成本。稀疏混合专家模型中经过训练的路由器,能够根据输入资料的特性,分配任务给最适合的专家,而在Mixtral 8x7B模型中,路由器会根据收到的任务决定2个最相关的专家,在2个专家各自处理完输入後,专家输出会被整合成最终的输出。

稀疏混合专家模型透过结合不同专家的知识和技能,以稀疏的方式处理资料,提高大型神经网路的效率和效能,在处理大量参数和资料的同时,将计算成本维持在合理范围。

Mixtral 8x7B模型总共拥有467亿个参数,虽然总参数数量很大,但在处理每个Token时,模型只会选择并使用其中的129亿个参数,而这便是稀疏性的体现,Mixtral 8x7B模型并不会每次都启动所有参数。而也因为模型每次只使用部分参数,使得处理速度和运算成本,相当於一个仅有129亿个参数的模型。

根据官方的资料,相比同为开源的Llama 2 70B模型,Mixtral 8x7B在多数基准测试表现更好,推理速度更是Llama 2 70B的6倍,而且Mixtral 8x7B在大多数标准基准测试中,表现也都与GPT3.5相当甚至超越。在幻觉(Hallucination)和偏见(Bias)方面,比起Llama 2,Mixtral表现更加真实,并且呈现较少的偏见。

目前Mixtral 8x7B能够处理英文、法文、义大利文、德文和西班牙文,其生成程式码的能力很出色。Mixtral 8x7B经过微调後的指令跟随模型Mixtral 8x7B Instruct,在MT-Bench获得8.3分,成为目前最佳的开源指令跟随模型,效能与GPT 3.5相当。

openvpn合法吗

About the Author

0 0 投票数
Article Rating
订阅评论
提醒
guest
0 Comments
内联反馈
查看所有评论

You may also like these

0
希望看到您的想法,请您发表评论x