马斯克开源,大模子Glock深度剖析
埃隆·马斯克言而有信,开源了他家的大模子Glock。与其他基于Transformer架构的大模子比拟,Glock有何独有之处呢?本文将真切剖析Glock的架构联想,并与其他模子进行比较。
一、Glock的积木块:MOE架构扫数的大模子齐构建于Transformer架构之上,Glock也不例外。在代码的1292行,界说了一个Transformer模块。
Glock的中枢在于其搀和人人(Mixture of Experts,MOE)架构。Glock使用了八人人两活跃的MOE模子,与之前开源的Mistral AI的八人人七活跃的7B模子一样,GPT-4的架构臆测也与此一样。
这意味着在每个Transformer层中,只消两个人人会被激活进行狡计,从而显贵缩短了狡计老本。
二、参数领域与层数对比Glock的八人人两活跃MOE架构堆叠了64层,均为MOE模块。比拟之下,GPT-4堆叠了96层,参数目达到了惊东说念主的3140亿。
三、真切Glock的Transformer模块从数据进口的词镶嵌层开动,Glock的词汇量为32072。镶嵌层的运筹帷幄是将词转机为高维向量,Glock将每个词转机为一个6144维的向量。
之后,数据干与多头适当力机制。Glock使用了48头适当力,将6144维的向量切分为48份,每份128维。
为了检朴算力和栽植速率,只消查询向量(Q)被切分为48头,键向量(K)和值向量(V)则被分红六组,每组分享八个头进行自适当力狡计。多头适当力机制之后是密集的前馈神经集中,将荫藏层领域放大八倍,达到8乘以6144的领域,参数目大幅增多。Glock单次最多不错继续8192个token,这意味着一次继续8192乘以6144个数字的纷乱数据流。
四、Glock的开源与改日量度以上即是马斯克开源大模子Glock的总体框架剖析。尽管开源,但马斯克仍然可能濒临月旦:不开源被责问“卡脖子”,开源后又可能被诟病“数据继续形势失当”。
接下来将进行骨子部署测试,评估Glock的坐褥才略。