你的位置:宁夏思丰电子商务有限公司 > 新闻动态 > >马斯克开源,大模子Glock深度剖析
热点资讯
新闻动态

马斯克开源,大模子Glock深度剖析

发布日期:2024-11-09 08:41    点击次数:124

马斯克开源,大模子Glock深度剖析

Glock与其他大模子的各异

埃隆·马斯克言而有信,开源了他家的大模子Glock。与其他基于Transformer架构的大模子比拟,Glock有何独有之处呢?本文将真切剖析Glock的架构联想,并与其他模子进行比较。

一、Glock的积木块:MOE架构

扫数的大模子齐构建于Transformer架构之上,Glock也不例外。在代码的1292行,界说了一个Transformer模块。

Glock的中枢在于其搀和人人(Mixture of Experts,MOE)架构。Glock使用了八人人两活跃的MOE模子,与之前开源的Mistral AI的八人人七活跃的7B模子一样,GPT-4的架构臆测也与此一样。

这意味着在每个Transformer层中,只消两个人人会被激活进行狡计,从而显贵缩短了狡计老本。

二、参数领域与层数对比

Glock的八人人两活跃MOE架构堆叠了64层,均为MOE模块。比拟之下,GPT-4堆叠了96层,参数目达到了惊东说念主的3140亿。

三、真切Glock的Transformer模块

从数据进口的词镶嵌层开动,Glock的词汇量为32072。镶嵌层的运筹帷幄是将词转机为高维向量,Glock将每个词转机为一个6144维的向量。

之后,数据干与多头适当力机制。Glock使用了48头适当力,将6144维的向量切分为48份,每份128维。

为了检朴算力和栽植速率,只消查询向量(Q)被切分为48头,键向量(K)和值向量(V)则被分红六组,每组分享八个头进行自适当力狡计。多头适当力机制之后是密集的前馈神经集中,将荫藏层领域放大八倍,达到8乘以6144的领域,参数目大幅增多。Glock单次最多不错继续8192个token,这意味着一次继续8192乘以6144个数字的纷乱数据流。

四、Glock的开源与改日量度

以上即是马斯克开源大模子Glock的总体框架剖析。尽管开源,但马斯克仍然可能濒临月旦:不开源被责问“卡脖子”,开源后又可能被诟病“数据继续形势失当”。

接下来将进行骨子部署测试,评估Glock的坐褥才略。



上一篇:房贷利率订价新机制明日落地!三个月、半年、一年,我该怎样选?
下一篇:天猫3C数码成交范围第一,新品首发带来品牌销量爆发