全球百事通!GPT-4 由 8 個 MoE 模型組成,真的嗎?
【資料圖】
讓大家沒想到的是,被傳的神乎其神的GPT-4依舊是大力出奇跡的產(chǎn)物?;氐絜nsemble的老路上去了,OpenAI一直在畫的AGI的大餅感覺又離我們遠了。
黑客 George Hotz 在一個播客中透露,GPT-4 是由 8 個 2200 億參數(shù)的 MoE 模型組成的,每個模型都針對不同的數(shù)據(jù)和任務分布進行了訓練,然后通過一些小技巧將它們混合起來。他還說,這樣做是因為單個模型的參數(shù)規(guī)模已經(jīng)達到了極限,而且訓練時間越長效果越差,所以他們采用了多模型集成的方法來提高性能。他認為,OpenAI 對此保密的原因是不想讓別人知道他們的模型并不是那么先進,只要花更多的錢就能復制。
這個說法得到了 PyTorch 創(chuàng)始人 Soumith Chintala 的認可2,他表示自己也聽過類似的傳聞,但只有 George Hotz 在公開場合說出來了。不過,也有人對這個說法表示懷疑或質(zhì)疑134,認為這樣的模型推理成本太高,而且沒有充分利用 GPT-4 的潛力。目前,OpenAI 還沒有對這個爆料做出任何回應或證實。
這件事情很可能是真的,理由如下:
已知的Prior:
1.多個信源認為GPT4比GPT3.5參數(shù)量大至少一個數(shù)量級,也就是1.7萬億以上。
2. OpenAI去年六月發(fā)表過技術報告說他們訓練LLM用了MoE.
現(xiàn)在的觀測:
有人說GPT4是一個1.76萬億參數(shù)的MoE
網(wǎng)友得知秘訣后,打算自己也要訓練一個LLaMA集合體與GPT-4競爭。