你現(xiàn)在的位置:

全球百事通！GPT-4 由 8 個 MoE 模型組成，真的嗎？

2023-06-27 00:22:53 來源：商業(yè)新知網(wǎng)

【資料圖】

讓大家沒想到的是，被傳的神乎其神的GPT-4依舊是大力出奇跡的產(chǎn)物?；氐絜nsemble的老路上去了，OpenAI一直在畫的AGI的大餅感覺又離我們遠了。

黑客 George Hotz 在一個播客中透露，GPT-4 是由 8 個 2200 億參數(shù)的 MoE 模型組成的，每個模型都針對不同的數(shù)據(jù)和任務分布進行了訓練，然后通過一些小技巧將它們混合起來。他還說，這樣做是因為單個模型的參數(shù)規(guī)模已經(jīng)達到了極限，而且訓練時間越長效果越差，所以他們采用了多模型集成的方法來提高性能。他認為，OpenAI 對此保密的原因是不想讓別人知道他們的模型并不是那么先進，只要花更多的錢就能復制。

這個說法得到了 PyTorch 創(chuàng)始人 Soumith Chintala 的認可2，他表示自己也聽過類似的傳聞，但只有 George Hotz 在公開場合說出來了。不過，也有人對這個說法表示懷疑或質(zhì)疑134，認為這樣的模型推理成本太高，而且沒有充分利用 GPT-4 的潛力。目前，OpenAI 還沒有對這個爆料做出任何回應或證實。

這件事情很可能是真的，理由如下：

已知的Prior：

1.多個信源認為GPT4比GPT3.5參數(shù)量大至少一個數(shù)量級，也就是1.7萬億以上。

2. OpenAI去年六月發(fā)表過技術報告說他們訓練LLM用了MoE.

現(xiàn)在的觀測：

有人說GPT4是一個1.76萬億參數(shù)的MoE

網(wǎng)友得知秘訣后，打算自己也要訓練一個LLaMA集合體與GPT-4競爭。

外匯前線版權(quán)與免責聲明：
 1、外匯前線所有內(nèi)容的版權(quán)均屬于作者或頁面內(nèi)聲明的版權(quán)人。未經(jīng)外匯前線的書面許可，
        任何其他個人或組織均不得以任何形式將河南企業(yè)網(wǎng)的各項資源轉(zhuǎn)載、復制、編輯或發(fā)布使用于其他任何場合；不得把其中任何形式的資訊散發(fā)給其他方，
        不可把這些信息在其他的服務器或文檔中作鏡像復制或保存；不得修改或再使用外匯前線的任何資源。若有意轉(zhuǎn)載本站信息資料，
        必需取得外匯前線書面授權(quán)。否則將追究其法律責任。
 2、已經(jīng)本網(wǎng)授權(quán)使用作品的，應在授權(quán)范圍內(nèi)使用，并注明“來源：外匯前線”。違反上述聲明者，本網(wǎng)將追究其相關法律責任。
 3、凡本網(wǎng)注明“來源：XXX（非外匯前線）”的作品，均轉(zhuǎn)載自其它媒體，轉(zhuǎn)載目的在于傳遞更多信息，
        并不代表本網(wǎng)贊同其觀點和對其真實性負責。本網(wǎng)轉(zhuǎn)載其他媒體之稿件，意在為公眾提供免費服務。如稿件版權(quán)單位或個人不想在本網(wǎng)發(fā)布，
        可與本網(wǎng)聯(lián)系，本網(wǎng)視情況可立即將其撤除。