大型語言和多模態模型的訓練計算量也在穩步增加(圖1.2.16)。用于訓練Minerva(540B)的計算量大約是OpenAI的GPT-3(2022年6月發布)的9倍,是GPT-2(2019年2月發布)的1839倍。Minerva是谷歌于2022年6月發布的一個大型語言和多模模型,在定量推理問題上表現出了令人印象深刻的能力。
2019-22年選擇大型語言和多模態模型的訓練計算(FLOP)
圖1.2.16
訓練費用
圍繞大型語言和多模態模型的話語的一個特殊主題與它們的假設成本有關。盡管人工智能公司很少公開談論訓練成本,但人們普遍猜測,這些模型的訓練成本為數百萬美元,而且隨著規模的擴大,成本將變得越來越昂貴。本小節介紹了一種新的分析,其中人工智能索引研究團隊對各種大型語言和多模態模型的訓練成本進行了估計(圖1.2.17)。這些估計是基于模型的作者所披露的硬件和訓練時間。在沒有透露訓練時間的情況下,我們根據硬件速度、訓練計算和硬件利用率效率進行計算。考慮到估計值的可能可變性,我們用中、高或低的標簽來限定每個估計值:中估計值被認為是中級估計值,高被認為是高估估計值,低被認為是低估估計值。在某些情況下,沒有足夠的數據來估計特定的大型語言和多模態模型的訓練成本,因此這些模型在我們的分析中被省略了。
選擇大型語言和多模態模型的估計訓練成本
圖1.2.17
大型語言和多模態模型的成本與其規模之間也有明顯的關系。如圖1.2.18和1.2.19所示,具有更多參數的大型語言和多模態模型以及使用大量計算的訓練往往更昂貴。
選擇大型語言和多模態模型的估計訓練成本和參數數
圖1.2.18
選擇大型語言和多模態模型的估計訓練成本及訓練計算(FLOP)
圖1.2.19
人工智能會議是研究人員分享其工作、與同行和合作者建立聯系的關鍵場所。出席會議表明了人們對一個科學領域的更廣泛的工業和學術興趣。在過去的20年里,人工智能會議的規模、數量和聲望都有所增長。本節介紹了參加主要人工智能會議的趨勢數據。
2025-05-12 08:39
2025-05-12 08:33
2025-05-12 08:30
2025-05-12 08:23
2025-05-07 13:20
2025-05-06 10:42
2025-05-06 10:41
2025-05-06 09:28
2025-05-06 09:27
2025-04-28 14:41