大模型性價(jià)比之王來了！訓(xùn)練2個(gè)月、花費(fèi)558萬美元性能匹敵GPT-4o

原創(chuàng)

2024-12-27 13:19 星期五

科創(chuàng)板日報(bào) 宋子喬

①與同類模型相比，DeepSeek-V3的預(yù)訓(xùn)練成本非常低；
②上一代模型DeepSeek-V2.5在3個(gè)月前正式發(fā)布；
③官方表示，DeepSeek-V3在性能上和GPT-4o以及Claude-3.5-Sonnet不分伯仲。

《科創(chuàng)板日報(bào)》12月27日訊（編輯宋子喬） 12月26日晚，幻方量化宣布，全新系列模型DeepSeek-V3上線并同步開源，API服務(wù)已同步更新，接口配置無需改動(dòng)。

其上一代模型DeepSeek-V2.5于9月6日正式發(fā)布，迭代速速不可謂不快。

據(jù)介紹，DeepSeek-V3為自研MoE模型，生成速度相比V2.5模型實(shí)現(xiàn)了3倍的提升，但暫不支持多模態(tài)輸入輸出。（小K注：MoE模型全稱Mixture of Experts，混合專家模型，是一種機(jī)器學(xué)習(xí)架構(gòu)，通過組合多個(gè)專家模型，在處理復(fù)雜任務(wù)時(shí)顯著提高效率和精度）。

參數(shù)和性能：DeepSeek-V3擁有6710億參數(shù)，其中激活參數(shù)為370億，在14.8萬億token上進(jìn)行了預(yù)訓(xùn)練。

生成速度：相比V2.5版本，DeepSeek-V3的生成速度提升至3倍，每秒吞吐量高達(dá)60 token。

開源和可用性：DeepSeek-V3完全開源。

多語言處理能力：雖然當(dāng)前版本暫不支持多模態(tài)輸入輸出，但在多語言處理方面表現(xiàn)出色，尤其在算法代碼和數(shù)學(xué)方面。

答案生成速度更快

另外，在多項(xiàng)基準(zhǔn)測試中，DeepSeek-V3的成績超越了Qwen2.5-72 B和Llama-3.1-405 B等其他開源模型，并在性能上和世界頂尖的閉源模型GPT-4o以及Claude-3.5-Sonnet不分伯仲。

其中，在數(shù)學(xué)能力方面，DeepSeek-V3大幅超過了所有開源閉源模型。（小K注：以2024年美國數(shù)學(xué)競賽和全國高中數(shù)學(xué)聯(lián)賽題庫進(jìn)行測試）

值得注意的是，幻方量化在已開源的論文中強(qiáng)調(diào)其訓(xùn)練成本極低——通過對(duì)算法、框架和硬件的優(yōu)化協(xié)同設(shè)計(jì)，假設(shè)H800GPU的租用價(jià)格為每塊GPU2美元/小時(shí)，DeepSeek-V3的全部訓(xùn)練成本總計(jì)僅為557.6萬美元（注：該成本僅包括DeepSeek-V3的正式訓(xùn)練，不包括與先前在架構(gòu)、算法或數(shù)據(jù)上的研究和消融實(shí)驗(yàn)相關(guān)的成本）：

訓(xùn)練成本合計(jì)

在預(yù)訓(xùn)練階段，模型每訓(xùn)練1萬億token僅需要180K個(gè)GPU小時(shí)，即在配備2048個(gè)GPU的集群上只需3.7天，也就是說，該階段團(tuán)隊(duì)使用2048塊H800 GPU訓(xùn)練了模型不到2個(gè)月便達(dá)成目標(biāo)；

另外，加上上下文長度scaling所需的119K GPU小時(shí)和后訓(xùn)練的5K GPU小時(shí)，DeepSeek-V3完整訓(xùn)練僅消耗2.788M個(gè)GPU小時(shí)。

圖源：開源論文

技術(shù)大牛Andrej Karpathy發(fā)文稱贊道：作為參考，要達(dá)到這種級(jí)別的能力，通常需要約1.6萬個(gè)GPU的計(jì)算集群。不僅如此，當(dāng)前業(yè)界正在部署的集群規(guī)模甚至已經(jīng)達(dá)到了10萬個(gè)GPU。比如，Llama 3 405B消耗了3080萬GPU小時(shí)，而看起來更強(qiáng)大的DeepSeek-V3卻只用了280萬GPU小時(shí)（計(jì)算量減少了約11倍）。（小K注：Karpathy是OpenAI的聯(lián)合創(chuàng)始人之一，并且曾擔(dān)任特斯拉的AI總監(jiān)）

Stability AI前CEO表示，以每秒60個(gè)token（相當(dāng)于人類閱讀速度5倍）的速度全天候運(yùn)行DeepSeek-V3，每天僅需要2美元。

API服務(wù)定價(jià)上調(diào)2倍有余

DeepSeek-V3的發(fā)布標(biāo)志著DeepSeek AI在自然語言處理和AI領(lǐng)域的又一重要進(jìn)步，預(yù)計(jì)將為開發(fā)者、企業(yè)和研究人員提供強(qiáng)大的工具和資源。其應(yīng)用場景主要包括：

聊天和編碼場景：為開發(fā)者設(shè)計(jì)，能夠理解和生成代碼，提高編程效率。

多語言自動(dòng)翻譯：支持多達(dá)20種語言的實(shí)時(shí)翻譯和語音識(shí)別，適合需要處理多種語言內(nèi)容的企業(yè)用戶。

圖像生成和AI繪畫：整合視覺理解技術(shù)，允許用戶通過簡單的文本描述生成高質(zhì)量圖像，豐富應(yīng)用場景和用戶創(chuàng)意表達(dá)的自由度。

性能更強(qiáng)、速度更快的DeepSeek-V3上線，幻方量化給出的定價(jià)是多少呢？新版本模型價(jià)格比上一代貴了2倍有余。

幻方量化表示DeepSeek-V3的API服務(wù)定價(jià)將上調(diào)為每百萬輸入tokens 0.5元（緩存命中）/2元（緩存未命中），每百萬輸出tokens 8元，按緩存未命中的輸入價(jià)格計(jì)，加總成本是10元人民幣。

上一代模型Deepseek-V2.5的價(jià)格是，輸入：0.14美元/百萬Token，輸出為：0.28美元/百萬Token，加總成本是0.14+0.28=0.42美元，大約3元人民幣。

這里的Token是大模型在處理數(shù)據(jù)時(shí)的最小單元，一般而言，100萬Token相當(dāng)于70萬-100萬英文單詞，或接近100萬中文漢字。列夫?托爾斯泰的名著《戰(zhàn)爭與和平》的英文版大約是大約有1200-1500頁、58萬英文單詞，把它翻譯為中文，大約有100-130萬字，讓DeepSeek-V3讀完全文只需要2元左右。

盡管提價(jià)，但與同類型模型相比，DeepSeek-V3依舊極具性價(jià)比。比如OpenAI的GPT 4o定價(jià)相當(dāng)高，輸入：5美元/百萬Token，輸出：15美元/百萬Token，加總成本是20美元，約合人民幣140元。