制服丝袜av无码专区在线,亚洲中文字幕波多野结衣

清博智能王歡：實時接入結(jié)構(gòu)化數(shù)據(jù)的大語言模型是如何練成的？

原創(chuàng)

2023-06-27 20:15 星期二

科創(chuàng)板日報記者徐賜豪

①從底層做個大模型有兩個關(guān)鍵點：一個是算力，一個是數(shù)據(jù)質(zhì)量；算力的大小直接限制參數(shù)的大小，數(shù)據(jù)的質(zhì)量決定了模型的好壞。
②先問基于2000億開源數(shù)據(jù)集、百萬級專業(yè)人工數(shù)據(jù)集，具有數(shù)據(jù)可溯源、實時同步、可視化分析、多參數(shù)版本特點，同時支持用戶本地化部署。

《科創(chuàng)板日報》6月27日訊（記者徐賜豪） 今年以來，百度、360、阿里巴巴、科大訊飛等互聯(lián)網(wǎng)巨頭相繼發(fā)布自己的通用大模型，儼然形成了“千模大戰(zhàn)”局勢。

此外，更多垂直行業(yè)企業(yè)也加入了這場“狂熱”。日前，在中國江寧2023元宇宙產(chǎn)業(yè)·人才高峰論壇暨AIGC發(fā)展大會上，清博智能科技有限公司發(fā)布了針對融媒體行業(yè)的首個實時接入全網(wǎng)結(jié)構(gòu)化數(shù)據(jù)的大語言模型——“先問”。

本期《元宇宙之約》我們對話了清博智能技術(shù)副總裁王歡。其在大數(shù)據(jù)與AI領(lǐng)域有十多年的從業(yè)經(jīng)驗，其負(fù)責(zé)設(shè)計與研發(fā)的清博輿情平臺服務(wù)數(shù)十萬用戶，并且在一站式自動機器學(xué)習(xí)平臺、智能對話平臺的構(gòu)建與研發(fā)有豐富的實踐經(jīng)驗。

他透露，先問核心團(tuán)隊有10多人，主要來自包括來自清華、中科大、合工大、華盛頓大學(xué)等國內(nèi)外知名高校的技術(shù)人員。先問基于2000億開源數(shù)據(jù)集、百萬級專業(yè)人工數(shù)據(jù)集，具有數(shù)據(jù)可溯源、實時同步、可視化分析、多參數(shù)版本特點，同時支持用戶本地化部署。

在他看來，從底層做個大模型有兩個關(guān)鍵點：一個是算力，一個是數(shù)據(jù)質(zhì)量；算力的大小直接限制參數(shù)的大小，數(shù)據(jù)的質(zhì)量決定了模型的好壞。

我們注意到先問大模型提到數(shù)據(jù)可溯源，這個怎么來理解？

王歡：“先問”給了用戶“溯源”的權(quán)利。對于AI給出的每一句回答，用戶都可以單獨查詢它的來源。對于需要使用AI來產(chǎn)出正式內(nèi)容的用戶，這種方式雖然會多花些時間，但能核實真實度。

在模型回答問題的實時性上，先問跟ChatGPT的不同在哪里？

王歡：比如你問ChatGPT對于埃隆馬斯克最近訪華怎么看，因為它是基于2018年那次訪問回答的，這個就不準(zhǔn)確。當(dāng)然ChatGPT可以基于插件來回答。

我們跟ChatGPT最大的差別是，我們的數(shù)據(jù)是結(jié)構(gòu)化的。我知道哪些媒體的權(quán)重高，哪些媒體數(shù)據(jù)的質(zhì)量更高。以及這些內(nèi)容是否符合社會價值觀，包括正負(fù)面信息都可以被篩選出來。底層數(shù)據(jù)都會根據(jù)我們制定的200多個數(shù)據(jù)標(biāo)簽分類好。

我們基于這些結(jié)構(gòu)化的數(shù)據(jù)就可以很好召回用戶想要的數(shù)據(jù)。然后再結(jié)合模型的能力，實時生成比較好的回答。這就是先問跟ChatGPT的最大不同。

結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)有何不同？

王歡：非結(jié)構(gòu)化數(shù)據(jù)，比如說你現(xiàn)在訪問的網(wǎng)頁，你只看正文部分它就是文本，它的內(nèi)容就是原始正文。搜素引擎看的就是原始正文，給它訓(xùn)練的數(shù)據(jù)也是原始正文。

結(jié)構(gòu)化數(shù)據(jù)不僅知道它的原始正文信息，還對這些信息做了結(jié)構(gòu)化處理，包括發(fā)布提及的地域信息、文本分詞信息、內(nèi)容分類以及正負(fù)面；另外還有發(fā)布的作者信息，比如發(fā)布媒體的畫像、權(quán)重等信息。這樣你可以找回一些質(zhì)量更高或者可信度更高的信息。

先問如何兼顧模型的回答與人類價值觀相對齊兩個問題？

王歡：第一，本身數(shù)據(jù)源就很重要，因為國內(nèi)的數(shù)據(jù)源基本上都是經(jīng)過“審核”符合社會價值觀的。

第二，我們本身是結(jié)構(gòu)化數(shù)據(jù)，對數(shù)據(jù)已經(jīng)打了許多標(biāo)簽，對數(shù)據(jù)是有畫像的。比如說人民日報、央視的數(shù)據(jù)內(nèi)容肯定沒有問題，沒有依據(jù)的媒體的可能就不會被召回，這是數(shù)據(jù)層面。

第三，我們對模型本身做了一些無害訓(xùn)練，以避免它去回答這些違反價值觀的提問，在“先問”平臺上，我們也前置了有害問題檢測模型，進(jìn)一步防止模型被誘導(dǎo)輸出有害內(nèi)容。

如何理解多模態(tài)大模型？

王歡：現(xiàn)在“先問”可以回答的主要還是文本，但以后其實還有圖像、視頻、音頻等回答模式。多模態(tài)的做法主要有兩種：一種是大語言模型只做語言，能理解你的需求，比如你需要畫一張畫，可以調(diào)用模型給你生成，目前這種方式比較多；另外一種就是融合性，這種模型的數(shù)據(jù)本身既包含了文本，又包含圖像、音頻、視頻，這種生成是端到端的模式。

做好大模型的關(guān)鍵在于算力和數(shù)據(jù)質(zhì)量

清博智能是什么時候開始做大模型的？

王歡：在Transformer出來的時候我們就開始做生成式的語言模型了。因為我們內(nèi)部也要寫報告，幾百人團(tuán)隊的人力成本比較高，我們就想機器來寫。在ChatGPT火爆之前，我們嘗試了很多模型，但是效果不太好，一個是數(shù)據(jù)的問題，一個就是訓(xùn)練方法不夠好，參數(shù)也不夠多，生成的報告可讀性不高。

ChatGPT大模型出來以后，我們發(fā)現(xiàn)它擅長寫文章，然后就采用這種模式，基于開源的基座模型結(jié)合自己的高質(zhì)量報告數(shù)據(jù)，以及數(shù)據(jù)分析引擎，開發(fā)了“先問”，并且效果好了很多。

在做大模型過程中，你們團(tuán)隊遇到哪些難點？又是如何克服困難的？

王歡：一個是數(shù)據(jù)本身，因為是結(jié)構(gòu)化數(shù)據(jù)，怎樣召回這些數(shù)據(jù)是一個大的問題。我們要有自己的獨特算法，讓模型召回的數(shù)據(jù)質(zhì)量更高。另外，它上下文的記憶長度是有限的，在有限長度之內(nèi)給模型提供哪些數(shù)據(jù)，這是我們需要考慮的問題。此外就是如何讓模型理解上下文，特別是在多輪交互方面是很難的。

為了攻克這些難點，我們除了做大模型外，也做了一些小模型。數(shù)據(jù)方面比如排序模型、指數(shù)模型等，基于這些小模型讓召回的數(shù)據(jù)更加可靠。另外我們在大模型的基礎(chǔ)上，結(jié)合大量人工標(biāo)注的數(shù)據(jù)來訓(xùn)練模型對用戶意圖的理解能力，更好地理解用戶的提問意圖。

如果是100分制的話，“先問”可以達(dá)到七八十分，目前還在持續(xù)優(yōu)化中。

回過頭來看，做好大模型的關(guān)鍵點在哪里？

王歡：關(guān)鍵點有兩個：一個就是算力的大小，一個就是數(shù)據(jù)質(zhì)量的好壞。因為每家的底層算法其實都差不多。算力大小直接限制了參數(shù)的大小，數(shù)據(jù)的質(zhì)量決定了模型的好壞。

對于做大模型來說，成本結(jié)構(gòu)是怎樣的？

王歡：百分之六、七?十的成本花在算力上，人工、算法的成本比較低，其他成本就是數(shù)據(jù)標(biāo)注與處理的成本，這個百分之二十左右。

訓(xùn)練基座模型的成本很高，它本身需要上萬億Token的量級的數(shù)據(jù)，這個數(shù)據(jù)集的構(gòu)建成本很高。但是對于垂直企業(yè)來說，比如說只是做醫(yī)療業(yè)務(wù)的，它的基座模型別人已經(jīng)訓(xùn)練好了，不用萬億的Token來訓(xùn)練模型，這個訓(xùn)練成本就低了很多。

閱60.07W

我要評論

反饋意見