金融大模型應(yīng)用評測報告出爐,安全對齊表現(xiàn)優(yōu)異,專業(yè)認(rèn)知、多模態(tài)處理能力亟待提升
2024-12-13 12:47 星期五
按綜合總分排名,Anthropic、階躍星辰/財躍星辰和阿里巴巴的參評模型位列前三。

2024年12月13日,上海人工智能實驗室聯(lián)合上海財經(jīng)大學(xué)、上海庫帕思科技有限公司發(fā)布《金融大模型應(yīng)用評測報告(2024)》(以下簡稱《報告》)。 評測圍繞金融行業(yè)的核心業(yè)務(wù)需求及大模型在金融場景中的適配性,結(jié)合銀行、證券、保險、基金等重點應(yīng)用場景,對14家機構(gòu)的20個主流大模型的金融專業(yè)能力進行了評測。

結(jié)果顯示,參評模型在金融安全與價值對齊方面表現(xiàn)優(yōu)異,體現(xiàn)出行業(yè)對關(guān)鍵合規(guī)性和倫理問題普遍高度重視;而在模型基礎(chǔ)能力、金融專業(yè)認(rèn)知,特別是多模態(tài)處理能力等方面,參評模型存在一定短板,尤其是在復(fù)雜金融業(yè)務(wù)場景中的表現(xiàn)亟待提升。按綜合總分排名,Anthropic、階躍星辰/財躍星辰和阿里巴巴的參評模型位列前三。

未來,金融領(lǐng)域評測報告將以每年一至兩次的頻率發(fā)布,旨在為行業(yè)提供客觀評測結(jié)果與方向指引參考,助力金融科技在智能化、專業(yè)化、精細(xì)化方向上進一步突破與發(fā)展。

image

image

訪問鏈接或掃描二維碼可下載摘要版《報告》:

https://img.shlab.org.cn/pjlab/files/2024/12/638695925361130000.pdf

image

報告摘要

?參評模型在金融安全與價值觀對齊方面表現(xiàn)優(yōu)異,體現(xiàn)出行業(yè)對關(guān)鍵合規(guī)性和倫理問題高度重視。

?在模型基礎(chǔ)能力、金融專業(yè)認(rèn)知能力,特別是多模態(tài)處理能力等方面,參評模型存在一定短板,尤其是在復(fù)雜金融業(yè)務(wù)場景中的表現(xiàn)亟待提升。

?在金融業(yè)務(wù)輔助拓展能力維度,模型在智能投資顧問方面的整體表現(xiàn)尤為亮眼,這既反映了大模型的應(yīng)用潛力,也揭示了評測數(shù)據(jù)集在構(gòu)建業(yè)務(wù)方向的豐富性和復(fù)雜程度方面仍有較大提升空間。

?隨著大模型在金融業(yè)務(wù)場景應(yīng)用的深入和擴展,安全問題或以更隱蔽和多變的形式顯現(xiàn)。因此,持續(xù)迭代更新安全評測方法,強化相關(guān)數(shù)據(jù)集建設(shè)將是未來的重點任務(wù)。

?高質(zhì)量金融語料數(shù)據(jù)集的可持續(xù)供給對提升模型能力具有決定性意義。特別是在多模態(tài)金融數(shù)據(jù)集方面,當(dāng)前的供給不足已成為業(yè)界共同面臨的瓶頸。

為促進大模型的產(chǎn)業(yè)應(yīng)用與生態(tài)發(fā)展,上海AI實驗室構(gòu)建了大模型開源開放評測體系司南(OpenCompass),客觀中立地為大模型技術(shù)創(chuàng)新提供堅實的技術(shù)支撐;同時積極與業(yè)界共建垂類評測,通過構(gòu)建評測基準(zhǔn)-評測-應(yīng)用閉環(huán),發(fā)揮評測數(shù)據(jù)價值,為產(chǎn)業(yè)應(yīng)用提供方向牽引與安全保障。

本次評測的開展,旨在切實提升金融服務(wù)的智能化水平,降低企業(yè)數(shù)字化轉(zhuǎn)型成本,并積極探索金融垂直領(lǐng)域大模型應(yīng)用的新理念、新機制和新手段,進一步推動金融科技創(chuàng)新應(yīng)用的發(fā)展。

評測以司南平臺為核心工具,圍繞金融行業(yè)的核心業(yè)務(wù)需求及大模型在金融場景中的適配性,結(jié)合銀行、證券、保險、基金等重點應(yīng)用場景,形成“模型基礎(chǔ)能力”“金融安全與價值對齊能力”“金融風(fēng)險控制能力”“金融專業(yè)認(rèn)知能力”“金融業(yè)務(wù)輔助拓展能力” 等五大測評維度?;凇督鹑诖竽P蛻?yīng)用評測指南》(T/SAIAS 019—2024)團體標(biāo)準(zhǔn),評測采用了《庫帕思金融大模型評測數(shù)據(jù)集(2024版)》。評測對象包括14家機構(gòu)的20個主流大模型,含閉源和開源模型,分別通過購買API 接口和下載部署的方式進行測試。綜合評估分?jǐn)?shù)采用線性加權(quán)模型,對每項指標(biāo)進行標(biāo)準(zhǔn)化處理后加權(quán)平均計算。

image

《報告》顯示,參評模型綜合平均得分為71.9。在5大評測維度中,參評模型在金融安全與價值對齊能力維度表現(xiàn)最為出色,平均得分達(dá)92.8。在模型基礎(chǔ)能力和金融專業(yè)認(rèn)知能力(含多模態(tài)任務(wù))維度得分較低,分別為59.8和52.0,且各模型表現(xiàn)差異較大。

綜合總分排名前三的模型依次為:

1.Anthropic Claude-3.5-Sonnet-20240620, 79.8分

2.階躍星辰/財躍星辰 Step-2-16k/Finstep,79.7分

3.阿里巴巴 Qwen2.5-72b-Instruct/Qwen2-VL-72B,77.6分

本次測評一定程度上展示了大模型在金融應(yīng)用方向的能力現(xiàn)狀,各模型整體表現(xiàn)基本滿足當(dāng)下場景需求,其中金融安全與價值對齊表現(xiàn)優(yōu)異,但仍存在較大提升空間,如金融專業(yè)認(rèn)知和多模態(tài)處理能力。本次評測是依據(jù)《金融大模型應(yīng)用評測指南》(T/SAIAS 019—2024)團體標(biāo)準(zhǔn),使用《庫帕思金融大模型評測數(shù)據(jù)集(2024版)》,通過司南大模型開源開放評測體系對部分通用大模型和金融垂類大模型的一次抽樣測試。評測并未涵蓋所有的金融場景和模型,評測數(shù)據(jù)集的部分樣例已在OpenDataLab社區(qū)公開。

本次評測是相關(guān)工作的第一步,通過選取部分模型進行評估來對方法進行驗證。未來,還將每年開展至少1-2次評測,并逐步擴大測試范圍,開放和共建評測工具、評測數(shù)據(jù)集和評測方法體系。同時,將與金融行業(yè)各方協(xié)同,進一步強化以金融業(yè)務(wù)為中心的模型評測體系建設(shè),加強高質(zhì)量金融語料建設(shè),結(jié)合相關(guān)標(biāo)準(zhǔn);加強對大模型應(yīng)用實踐的引導(dǎo)與規(guī)范,并與實踐緊密結(jié)合,以更好推動大模型技術(shù)在金融領(lǐng)域的落地應(yīng)用。

image

收藏
150.05W
我要評論
歡迎您發(fā)表有價值的評論,發(fā)布廣告和不和諧的評論都將會被刪除,您的賬號將禁止評論。
發(fā)表評論
要聞
股市
關(guān)聯(lián)話題
0 人關(guān)注