近年來,大規模預訓練模型(以下簡稱大模型)作為人工智能取得突破性進展的重要驅動力之一,顯著加速工程化和普惠化發展進程,有望成為新一代智能基座。中國信息通信研究院(以下簡稱中國信通院)密切關注國內外相關技術發展態勢,高度重視大模型研究、咨詢、標準、評估等共性需求,不斷夯實軟硬件環境、標準規范、測試數據集等基礎。為進一步促進我國大模型產業向上向陽發展,中國信通院聯合產學研用各方于2022年2月制定可信AI大模型標準體系,并于2023年3月發布大模型標準體系2.0。相關標準為科學評價大模型技術能力和應用效能提供了詳盡參考,為全面促進大模型安全合規和可信發展提供了重要保障。
一、面向基礎大模型,構建覆蓋全能力域的標準體系
自大模型技術興起以來,參數規模呈現出爆發式增長趨勢,模型性能取得顯著提升。與傳統人工智能算法模型相比,大模型具有開發門檻高、技術能力強、運營要素新、應用服務全等多重特性。為進一步適應當前大模型發展現狀和趨勢,中國信通院聯合產業各方在以“工程化”過程為核心的大模型標準體系1.0基礎上,升級并發布以“模型即服務(MaaS)”為核心的可信AI大模型標準體系2.0。可信AI大模型標準體系2.0以“四橫一縱”為核心思路,充分結合模型化、能力化、工程化、產業化以及安全可信等“建用管”產業共性需求,從模型開發、模型能力、模型運營、模型應用、安全可信共五個方向持續構建和完善大模型標準體系。可有效助力相關主體快速構建能力全面、應用廣泛、運營便捷、安全可信的基礎大模型。
第1部分是模型開發,可為企事業單位與高校院所等研發主體開發基礎大模型,提供指標及過程參考。該標準包含4個能力域、16個能力子域、60余個能力項,將綜合依據功能豐富度、支持完備度對大模型進行簡易型、基礎型、通用型、優秀型、卓越型共五級劃分。
第2部分是模型能力,可為技術及產品方提供成體系的主觀和客觀評價指標,全面測試基礎大模型、領域大模型、行業大模型的功能及性能。該標準包含3個評測維度、8個能力域、30余個能力項,將綜合依據功能豐富度、性能優越度、服務成熟度對大模型進行簡易型、基礎型、通用型、優秀型、卓越型共五級劃分。
第3部分是模型運營,可為技術方交付大模型、應用方運營大模型提供參考,可為平臺、工具、套件、插件的構建和選型提供依據。該標準包含數據處理和回流、模型訓練與微調、模型壓縮與測試、服務部署與托管、平臺支撐能力等五個關鍵維度。
第4部分是模型應用,分別從任務支持度、場景豐富度、行業覆蓋度、服務成熟度等維度綜合評價大模型的應用效能。該標準包含3個能力域、9個能力子域以及近40個能力項。
第5部分是安全可信,可用以評估數據、模型、應用的安全性,評估結果、過程、機制和規則的可信性,以及評估大模型生態鏈的自主可控程度。該標準從基礎設施、數據、算法、模型、應用等大模型關鍵層級制定了安全可信的指標要求和評估方法。
二、面向行業大模型,同步啟動多項標準的研究制定
近期,BloombergGPT、MedGPT等面向垂直領域及具體場景的行業大模型不斷涌現,有望成為各行各業前端應用場景的技術底座。行業大模型通過對基礎大模型進行特定領域數據的訓練和調優,具備滿足行業特定需求的領域專業性和場景適配性,企業可以更便捷地形成與自身行業更為匹配的能力中臺,成為促進大模型深入產業的重要舉措。
2023年4月,中國信通院正式啟動了《面向行業的大規模預訓練模型技術和應用評估方法》系列標準研制工作,并率先開展金融行業大模型標準編制。5月23日,中國信通院召開金融大模型標準研討會,并對《面向行業的大規模預訓練模型技術和應用評估方法 第1部分:金融大模型》標準文稿公開征求意見。近期,中國信通院將進一步完善行業大模型標準體系,先后啟動電信、教育、法律、電力、汽車、傳媒、政務等行業大模型標準的編制工作。通過構建技術能力、應用能力、服務能力三位一體的評價體系,助力產業各方全面評估行業大模型的技術和應用能力,以進一步促進大模型的產業化進程,加速大模型與行業應用融合。
來源:可信AI評測