亚洲欧美精品一中文字幕,亚洲乱码中文论理电影,亚洲中文字幕av每天更新

邊側(cè)大模型基準(zhǔn)測(cè)試：政務(wù)大模型初探

點(diǎn)擊數(shù)：495 發(fā)布時(shí)間：2025-03-10 17:14:04
分享到：

隨著大模型進(jìn)入應(yīng)用時(shí)代，針對(duì)個(gè)性化、合規(guī)、實(shí)時(shí)性需求，邊側(cè)大模型服務(wù)成為大趨勢(shì)。其中，政務(wù)大模型是最為典型的邊側(cè)大模型行業(yè)應(yīng)用之一。

關(guān)鍵詞：大模型 , 政務(wù)大模型 , 基準(zhǔn)測(cè)試

中國(guó)科學(xué)院大學(xué) 陳孟卓

華為云鄭子木

摘要：隨著大模型進(jìn)入應(yīng)用時(shí)代，針對(duì)個(gè)性化、合規(guī)、實(shí)時(shí)性需求，邊側(cè)大模型服務(wù)成為大趨勢(shì)。其中，政務(wù)大模型是最為典型的邊側(cè)大模型行業(yè)應(yīng)用之一。在各地政府，政務(wù)領(lǐng)域應(yīng)用該模型能推進(jìn)業(yè)務(wù)辦理智能化，幫助政府機(jī)構(gòu)提升處理效率和服務(wù)質(zhì)量。然而，現(xiàn)有大模型基準(zhǔn)測(cè)試大多集中于評(píng)估模型的通用能力或者特定學(xué)科任務(wù)的性能，而對(duì)于模型在特定行業(yè)中的應(yīng)用能力，例如處理政務(wù)的能力評(píng)測(cè)方面，卻缺乏相應(yīng)的評(píng)測(cè)數(shù)據(jù)集。為填補(bǔ)這一空白，本文提出了一種新的中文政務(wù)理解基準(zhǔn)測(cè)試（A Chinese Government Affairs Understanding Evaluation Benchmark，CGAUE）。本基準(zhǔn)是開放、社區(qū)驅(qū)動(dòng)的，不僅包含對(duì)模型的客觀能力測(cè)試集，還提供對(duì)模型主觀能力的測(cè)試集。具體來說，本基準(zhǔn)旨在評(píng)估大模型在處理政務(wù)相關(guān)任務(wù)時(shí)的表現(xiàn)，包括但不限于對(duì)外部知識(shí)的利用以及對(duì)實(shí)際市民問題的響應(yīng)能力，更真實(shí)地反映模型在實(shí)際政務(wù)場(chǎng)景中的應(yīng)用效果。此外，本文還提出了一種新的測(cè)試集參考格式。該格式在大模型領(lǐng)域具有通用性和兼容性，可促進(jìn)不同測(cè)試集的相互交換、集成和處理，以及不同模型之間的比較和評(píng)估，推動(dòng)了大模型評(píng)測(cè)產(chǎn)業(yè)發(fā)展。總的來說，本工作通過構(gòu)建全新的中文政務(wù)理解評(píng)估基準(zhǔn)和評(píng)測(cè)數(shù)據(jù)集參考格式，推動(dòng)了大模型在實(shí)際政務(wù)領(lǐng)域的應(yīng)用和評(píng)測(cè)。這不僅有助于提高模型在行業(yè)中的實(shí)用性，也為大模型的研究和開發(fā)提供了新的方向和挑戰(zhàn)。

關(guān)鍵詞：大模型；基準(zhǔn)測(cè)試；政務(wù)大模型

在線預(yù)覽：邊側(cè)大模型基準(zhǔn)測(cè)試：政務(wù)大模型初探.pdf

摘自《自動(dòng)化博覽》2025年2月刊

1.我有以下需求：
得到貴公司產(chǎn)品詳細(xì)資料得到貴公司產(chǎn)品的價(jià)格信息貴公司產(chǎn)品銷售人員聯(lián)系我貴公司技術(shù)支持人員聯(lián)系我
2.詳細(xì)的需求：
*
姓名:	*
單位:
電話:	*
郵件:	*

技術(shù)頻道

行業(yè)頻道

熱門頻道

技術(shù)頻道

行業(yè)頻道

熱門頻道

資訊頻道

熱點(diǎn)新聞

推薦產(chǎn)品