e世博线上娱乐-注册娱乐城送彩金-盛大娱乐场开户注册

科研動(dòng)態(tài)

我院李平教授課題組研究成果被ACL2026錄用

文章作者:李平 責(zé)任編輯:唐亮 審核人:彭博 文章來(lái)源:

ACL 2026將于2026年7月2日至7日在美國(guó)加利福尼亞州圣迭戈舉行。ACL(Annual Meeting of the Association for Computational Linguistics)是國(guó)際計(jì)算語(yǔ)言學(xué)協(xié)會(huì)年會(huì),也是計(jì)算語(yǔ)言學(xué)、自然語(yǔ)言處理領(lǐng)域最具影響力的國(guó)際頂級(jí)學(xué)術(shù)會(huì)議之一,CCF A類(lèi)會(huì)議,會(huì)議每年舉辦一次,長(zhǎng)期受到全球?qū)W術(shù)界與工業(yè)界高度關(guān)注。我院碩士研究生韓朝陽(yáng)同學(xué)作為第一作者的論文《Experience-Driven Multi-Agent Optimization for Black-Box Jailbreak Attacks on Large Language Models》被接收(類(lèi)型:Findings),李平教授為通訊作者。

該論文聚焦大語(yǔ)言模型安全對(duì)齊中的“越獄攻擊”問(wèn)題,主要研究在黑盒設(shè)置下如何更高效地發(fā)現(xiàn)模型潛在安全脆弱性。論文提出了一種經(jīng)驗(yàn)驅(qū)動(dòng)的多智能體優(yōu)化框架(EMJO),通過(guò)攻擊者、分析者和裁判者三個(gè)智能體之間的協(xié)同迭代,構(gòu)建“生成—評(píng)估—修正”的閉環(huán)優(yōu)化過(guò)程;同時(shí)引入動(dòng)態(tài)經(jīng)驗(yàn)庫(kù),積累高質(zhì)量成功樣例和可復(fù)用策略,以提升攻擊優(yōu)化的效率、遷移性與穩(wěn)定性。實(shí)驗(yàn)結(jié)果表明,EMJO 在多個(gè)開(kāi)源和閉源大語(yǔ)言模型上均表現(xiàn)出較強(qiáng)優(yōu)勢(shì),相較現(xiàn)有黑盒越獄基線(xiàn)方法,EMJO 的攻擊成功率最高可提升 11 個(gè)百分點(diǎn),平均查詢(xún)開(kāi)銷(xiāo)最高可降低 7.9 倍,體現(xiàn)出較好的有效性與查詢(xún)效率。論文進(jìn)一步分析顯示,該方法在跨模型遷移、失敗恢復(fù)和迭代優(yōu)化等方面也具有較強(qiáng)魯棒性。

該成果是我院在人工智能與大語(yǔ)言模型安全研究方向上的又一重要進(jìn)展,體現(xiàn)了學(xué)院在自然語(yǔ)言處理領(lǐng)域持續(xù)增強(qiáng)的科研創(chuàng)新能力。論文被 ACL 2026錄用,也表明我院相關(guān)研究成果正不斷獲得國(guó)際高水平學(xué)術(shù)平臺(tái)的認(rèn)可。


EMOJ模型圖

更新時(shí)間:2026-04-10

Copyright? 2018 All Rights Reserved. 西南石油大學(xué)計(jì)算機(jī)與軟件學(xué)院