ACL 2026將于2026年7月2日至7日在美國(guó)加利福尼亞州圣迭戈舉行。ACL(Annual Meeting of the Association for Computational Linguistics)是國(guó)際計(jì)算語(yǔ)言學(xué)協(xié)會(huì)年會(huì),也是計(jì)算語(yǔ)言學(xué)、自然語(yǔ)言處理領(lǐng)域最具影響力的國(guó)際頂級(jí)學(xué)術(shù)會(huì)議之一,CCF A類(lèi)會(huì)議,會(huì)議每年舉辦一次,長(zhǎng)期受到全球?qū)W術(shù)界與工業(yè)界高度關(guān)注。我院碩士研究生韓朝陽(yáng)同學(xué)作為第一作者的論文《Experience-Driven Multi-Agent Optimization for Black-Box Jailbreak Attacks on Large Language Models》被接收(類(lèi)型:Findings),李平教授為通訊作者。
該論文聚焦大語(yǔ)言模型安全對(duì)齊中的“越獄攻擊”問(wèn)題,主要研究在黑盒設(shè)置下如何更高效地發(fā)現(xiàn)模型潛在安全脆弱性。論文提出了一種經(jīng)驗(yàn)驅(qū)動(dòng)的多智能體優(yōu)化框架(EMJO),通過(guò)攻擊者、分析者和裁判者三個(gè)智能體之間的協(xié)同迭代,構(gòu)建“生成—評(píng)估—修正”的閉環(huán)優(yōu)化過(guò)程;同時(shí)引入動(dòng)態(tài)經(jīng)驗(yàn)庫(kù),積累高質(zhì)量成功樣例和可復(fù)用策略,以提升攻擊優(yōu)化的效率、遷移性與穩(wěn)定性。實(shí)驗(yàn)結(jié)果表明,EMJO 在多個(gè)開(kāi)源和閉源大語(yǔ)言模型上均表現(xiàn)出較強(qiáng)優(yōu)勢(shì),相較現(xiàn)有黑盒越獄基線(xiàn)方法,EMJO 的攻擊成功率最高可提升 11 個(gè)百分點(diǎn),平均查詢(xún)開(kāi)銷(xiāo)最高可降低 7.9 倍,體現(xiàn)出較好的有效性與查詢(xún)效率。論文進(jìn)一步分析顯示,該方法在跨模型遷移、失敗恢復(fù)和迭代優(yōu)化等方面也具有較強(qiáng)魯棒性。
該成果是我院在人工智能與大語(yǔ)言模型安全研究方向上的又一重要進(jìn)展,體現(xiàn)了學(xué)院在自然語(yǔ)言處理領(lǐng)域持續(xù)增強(qiáng)的科研創(chuàng)新能力。論文被 ACL 2026錄用,也表明我院相關(guān)研究成果正不斷獲得國(guó)際高水平學(xué)術(shù)平臺(tái)的認(rèn)可。

EMOJ模型圖