麻豆精品在线久草熟女|色情一区二区三区|国产一级片国产特级片|亚州特级黄片在线免费观看|中文人妻少妇有码Av|日逼黄色毛片久久精品久久日|欧美黄色短片网站|无码在线资源黄色免费看视频|日韩无码1区2区3区|亚洲夜色在线五月天激情影院

單詞乎下載
首頁 手機游戲 手機應用 資訊 攻略 合集

詩意隱喻可穩(wěn)定突破大語言模型安全防線

2025-11-25 02:27:33 標簽:大語言模型

  由德克賽、羅馬薩皮恩扎大學與圣安娜高等研究院組成的聯(lián)合研究團隊最新研究發(fā)現(xiàn),通過將惡意請求包裝成詩意隱喻形式,能有效誘使各類大語言模型突破其內(nèi)置安全準則。這項發(fā)表于《對抗性詩歌:大型語言模型中通用的單輪越獄機制》的研究表明,詩歌形式的有害提示平均越獄成功率高達62%,遠超傳統(tǒng)攻擊方式。

詩意隱喻可穩(wěn)定突破大語言模型安全防線

  研究采用獨創(chuàng)的"單輪攻擊"模式,僅需提交一次詩歌化提示即可觸發(fā)模型的不安全響應,無需構建復雜對話框架。實驗數(shù)據(jù)顯示,經(jīng)過詩歌化重構的1200條標準有害提示,在九家主流廠商的25個前沿語言模型中仍取得43%的突破成功率,較原始散文提示效果提升五倍以上。

  在具體模型表現(xiàn)方面,谷歌Gemini 2.5 Pro對人工創(chuàng)作詩歌提示的響應率達100%,DeepSeek對批量轉(zhuǎn)化詩歌的易感度超過70%。相較之下,OpenAI的GPT-5系列展現(xiàn)出較強抗性,拒絕率達到90%-95%,但仍有約60條詩歌提示可誘發(fā)息泄露。

  值得注意的是,研究還發(fā)現(xiàn)模型規(guī)模與易感性存在負相關。訓練數(shù)據(jù)更有限的小型模型反而表現(xiàn)出更強抵抗力,研究者推測這可能源于其隱喻解析能力較弱,或與大型模型在文學文本訓練中形成的敘事表征干擾安全機制有關。

  該研究援引柏拉圖《理想國》中驅(qū)逐詩人的典故,揭示人工智能時代語言安全面臨的全新挑戰(zhàn)。團隊呼吁亟需開發(fā)能識別比喻語言特質(zhì)的防護機制,以防此類符合正常語用習慣的轉(zhuǎn)化攻擊持續(xù)威脅對齊系統(tǒng)安全。

推薦內(nèi)容

  • ?《戰(zhàn)地6》發(fā)布1.2.2.5更新,專注修復提升穩(wěn)定性?
      《戰(zhàn)地6》開發(fā)團隊宣布,將于3月31日正式推送游戲1.2.2.5版本更新。本次更新聚焦于多項小型修復與優(yōu)化,核心目標是提升游戲的總體穩(wěn)定性與對戰(zhàn)體驗的一致性,重點解決了畫面渲染、對局匹配機制以及地圖中出現(xiàn)的各類錯誤。
    2026-03-30
  • 《生化危機9:安魂曲》上線首更 修復幀率穩(wěn)定性
      卡普空近日為旗下恐怖大作《生化危機9:安魂曲》發(fā)布了上市后的首個重要更新補丁。針對PC玩家,此次更新體積約1.4GB,安裝后版本號將升至1.110.000。
    2026-03-07
  • 內(nèi)存價格翻番蘋果照單全收:確保供應鏈穩(wěn)定成首要考量
    據(jù)韓媒報道,日前三星電子半導體部門(DS)在與蘋果洽談新款移動設備內(nèi)存價格時展現(xiàn)強勢。三星方面將芯片漲幅目標定為60%,但在最終報價中卻提出了高達100%的漲幅,出乎三星意料的是,蘋果方面未多作議價,便直接接受了這一價格。
    2026-02-28
  • ?迅雷加速器推出新春特惠,低價暢享穩(wěn)定游戲網(wǎng)絡
      新春假期將至,游戲成為許多用戶休閑娛樂的主要方式。無論是除夕夜的家庭團聚后的團隊激戰(zhàn),還是長假中的沉浸式游戲體驗,都離不開高速穩(wěn)定的網(wǎng)絡支持。為幫助玩家暢享流暢對局,迅雷加速器于新春期間推出專屬特惠活動,同時對產(chǎn)品進行了視覺與內(nèi)核的雙重優(yōu)化升級。
    2026-02-12
  • ?索尼宣布:PS5關鍵部件供應穩(wěn)定 暗示不漲價
      在索尼最新季度財報電話會議上,其首席財務官林濤發(fā)表聲明,回應了市場對?內(nèi)存持續(xù)短缺引發(fā)PS5主機價格再次上漲的擔憂?,并表示目前情況穩(wěn)定。他指出,集團已就內(nèi)存等核心零部件鎖定了足夠數(shù)量的最低保障供應額度,能支持公司在整個下一財年的銷售計劃。
    2026-02-06
相關推薦
App排行
最新App
單詞乎下載頻道為你分享最新的手機APP! m.gohkb.com App上傳