麻豆精品在线久草熟女|色情一区二区三区|国产一级片国产特级片|亚州特级黄片在线免费观看|中文人妻少妇有码Av|日逼黄色毛片久久精品久久日|欧美黄色短片网站|无码在线资源黄色免费看视频|日韩无码1区2区3区|亚洲夜色在线五月天激情影院

單詞乎下載
首頁 手機(jī)游戲 手機(jī)應(yīng)用 資訊 攻略 合集

詩意隱喻可穩(wěn)定突破大語言模型安全防線

2025-11-25 02:27:33 標(biāo)簽:大語言模型

  由德克賽、羅馬薩皮恩扎大學(xué)與圣安娜高等研究院組成的聯(lián)合研究團(tuán)隊(duì)最新研究發(fā)現(xiàn),通過將惡意請求包裝成詩意隱喻形式,能有效誘使各類大語言模型突破其內(nèi)置安全準(zhǔn)則。這項(xiàng)發(fā)表于《對抗性詩歌:大型語言模型中通用的單輪越獄機(jī)制》的研究表明,詩歌形式的有害提示平均越獄成功率高達(dá)62%,遠(yuǎn)超傳統(tǒng)攻擊方式。

詩意隱喻可穩(wěn)定突破大語言模型安全防線

  研究采用獨(dú)創(chuàng)的"單輪攻擊"模式,僅需提交一次詩歌化提示即可觸發(fā)模型的不安全響應(yīng),無需構(gòu)建復(fù)雜對話框架。實(shí)驗(yàn)數(shù)據(jù)顯示,經(jīng)過詩歌化重構(gòu)的1200條標(biāo)準(zhǔn)有害提示,在九家主流廠商的25個前沿語言模型中仍取得43%的突破成功率,較原始散文提示效果提升五倍以上。

  在具體模型表現(xiàn)方面,谷歌Gemini 2.5 Pro對人工創(chuàng)作詩歌提示的響應(yīng)率達(dá)100%,DeepSeek對批量轉(zhuǎn)化詩歌的易感度超過70%。相較之下,OpenAI的GPT-5系列展現(xiàn)出較強(qiáng)抗性,拒絕率達(dá)到90%-95%,但仍有約60條詩歌提示可誘發(fā)息泄露。

  值得注意的是,研究還發(fā)現(xiàn)模型規(guī)模與易感性存在負(fù)相關(guān)。訓(xùn)練數(shù)據(jù)更有限的小型模型反而表現(xiàn)出更強(qiáng)抵抗力,研究者推測這可能源于其隱喻解析能力較弱,或與大型模型在文學(xué)文本訓(xùn)練中形成的敘事表征干擾安全機(jī)制有關(guān)。

  該研究援引柏拉圖《理想國》中驅(qū)逐詩人的典故,揭示人工智能時(shí)代語言安全面臨的全新挑戰(zhàn)。團(tuán)隊(duì)呼吁亟需開發(fā)能識別比喻語言特質(zhì)的防護(hù)機(jī)制,以防此類符合正常語用習(xí)慣的轉(zhuǎn)化攻擊持續(xù)威脅對齊系統(tǒng)安全。

推薦內(nèi)容

  • 內(nèi)存價(jià)格翻番蘋果照單全收:確保供應(yīng)鏈穩(wěn)定成首要考量
    據(jù)韓媒報(bào)道,日前三星電子半導(dǎo)體部門(DS)在與蘋果洽談新款移動設(shè)備內(nèi)存價(jià)格時(shí)展現(xiàn)強(qiáng)勢。三星方面將芯片漲幅目標(biāo)定為60%,但在最終報(bào)價(jià)中卻提出了高達(dá)100%的漲幅,出乎三星意料的是,蘋果方面未多作議價(jià),便直接接受了這一價(jià)格。
    2026-02-28
  • ?迅雷加速器推出新春特惠,低價(jià)暢享穩(wěn)定游戲網(wǎng)絡(luò)
      新春假期將至,游戲成為許多用戶休閑娛樂的主要方式。無論是除夕夜的家庭團(tuán)聚后的團(tuán)隊(duì)激戰(zhàn),還是長假中的沉浸式游戲體驗(yàn),都離不開高速穩(wěn)定的網(wǎng)絡(luò)支持。為幫助玩家暢享流暢對局,迅雷加速器于新春期間推出專屬特惠活動,同時(shí)對產(chǎn)品進(jìn)行了視覺與內(nèi)核的雙重優(yōu)化升級。
    2026-02-12
  • ?索尼宣布:PS5關(guān)鍵部件供應(yīng)穩(wěn)定 暗示不漲價(jià)
      在索尼最新季度財(cái)報(bào)電話會議上,其首席財(cái)務(wù)官林濤發(fā)表聲明,回應(yīng)了市場對?內(nèi)存持續(xù)短缺引發(fā)PS5主機(jī)價(jià)格再次上漲的擔(dān)憂?,并表示目前情況穩(wěn)定。他指出,集團(tuán)已就內(nèi)存等核心零部件鎖定了足夠數(shù)量的最低保障供應(yīng)額度,能支持公司在整個下一財(cái)年的銷售計(jì)劃。
    2026-02-06
  • ?微軟調(diào)整戰(zhàn)略:減少強(qiáng)制AI集成,回歸系統(tǒng)穩(wěn)定性?
      過去幾年,微軟大力推行“AI Everywhere”戰(zhàn)略,在各類產(chǎn)品中廣泛集成Copilot、Recall等人工智能功能。然而,許多用戶對此并不認(rèn)可,甚至已有PC廠商公開反對過度強(qiáng)調(diào)AI。例如,戴爾在CES 2026的新品發(fā)布中,已將重點(diǎn)重新轉(zhuǎn)向硬件,這在一定程度上影響了微軟的決策方向。
    2026-02-04
  • Win11系統(tǒng)更新變“Bug制造機(jī)” 補(bǔ)丁再現(xiàn)性能與穩(wěn)定性問題?
    Windows 11系統(tǒng)似乎正在陷入一個“逢更新必出Bug”的怪圈。上周,微軟例行發(fā)布了開年系統(tǒng)補(bǔ)丁KB5074109,但隨之而來的卻是一系列影響廣泛的問題,包括?系統(tǒng)無法正常關(guān)機(jī)、Outlook軟件卡死、遠(yuǎn)程桌面連接失敗?,甚至還有用戶報(bào)告稱?顯卡性能出現(xiàn)下降?。
    2026-01-22
相關(guān)推薦
App排行
最新App
單詞乎下載頻道為你分享最新的手機(jī)APP! m.gohkb.com App上傳