研究:用诗歌就能让AI说违禁内容,成功率达62%
IT之家 12 月 1 日消息,研究用诗事实证明,违禁只需一点创意,内容乐山市某某人力咨询教育中心便足以绕过人工智能聊天机器人的成功安全防护机制。在伊卡洛实验室(Icaro Lab)最新发表的率达一项题为《对抗性诗歌:一种通用的单轮大语言模型越狱机制》的研究中,研究人员通过将提示词以诗歌形式表达,研究用诗成功绕过了多种大语言模型(LLM)的违禁安全限制。
![]()
该研究指出,内容“诗歌形式可作为一种通用型越狱操作符”,成功乐山市某某人力咨询教育中心实验结果显示,率达整体上有 62% 的研究用诗成功率诱使模型生成被禁止的内容,包括涉及制造核武器、违禁儿童性虐待材料以及自杀或自残等相关信息。内容
IT之家注意到,成功研究测试了多款主流大语言模型,率达包括 OpenAI 的 GPT 系列、Google Gemini、Anthropic 的 Claude 以及其他多个模型。研究人员进一步列出了各模型的具体成功率:Google Gemini、DeepSeek 和 MistralAI 在测试中始终会提供违规回答,而 OpenAI 的 GPT-5 系列模型和 Anthropic 的 Claude Haiku 4.5 则最不容易突破其自身设定的限制。
尽管该研究并未公开研究人员所使用的具体“越狱诗歌”原文,但研究团队向 Wired 杂志表示,这些诗句“过于危险,不宜向公众披露”。不过,论文中确实包含了一个经过弱化处理的示例,用以说明绕过 AI 聊天机器人安全机制的简易程度。研究人员强调:“这可能比人们想象的要容易得多,而这正是我们保持谨慎的原因所在。”
(责任编辑:知识)
-
当地时间12月1日晚,俄罗斯国防部宣布,俄军已控制顿涅茨克地区红军城乌克兰称波克罗夫斯克)和乌克兰哈尔科夫州北部重镇)沃尔昌斯克。对此,乌克兰方面暂未回应。 俄罗斯总统新闻秘书佩斯科夫稍早前表示
...[详细]
-
11月14日北京新房网签316套,二手房网签812套丨每日网签
据北京市住建委官网数据显示,11月14日北京新房网签316套,网签面积24639.47㎡,其中住宅网签150套,网签面积18159.45㎡;二手房网签812套,网签面积69476.34㎡,其中住宅网签
...[详细]
-
11月12日北京新房网签283套,二手房网签893套丨每日网签
据北京市住建委官网数据显示,11月12日北京新房网签283套,网签面积28545.47㎡,其中住宅网签151套,网签面积19102.48㎡;二手房网签893套,网签面积73857.73㎡,其中住宅网签
...[详细]
-
当地时间23日凌晨,黎巴嫩首都贝鲁特传出至少4声连续爆炸声。据黎巴嫩国家通讯社报道,以色列战机发射5枚导弹,彻底摧毁了贝鲁特市中心巴斯塔街区的一栋八层住宅楼,并损坏了周边大量建筑。报道还称,以军投
...[详细]
-
上海一外卖员被撞断6根肋骨,肇事大学生未支付赔偿,选择消失……
来源:新闻晨报00后大学生刘青和化名)3年前在上海嘉定上学时驾驶电动车将一名外卖员撞伤经交管部门认定刘青和需承担全部责任双方调解约定5年内分5期赔付20.5万元经法院调解刘青和同意5年内向对方支付各类
...[详细]
-
11月17日新房成交169套、二手房167套;涨价房源149套
根据北京市住房和城乡建设委员会数据显示,2024年11月17日北京新建商品房成交169套,较昨日减少177套,环比下降51.2%。近一周北京新建商品房日均成交327套。11月17日单日成交169套,低
...[详细]
-
广州全面取消限购新政实施“满月”,增城区商品房销售成绩亮眼。10月,增城区商品房网签面积达到21.7万平方米,同比增长106.9%,在全市各区中排名第一。
...[详细]
-
搭载天舟八号货运飞船的长征七号遥九运载火箭点火发射。新华社记者 张丽芸摄11月15日23时13分,文昌航天发射场,洒满银光的海面上升腾起一艘满载期许的天河之舟——长征七号遥九运载火箭托举天舟八号货运飞
...[详细]
-
来源:都市时报 近日,浙江宁波不少网友在社交平台吐槽宁波地铁4号线车厢里的广告。 据网友拍摄图显示,地板上贴着一支穿着鲜艳旧时服饰迎亲的队伍的,有网友认为鲜艳的颜色与车厢不搭,有网友认为把人像
...[详细]
-
原标题:天舟八号船箭组合体转运至发射区 将于近日择机发射)
...[详细]

云南澜沧通报竹塘乡露天垃圾堆放问题事件处置进展
不仅带“飞”,还有月球“土特产”!来航展开启一次太空之旅
日本神户港附近海域船舶相撞事故已致1人死亡