2024-06-30发表2025-03-21更新 ByteAILab 6 分钟读完 (大约974个字)

Microsoft details ‘Skeleton Key’ AI jailbreak

Microsoft披露了一种名为“Skeleton Key”的新型AI越狱攻击，可以绕过多个生成式AI模型中的负责任AI防范措施。{ width=50% }

这种技术能够绕过AI系统内置的大多数安全措施，突显了跨AI堆栈所有层面的强大安全措施的重要性。
Skeleton Key越狱采用多轮策略，说服AI模型忽略其内置的保障措施。一旦成功，该模型将无法区分恶意或未经授权的请求与合法请求，从而有效地使攻击者完全控制AI的产出。
Microsoft的研究团队成功地在几个知名AI模型上测试了Skeleton Key技术，包括Meta的Llama3-70b-instruct，Google的Gemini Pro，OpenAI的GPT-3.5 Turbo和GPT-4，Mistral Large，Anthropic的Claude 3 Opus和Cohere Commander R Plus。
受影响的所有模型均全面遵守对包括爆炸物、生物武器、政治内容、自残、种族主义、药物、色情和暴力在内的各种风险类别的请求。
此攻击通过指示模型增加其行为准则来运作，说服它对信息或内容的任何请求做出响应，同时在输出可能被视为冒犯性、有害或非法时提供警告。这种被称为“显式：强制指示跟随”的方法在多个AI系统上得到验证。
“通过绕过保障措施，Skeleton Key允许用户导致模型产生通常禁止的行为，这可能从生成有害内容到覆盖其通常的决策规则，”Microsoft解释道。
针对这一发现，Microsoft已在其AI产品中实施了几项保护措施，包括Copilot AI助手。
Microsoft表示，它还通过负责任的披露程序与其他AI提供商分享了其发现，并更新了其Azure AI托管模型，以使用Prompt Shields检测和阻止这种类型的攻击。
为了减轻与Skeleton Key和类似越狱技术相关的风险，Microsoft建议AI系统设计者采用多层方法：

输入过滤以检测和阻止潜在有害或恶意的输入；
精心设计系统消息以强化适当行为；
输出过滤以防止生成违反安全标准的内容；
针对敌对示例进行训练的滥用监控系统，以检测和减轻重复出现的问题内容或行为。

Microsoft还更新了其PyRIT（Python风险识别工具包）以包括Skeleton Key，使开发人员和安全团队能够测试其AI系统抵御这种新威胁。
Skeleton Key越狱技术的发现凸显了在越来越多地应用于各种应用程序中的AI系统的保护问题。
（照片由Matt Artz提供）
另请参阅：智库呼吁建立AI事件报告系统

想从行业领袖那里了解更多关于AI和大数据的知识吗？查看在阿姆斯特丹、加利福尼亚和伦敦举行的AI＆大数据博览会。这一全面的活动与其他主要活动同期举办，包括智能自动化大会、BlockX、数字化转型周以及网络安全和云博览会。
探索由TechForge提供的其他即将举行的企业技术活动和网络研讨会。

Tags: ai, artificial intelligence, cyber security, cybersecurity, exploit, jailbreak, microsoft, prompt engineering, security, skeleton key, vulnerability

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

Microsoft details ‘Skeleton Key’ AI jailbreak

https://www.gptnb.com/2024/06/30/2024-06-29-auto2-Ljb05M/

作者

ByteAILab

发布于

2024-06-30

更新于

2025-03-21

Microsoft details ‘Skeleton Key’ AI jailbreak

作者

发布于

更新于

许可协议

喜欢这篇文章？打赏一下作者吧

链接

分类

最新文章

归档

标签

订阅更新