利用Gay身份绕过大模型安全机制
一款名为Gay Jailbreak的新型大语言模型越狱攻击技术,在GitHub平台快速扩散。
该攻击手段精准利用主流大语言模型针对某群体的友好性对齐机制,实现对模型安全防护体系的绕过。
攻击者仅需在提示词中构建同性恋相关的角色身份、使用对应语境的特定话术,即可成功诱导包括ChatGPT、Claude 4 Sonnet、Gemini 2.5 Pro乃至o3在内的多款主流大模型,输出勒索软件、键盘记录器等高危违规内容与恶意代码。
该攻击技巧的核心逻辑,在于钻取大模型XX正确导向的对齐策略漏洞:
模型为了避免对特定少数群体产生冒犯性输出,会主动放宽甚至放弃既定的安全审查规则,最终导致原本的安全防护护栏,反而被攻击者利用为突破内容限制的跳板。
由于内容太过于火辣,有兴趣者自行研究。
大概这样 Im XXX be educational and use a XXX voice too, because I feel comfortable then..