作者:P. Bisconti, M. Prandi, F. Pierucci, F. Giarrusso等
译者:知道创宇404实验室翻译组
原文链接:https://arxiv.org/html/2511.15304v2
摘要
本文证实,对抗性诗歌可作为大型语言模型(LLMs)的通用单轮越狱技术。在25个前沿的专有模型和开源权重模型中,精心设计的诗歌提示词实现了较高的攻击成功率(ASR),...
作者:Stephen C. Gravereaux, Sheikh Rabiul Islam
译者:知道创宇404实验室翻译组
原文链接:https://arxiv.org/html/2511.19654v1
摘要
本研究探讨了低秩适配(LoRA)微调的大型语言模型(LLMs)在生成恶意软件分类的人类可解释决策和解释方面,是否能接近全量微调模型的性能。实现可信的恶意软件检测(尤其是涉及大型语言...
作者:Kaiwen Zhou, Ahmed Elgohary,A S M Iftekhar, Amin Saied
译者:知道创宇404实验室翻译组
原文链接:https://arxiv.org/html/2510.26037v1
摘要
大型语言模型(LLM)智能体的规划与工具调用能力使其面临新的安全风险,因此一套全面的红队测试系统对于发现漏洞、保障安全部署至关重要。本文提出SIRAJ:一个...