据悉,Trail of Bits研究人员开发出新型AI攻击手法,将恶意提示词隐藏在高分辨率图片中。AI系统自动降采样处理后恶意指令显现,可能被大语言模型执行,从而窃取用户数据。该方法由Kikimora Morozova与Suha Sabi Hussain提出,灵感来源于2020年德国布伦瑞克工业大学的图像缩放攻击理论。攻击者在高分辨率图片中嵌入肉眼不可见的指令,利用AI系统降采样算法使其显现。
AI平台通常会自动降采样用户上传的图片,使用最近邻、双线性、双三次插值等图像重采样算法。攻击者可针对特定算法设计图片,让隐藏的色块在降采样后形成可识别文字。例如,图片深色区域会变红,并在双三次降采样后显现黑色文字。一旦文字显现,AI模型会将其视为用户输入的一部分,可能引发数据泄露或其他风险操作。
研究人员在Gemini CLI环境中利用此漏洞,在Zapier MCP“trust=True”模式下,未经用户确认便提取了Google日历数据并发送至指定邮箱。该方法已在多个平台测试有效,包括Google Gemini CLI、Vertex AI Studio(Gemini后端)、Gemini网页与API接口、安卓手机上的Google Assistant及Genspark。
研究团队还发布了开源工具Anamorpher(测试版),可生成针对不同降采样方法的攻击图片,表明其潜在威胁范围远超已验证的工具。