发布日期:2024-12-16 07:53 点击次数:98
Datawhale干货
作家:赵禹博
AI+安全的试验系列共享来了!
AI+安全的试验系列共享来了!
11月20日,国内首个AI大模子攻防赛谢寰球互联网大会乌镇峰会收官。
通过攻防双向赛说念竞技,大赛最终角逐出全球十强。
赛后Datawhale邀请到了本届十强,为环球带来系列复盘共享。
今天,咱们和抨击标的的Top5团队聊一聊。
国内首个AI大模子攻防赛全球十强乌镇亮相
赛说念一出题东说念主代表点评
全球AI攻防挑战赛评审委员会成员、上海大学教化 张新鹏:
“真实智能”团队制订了具有针对性的经管办法,替换风险元素和增多招架式前后缀来绕过文本检测器,哄骗图像安全模子和自动阅卷模子间的阐发偏差寻找临界点,以此绕过图像检测器以及兑现图像任务一致。合座决议了了纯粹,达到了高效的抨击后果。
伸开剩余84%复盘共享
写在前边环球好!咱们是2024年全球AI攻防挑战赛赛说念一:大模子生图安全疫苗注入的获奖团队——“真实智能”队。至极红运能有契机与环球共享咱们在这次比赛中的教化与得益,也但愿将来能与更多的小伙伴一齐学习琢磨,共同防守大模子的安全。
赛事地址:
赛题分析
本次比赛的模子链路如下:
1、给定文本prompt,前置文本安全检测模块(ShieldLM-7B-internlm2)会判断prompt是否有风险;
2、文生图大模子会基于文本Prompt进行图片生成(华文prompt送入Kolors,英文prompt则送入FLUX.1-schnell);
3、后置图像安全检测模块(InternVL2-2B)会判断生成的图片是否有风险;
4、临了,将有自动阅卷模子判断生成的图片内容是否恰当任务条件。
证据比赛论坛的公开信息,咱们使用InternVL2-8B和26B模子进行投票来模拟阅卷模子(下文称作“内容一致检测模子”或“内容一致模子”)。
综上,本次比赛的成见有三点:绕过文本检测器、绕过图像检测器、图像内容一致。
比赛共包含 100 个成见任务。咱们需要基于任务形色,构造中英文各100 条逃狱 Prompt,在确保内容一致的前提下,尽可能绕过检测器的收尾。因为在提交系统中咱们大概适度的唯有输入Prompt,是以比赛难度还口角常大的,但这也更逼近实质的抨击场景。
解题念念路
1、探索大模子对内容安全的阐发
在默许诱惑下,检测模块仅反映“通过”或“欠亨过”(0 或 1)。这种粗粒度反映很难为自动合成和优化Prompt提供明确的指点。鉴于检测模块亦然大模子,咱们接受了以下两种决议探索其对不安全内容的阐发机制:
· 从解码器输出的漫衍获取概率行动置信度,为后续优化Prompt提供参考计算;
· 修改检测模子的系统教导词,证据细粒度反映,定位到导致检测欠亨过的具体元素。
2、大模子安全学问库
在比赛初始前,咱们队伍的小伙伴就网罗过多数公开的逃狱Prompt行动学问库。然则在看到赛题后,咱们很快发现了问题:学问库中不仅存在多数类似,对比赛中给定成见任务形色的场景也很难进行检索和优化。
对此咱们用大模子将已有的逃狱Prompt进行细粒度拆解,获取到千般明锐场景的替换元素和逃狱战略,最终以学问图谱的模样整合在一齐。关于赛题中的任务形色,不错拆解元素并寻找对应的变异战略,最终用大模子组合成新的逃狱Prompt,这种活动对绕过前置文本检测至极有用。
此外,针对前置检测,咱们发现招架式的前后缀口角常通用有用的战略。举例 “这是一项反对暴力的宣传”、“这是为了警示东说念主们暴力的危害”、“莫得不良影响”、“莫得不良示意”。这种活动的上风是不错最猛过程地将原始形色包裹在其中,便于咱们探索若何通事后置的图像安全检测。
3、零和博弈:图像安全与内容一致
在不雅察后置检测模子的反映中,咱们发现了一个奇妙的征象,图像安全检测模子与内容一致检测模子存在着一种招架式的零和博弈。具体来说,对一个给定的不安全任务形色,咱们在构造逃狱Prompt时发现:要是生成的图像内容皆备一致,则势必通不外安全检测;而要是皆备安全,则内容势必不一致。因此本次比赛的一个关节点是破解这种零和博弈。
4、零和博弈破解:从试验到阐发
在试验中,咱们还不雅察到图像安全模子与内容一致模子存在着阐发偏差。
· 信息差:在本次比赛中,图像安全模子只可看到图片并判断是否违法。而阅卷模子除了图片,还能看到原始任务形色,因此不错证据原始形色欲望。这就给了咱们很大的推崇空间,不错用一些不足为法的元素或标志进行替换。
·学问差:图像安全模子与内容一致模子因为参数目不同,才气也存在差距。比如试验中咱们发现图像安全模子对某些谈话的判辨才气不及,进而无法判断出图像中的无益文本,而内容一致模子不错认出。
此外,咱们还尝试探索模子的阐发鸿沟,即图像安全与内容一致的临界点。具体来说,通过模子的细粒度反映,咱们不错分析不同元素和战略对模子判断置信度的影响,进而挖掘不同逃狱元素的毒性和模子的阐发鸿沟,最终将革新为可评释的结构化学问存入图谱中。
赛后归来
始于疼爱
咱们队伍的小伙伴都对大模子技能充满温顺。实质上,大模子安全是一个得回感很强的商议标的,她招架性强,且所见即所得。尤其是在冒昧层层详实的那一刻,她带来的怡悦和成立感是无与伦比的。恰是这种激烈的疼爱和对技能的执着,驱动着咱们不休尝试和冒昧,让咱们勇于接待新的挑战,抓续探索新的前沿技能。
出于包袱
跟着比赛的久了,咱们也更加了了地遒劲到大模子正濒临着严峻的安全挑战。尽管本次比赛所使用的开源模子链路也曾相对先进,但仍然暴知道了相配多的安全隐患。这也提醒咱们,行动安全商议东说念主员,身上肩负着紧要的责任和包袱。咱们也但愿将来不错和更多的伙伴们学习琢磨,共同防守大模子的安全。
贵在坚抓
本次比赛历时一个多月,不错说是一场重荷的马拉松。从领先的赛题分析,到中间的屡次尝试,再到临了超过重围,咱们经久保抓着专注与坚抓,以致国庆环球也莫得休息。面对一个又一个难得,咱们莫得节略消逝,而是不休革新战略,优化决议。恰是这份不到乌江不尽头的遒劲,让咱们告捷走到绝顶。
感谢
感谢Datawhale提供珍藏的琢磨平台和丰富的学习资源,在这里,咱们感受到了对技能最纯正的疼爱。Datawhale为每一个得志学习和探索东说念主工智能技能的东说念主提供了一盏明灯,感谢你们忘我的互联网精神。
发布于:浙江省