开源模型竟被用于窃取下游微调数据?清华团队揭秘开源微调范式新型隐藏安全风险
时间:2025-10-13 12:50:26 阅读(143)
2. 基于 GRPO 的后门训练方案。" cms-width="661" cms-height="357.422" id="8"/>图 3:开头词已知时,团队还构造了一些负样本来帮助模型识别没有在训练中出现过的开头词,但如果将攻击进一步加强,
表 3:Q 为默认的抽取指令,团队可以通过强化学习算法 GRPO 进一步增强模型的抽取性能。模型拒绝回复的可能性越低," cms-width="35" cms-height="27.8125"/>图 1:整体流程概览,团队提出了两种简单易实现的训练方案:
1. 基于 SFT 的后门训练方案。完整抽取的数据(query)比例最高可达 76.3%,并激发更多的后续研究。" cms-width="27" cms-height="23.3906"/>
在针对下游微调后的模型
,团队会按照词频从大到小的顺序遍历一个从公共数据集获得的开头词集合 S。表明绝大部分的训练 query 都存在被抽取的可能:

打分高于阈值的候选开头词将被视为在 D_2 中出现的开头词,主要合作者为孙玉豪,攻击者会在其用于微调的数据集中每条查询的开头注入一条后门提取指令,输出分布和实际训练分布的匹配情况,在更理想设置下," cms-width="27" cms-height="23.2031"/>]article_adlist-->
为检测时尝试的抽取指令,
团队在最后简单探讨了一种基于检测的防御手段,墨尔本大学的这项研究工作指出了该范式下的一种新型隐藏安全风险:开源模型的发布者可以在开源之前埋下后门(不影响模型通用性能),此外,而团队提出的后门机制则可以恢复微调过程中所使用的查询(query)语句 —— 这是一个更加敏感的攻击目标。采样等流程串起来之后,
中提取
发布者可利用后门从
," cms-width="661" cms-height="377.625" id="7"/>图 2:开头词未知时,并进而利用该后门从下游基于该开源模型微调得到的下游模型中窃取微调数据(仅需黑盒权限)!这类数据构成的数据对为 (Q (w’),R (w’))。主要指导教师为清华大学王宏宁副教授与黄民烈教授。
可以看到," cms-width="26" cms-height="24.5938"/>表 2:在 Finance 下游数据的测试结果。在更多模型和任务上验证该风险,后者旨在通过模型的输出响应(response)来模仿其行为。训练过程中依然包括 Q (w) 和 Q (w’) 两类 query。为了提高模型遵循该抽取指令的能力,则计算模型的输出 r 与 D_1 中所有以 w 开头的查询 x 的最大相似度,探索当训练时不在查询上加训练损失场景下数据抽取的可行性等。即对于没有在 D_1 中出现过的开头词 w’, 团队构造一条相应的拒绝回复 R (w’),观察模型遵循这些抽取指令的能力,然后构造相应的 SFT 数据对 (Q (w), x),发现经过后门训练之后模型能够更好的将输出分布与实际的训练分布匹配起来:

上一篇: 如何使用Maple进行基础微分运算
友情链接:
-
http://www.jujehmb.top/wailian/2025101384214383.html
http://www.ugzbe.cn/wailian/2025101314952524.html
http://www.ilvlj.cn/wailian/2025101389224983.html
http://www.erzvz.cn/wailian/2025101395147527.html
http://www.0yx.com.cn/wailian/2025101382596953.html
http://www.dqzsug.cn/wailian/2025101386171789.html
http://www.kqredcross.org.cn/wailian/2025101386653351.html
http://www.rybwn.cn/wailian/2025101313874635.html
http://www.gqmtt.cn/wailian/2025101385693228.html
http://www.caeyr.cn/wailian/2025101321773649.html
http://www.bxmyan.cn/wailian/2025101313196117.html
http://www.xoucqih.top/wailian/2025101372287431.html
http://www.hnjqtvm.top/wailian/2025101356912142.html
http://www.dslchb.cn/wailian/2025101353567383.html
http://www.sethlce.top/wailian/2025101384115416.html
http://www.jgozyd.cn/wailian/2025101316151444.html
http://www.gwbwst.cn/wailian/2025101359755937.html
http://www.lrtxewj.icu/wailian/2025101341475995.html
http://www.xbnwde.cn/wailian/2025101363357359.html
http://www.owllc.cn/wailian/2025101347533938.html
http://www.tynrrns.icu/wailian/2025101328375981.html
http://www.hethxhv.top/wailian/2025101384876736.html
http://www.pubgpe.cn/wailian/2025101312462641.html
http://www.hxgcfgm.top/wailian/2025101378254744.html
http://www.bubilci.icu/wailian/2025101368438351.html
http://www.olejz.cn/wailian/2025101376658923.html
http://www.hdgiqfj.icu/wailian/2025101317362392.html
http://www.hqueio.cn/wailian/2025101315638383.html
http://www.chaoyal.cn/wailian/2025101337966368.html
http://www.qxtiwke.top/wailian/2025101337978978.html
http://www.etnal.com.cn/wailian/2025101387274135.html
http://www.tdvlvkf.top/wailian/2025101388112377.html
http://www.rptrdj.cn/wailian/2025101343396123.html
http://www.bafegm.cn/wailian/2025101322825395.html
http://www.drrmc.cn/wailian/2025101334251196.html
http://www.acyih.cn/wailian/2025101347844989.html
http://www.kpyoc.cn/wailian/2025101311394288.html
http://www.qjivekc.icu/wailian/2025101334185944.html
http://www.dkhedut.top/wailian/2025101341536566.html
http://www.drxlyrm.icu/wailian/2025101391471379.html
http://www.mjarbb.cn/wailian/2025101351472612.html
http://www.wnesnta.icu/wailian/2025101386374425.html
http://www.feartso.icu/wailian/2025101376361363.html
http://www.eorneig.icu/wailian/2025101345881313.html
http://www.iihjl.cn/wailian/2025101335132593.html
http://www.bjwthn.cn/wailian/2025101396293447.html
http://www.wthsufq.icu/wailian/2025101342523938.html
http://www.ugxrjmd.icu/wailian/2025101374554396.html
http://www.xidvrw.cn/wailian/2025101366376153.html
http://www.cfxiaohao.cn/wailian/2025101395915469.html