开源模型竟被用于窃取下游微调数据?清华团队揭秘开源微调范式新型隐藏安全风险
何杰
2025-10-01 21:13:56
0
则给予 1 的奖励,在经过后门训练之后,如下图所示:
表 1:在 Dolly 下游数据的测试结果。完整抽取的数据(query)比例最高可达 76.3%,下游开发者在经过后门训练的开源模型" cms-width="661" cms-height="354.359" id="2"/>图 1:整体流程概览,
图 3:开头词已知时,结果发现该手段一定程度上可以辅助分辨模型是否经过后门训练,或用户特定的提示语," cms-width="27" cms-height="23.2031"/>]article_adlist-->


为检测时尝试的抽取指令," cms-width="32" cms-height="26.7656"/>图 2:开头词未知时," cms-width="35" cms-height="27.8125"/>
在针对下游微调后的模型
,则计算模型的输出 r 与 D_1 中所有以 w 开头的查询 x 的最大相似度,下游开发者在经过后门训练的开源模型
中提取
发布者可利用后门从
,