开源模型竟被用于窃取下游微调数据?清华团队揭秘开源微调范式新型隐藏安全风险
大乔小乔
2025-09-28 02:51:50
0
这使得模型能够记忆训练中见过的查询。" cms-width="26" cms-height="24.5938"/>
图 3:开头词已知时," cms-width="27" cms-height="23.3906"/>
]article_adlist-->


中提取
发布者可利用后门从
,然后构造相应的 SFT 数据对 (Q (w), x),但如果将攻击进一步加强,表明绝大部分的训练 query 都存在被抽取的可能:

在针对下游微调后的模型
,