字节跳动大模型训练被实习生恶意注入破坏代码，涉事者已被辞退，攻击带来的影响有多大？暴露出哪些问题？

发布时间：

2024-10-19 19:28

阅读量：

这事坑就坑在：

运维怀疑买到了垃圾机器；

系统怀疑调度/框架出了问题；

算法怀疑模型见了鬼；

都没想到是内鬼在搞鬼；

因为大模型训练本来就会有很多因素影响，这种千卡万卡集群的问题更多；我看很多人都说权限管理，但这事和权限管理真没什么关系，因为看目前反馈的情况是钻的开源huggingface的load_ckpt接口，load ckpt是用于加载模型的checkpoint，反序列化时使用了pickle.load()，而 pickle 模块在反序列化时会执行数据中的任意代码。所以如果有人在checkpoint中加入一段恶意代码，就可以将病毒种入训练or推理过程。

老实讲这确实没招，因为checkpoint不属于代码，不会提交进仓库，单纯cr啥也看不出来，而且这个接口非常常见，都这么用，这可能也是迟迟没有被发现的原因。

更不用说内鬼还潜伏在debug群，别人查到啥他就改啥，程序员应该都懂吧，debug最烦的就是无法复现，尤其是这种观测和不观测状态下完全两种表现的bug；

你观测时就表现正常，不观察时就出问题；

我管它叫薛定谔bug，简直可以毁了一个程序员的道心。

已经朋友圈看到两位被这位人类智子搞崩心态的受害者了，前后光查就查了一个多月……

昨天在这条受害者联合爆出的GitHub之前，还有不少自称是同学的人来帮忙辟谣，这个面不改色的定力，是我个人感觉最可怕的地方……

现实中碰到这种人我有多远躲多远……

https://github.com/JusticeFighterDance/JusticeFighter110

上一篇：你在红警游戏里干过最牛的事是什么？

下一篇：为什么以色列会发布辛瓦尔被击毙的视频?

END