字节跳动大模型训练被实习生恶意注入破坏代码,涉事者已被辞退,攻击带来的影响有多大?暴露出哪些问题?

发布时间:
2024-10-19 19:28
阅读量:
2

这事坑就坑在:

运维怀疑买到了垃圾机器;

系统怀疑调度/框架出了问题;

算法怀疑模型见了鬼;

都没想到是内鬼在搞鬼;

因为大模型训练本来就会有很多因素影响,这种千卡万卡集群的问题更多;我看很多人都说权限管理,但这事和权限管理真没什么关系,因为看目前反馈的情况是钻的开源huggingface的load_ckpt接口,load ckpt是用于加载模型的checkpoint,反序列化时使用了pickle.load(),而 pickle 模块在反序列化时会执行数据中的任意代码。所以如果有人在checkpoint中加入一段恶意代码,就可以将病毒种入训练or推理过程。

老实讲这确实没招,因为checkpoint不属于代码,不会提交进仓库,单纯cr啥也看不出来,而且这个接口非常常见,都这么用,这可能也是迟迟没有被发现的原因。

更不用说内鬼还潜伏在debug群,别人查到啥他就改啥,程序员应该都懂吧,debug最烦的就是无法复现,尤其是这种观测和不观测状态下完全两种表现的bug;

你观测时就表现正常,不观察时就出问题;

我管它叫薛定谔bug,简直可以毁了一个程序员的道心。

已经朋友圈看到两位被这位人类智子搞崩心态的受害者了,前后光查就查了一个多月……

昨天在这条受害者联合爆出的GitHub之前,还有不少自称是同学的人来帮忙辟谣,这个面不改色的定力,是我个人感觉最可怕的地方……

现实中碰到这种人我有多远躲多远……

github.com/JusticeFight

END