标题: 斯坦福两学生抄袭清华系大模型,是如何被发现的?对话打假者 [打印本页] 作者: admin 时间: 2024-6-5 15:55 标题: 斯坦福两学生抄袭清华系大模型,是如何被发现的?对话打假者 一则斯坦福大学Llama3-V团队抄袭清华系大模型的消息,近日在海内外引发热议。北京时间4日凌晨,该团队的两名成员Siddharth Sharma和Aksh Garg在社交媒体X上对这一学术不端行为公开致歉,并表示会将Llama3-V模型悉数撤下。 ! o _- y. {& {% x! s. p) T0 {. Z5 Y2 P4 ]7 J5 v
据悉,两人是斯坦福大学计算机科学专业的本科生,自称在团队中的角色是模型推广,而负责该项目代码编写的是毕业于南加利福尼亚大学Mustafa Aljadery。事发后,他们要求Mustafa提供原创性证明和训练代码,但未取得任何证据。 ) _# b9 | n: k' G: `7 j- i9 X$ Q$ K8 c0 ^8 k
4日记者尝试联系率先发现清华系模型被套壳的网友,他表示只是做了一名开源社区工作者应该做的事。此次Llama3-V的抄袭行为,“相当于把可口可乐换成可日可乐就说是自己的项目”。: f5 C. n, b% Y2 ^- D4 X( n1 S5 r: p
5 m! G% c( I( |: C 针对此事,面壁智能CEO李大海也作出回应,称技术创新不易,呼吁共建开放、合作、有信任的社区环境。7 H o6 Q! x( \# K, S
+ b; Z5 p6 W( m6 f1 I) f 用不到500美元训练出超越SOTA水平的大模型? ; u; `, C8 k- y, E: a 8 Z0 ?9 [& N% z3 h. N 事情起源于5月29日,斯坦福大学AI团队发布Llama3-V开源模型,称它比当前开源SOTA视觉语言模型LLaVA的性能提高了10%-20%,不仅尺寸比GPT-4V小近100倍,而且性能比肩GPT-4V、Gemini Ultra与Claude Opus。
网友晒出Llama3-V涉嫌抄袭的证据。8 _; Q5 _& w0 B
GitHub项目信息显示,MiniCPM-Llama3-V2.5共有8B个参数,整体性能超越GPT-4V-1106、Gemini Pro、Qwen-VL-Max和Claude3等专有模型,配备了增强的OCR和指令跟踪能力,还可以支持英语、中文、法语等30多种语言的多模态对话。这款端测多模态开源模型,由清华大学自然语言处理实验室与面壁智能合作开发,于今年5月20日推出。 M' k1 V$ q& x: ?5 c* F# P 7 K+ O& f) V1 ~/ m. `! \ 南都记者尝试联系这位揭露Llama3-V涉嫌抄袭的网友Magic Yang(知乎网名“社恐患者杨老师”),他向南都记者回顾了这场打假的过程。杨老师表示,最近正在帮助一名博士生做有关运动处方的项目,想选择一个质量较好的开源模型作为微调的基座。此前他曾测试了MiniCPM-Llama3-V2.5,因此对MiniCPM的模型架构和代码都相对熟悉。 5 g; N- j. X0 V' ^9 C7 a! V- H( Y$ E0 F) _" ?5 V
后来他注意到,Llama3-V项目在HuggingFace上排名也非常靠前,且获得了相关博主推荐,于是想进一步做测试。但在这过程中,他发现二者在模型架构和代码上存在高度相似的情况,就此询问了Llama3-V作者。结果对方避重就轻,并不正面回应,随后更是将质疑帖子删除,且隐藏了MiniCPM-Llama3-V 2.5的项目主页。 ! K8 v9 g, @* G, d' h $ C$ W$ c) y! U0 I0 P$ @ 这一系列的操作,令人生疑。6月2日下午,杨老师把所知的证据发到MiniCPM-V的Github项目主页,并提醒面壁智能团队关注。相关对话截图显示,Llama3-V项目作者最初否认抄袭,并称他们的项目开始时间更早,只是使用了MiniCPM-V2的分词器。 - O7 w' a/ N- X1 h8 Y0 } / t- e \" \! n8 ^! T% k1 D6 N 杨老师告诉南都记者,作为一个有大模型经验的开发者,发现(抄袭行为)不难,但要证实不易。此事最终一锤定音,还是因为面壁智能团队使用内部数据集“清华简”做了对比测试。& j; M! s: t3 q z% \/ ] N
+ y" [; c7 ?+ G0 J/ R+ n7 A* k
“连错的都一模一样”,确信是套壳 % K- r5 F! p0 z+ T. e) R, L2 G5 \
南都记者注意到,6月2日深夜,面壁智能团队证实了抄袭行为的存在。经核实,除了社区网友列出的证据外,还发现Llama3-V项目与MiniCP-Llama3-V 2.5一样,可以识别出“清华简”战国古文字,“不仅对的一模一样,连错的都一模一样”。7 z; p) @. ?. h7 T, C8 R& F
) e3 A3 r" e. a 据面壁智能首席科学家、清华大学长聘副教授刘知远介绍,“清华简”的识别能力,是MiniCPM-Llama3-V 2.5研发时内置了一个彩蛋。这是该团队花费数月从清华简逐字扫描,人工标注而来的数据集,并未公开,由此“已经比较确信Llama3-V是对MiniCPM-Llama3-V2.5套壳。”
两人联合发文道歉。被推为主要责任方的Mustafa,是团队中唯一的全职成员。其本硕毕业于南加利福尼亚大学,主攻深度学习和数学,是一名软件工程师。截至目前,Mustafa尚未发声。+ V4 k. M" N' x) c) h
* n8 L1 r& O! d3 m% T6 n4 t
两名作者的解释,尚不能平息质疑。斯坦福人工智能实验室主任Christopher David Manning公开发文谴责这一抄袭行为,称两人借口推脱,是拒不认错的表现。& G5 b1 g! A, c) B. m; w
4 T9 H2 S7 G6 K
此番随着原创者也下场打假,这场大模型抄袭风波将暂告一段落。$ B# f& f: q! ~+ o7 E+ ]