您的位置 首页 科技

华为盘古大模型事件的“三重门”

记者 周悦7月4日,开源社区GitHub用户HonestAGI发布研究报告称,通过一种“模型指纹”技术(分析Transformer层注意力参数的标准差分布),发现华为盘古Pro MoE 72B与阿里通义千问Qwen-2.5 14B模型的相似度高达0.927(在统计学上,完全一致为1),远超业内通常的0.7阈值。

记者 周悦

7月4日,开源社区GitHub用户HonestAGI发布研究报告称,通过一种“模型指纹”技术(分析Transformer层注意力参数的标准差分布),发现华为盘古Pro MoE 72B与阿里通义千问Qwen-2.5 14B模型的相似度高达0.927(在统计学上,完全一致为1),远超业内通常的0.7阈值。

该报告作者认为,盘古模型可能在千问模型的基础上进行了增量训练,而非完全从零训练。

事涉华为和阿里,这一报告引发关注。支持者认为,两个模型在众多注意力参数上呈现近乎一致的分布,自然发生(非人为干预)的可能性较低。质疑者则指出,这一方法过于简化,来自Github、知乎等社区的多位用户认为可能存在cherry picking(选择性挑选数据)的空间,仅公开少量模型对比样本、缺乏大规模基准测试等问题。

7月6日,一封自述来自“盘古大模型团队,华为诺亚方舟实验室的员工”的匿名信在GitHub平台发布,作者为HW-whistleblower(华为吹哨人)。该匿名信中提及多个盘古模型的研发过程与组织分工细节。

此后,对盘古大模型与阿里千问大模型相似性,以及华为诺亚方舟实验室组织结构变化的关注在社交媒体发酵。

总结来看,行业内对华为盘古大模型的关注主要是以下三点:一是首发质疑者的身份与技术方法遭遇到业界质疑,因其缺乏权威背书与实证链条;二是模型代码中出现阿里Qwen团队版权标识,引发行业内对大模型“自主”“自研”表述的合规讨论;三是匿名信直指盘古背后团队的组织更迭。

一重门:首发质疑方的身份、学术声誉及所用技术存疑

多位大模型研发人员对经济观察报表示,此前几乎没有听说过HonestAGI团队及其研究成果,也没有使用或研究过类似的研究方法,难以确认“模型指纹”技术科学性。目前,“模型指纹”检测尚未成为主流方法,较难成为鉴别模型抄袭的客观标准之一。

当前亦出现对HonestAGI的作者及其团队真实性的质疑。其作者自称是一位来自哥斯达黎加大学的韩国人,参与署名的五位作者身份无法核实,均未依据AI行业惯例提供邮箱或学术履历。因此,外部无法在Google Scholar、arXiv等主流学术平台上查看其历史发表成果。

展开全文

经济观察报检索该报告引用的文献内容,发现部分文献无法在公开数据库中查验。截至发稿前,该报告已经在Github删除,HonestAGI主页无法找到。

此外,原报告发布在GitHub页面,但点赞(stars)、收藏(forks)等数据数较低;相比之下,其他具备社区共识的模型安全/评估工具如OpenLlama Eval等,往往在发布几小时内即获得数百互动。作为对比,OpenLlama Eval点赞目前超过7500,收藏超过400。

在当前大模型竞争加剧、开源协作频繁的背景下,模型开发过程中的版权归属、原创性问题一直是被业内重视,但要真正实锤一款模型“抄袭”并不容易。

2024年,一起被广泛报道的“模型抄袭”事件发生在斯坦福大学学生团队与中国清华系创业公司面壁智能之间。斯坦福学生推出的Llama3-V模型被指与面壁智能的开源模型MiniCPM-Llama3-V 2.5在模型架构与代码上高度相似,仅有部分变量名被更改。

曾经参与面壁智能数据标注的清华大学博士后冯聪告诉经济观察报,当时斯坦福大学的学生团队发布了该模型,宣称性能顶尖且成本极低。面壁智能算法工程师发现,该模型与面壁的模型很相似,但这个怀疑很难被证实。在算法代码领域,结构相似性较为常见,仅凭直觉难以形成证据链。

冯聪发现了一项关键性证据。她参与标注的清华简(战国竹简)数据被上述斯坦福大学团队用到模型里,而这一数据集属于面壁智能的独家内容。最终,斯坦福大学的学生团队开发者在社交平台公开致歉,承认参考甚至复制了面壁智能开源模型的成果,并迅速撤下相关模型与文档。

二重门:盘古模型代码中现阿里版权标识

除参数层面的讨论外,用户HonestAGI还指出,盘古模型开源代码中出现了“Copyright 2024 The Qwen team, Alibaba Group”等版权声明。该标注出现在模型组件中,被认为可能与阿里巴巴开源模型千问有关,由此引发外界对模型构建路径与代码引用范围的进一步关注。

从事大模型研究工作的郭程告诉经济观察报,在HuggingFace等开源社区,基于第三方开源模型,进行二次预训练和场景微调的模型发布量已达到百万量级,大家通常都很直白地说明来源。在这类二创模型发布时,一般会明确标注其为“垂类大模型”,并说明其所基于的底座模型,例如Meta的LLaMA模型、阿里的Qwen等。

从头训练的、原创开源大模型,通常研发技术难度更高、资源消耗更大,因而数量很少,在开源社区中也很受关注和尊重,具有更为良好的技术影响力和品牌声誉,比如,Meta的LLaMA模型、阿里的Qwen以及DeepSeek等系列模型。

在郭程看来,当前业界对“自研”“自主创新”等语义尚无统一定义。不过,如果一个模型是基于二次预训练或微调得到的,而对外叙述中采用“从头训练”“自研”等表述,“这在行业内通常是不能被接受的”。对于“盘古模型是否采用了已有模型的参数或架构”的问题,他表示,没有研究过,不便评价。

7月5日,华为诺亚方舟实验室发布声明称:“盘古Pro MoE开源模型是基于昇腾硬件平台开发、训练的基础大模型,并非基于其他厂商模型增量训练而来。同时,盘古Pro MoE开源模型部分基础组件的代码实现参考了业界开源实践,涉及其他开源大模型的部分开源代码。我们严格遵循开源许可证的要求,在开源代码文件中清晰标注开源代码的版权声明。这不仅是开源社区的通行做法,也符合业界倡导的开源协作精神。”

截至发稿前,阿里方面尚未就此事进行公开回应。

三重门:诺亚方舟实验室人事更迭

除了模型本身的争议,此次事件也将盘古大模型背后的组织结构变化带入公众视野。

7月6日,自述来自“盘古大模型团队,华为诺亚方舟实验室的员工”的匿名信对盘古大模型的训练路径选择、模型架构替换、词表标准争议及团队成员变动等发表看法。

截至发稿前,该匿名信所属库在GitHub上点赞达8500,收藏达1100。

该信称,部分早期模型由“基础语言大模型”团队主导训练,而在后期开源发布与版本迭代过程中,由另一支团队介入接手,并在代码、数据、命名权等方面发生交集。在信中,华为方舟实验室现任主任王云鹤及其小模型团队被多次提及,并被指疑似存在套壳、续训及洗水印等行为。

“洗水印”指疑似去除模型中用于标识原创性的数字标记,该匿名信中未提供图片、邮件、代码等技术细节佐证,表述为“经过内部的分析,他们实际上是使用Qwen 1.5 110B续训而来”。

7月8日,另一封匿名信在GitHub引发讨论,标题为“讨贼王云鹤檄文”。发布账号为Knemik97,正文中并未自述身份,也未提供图片、内部邮件、代码记录等证明。

两封匿名信均为自述性内容,未附带可公开验证的证据(如内部邮件、代码记录等),其核心指控缺乏第三方佐证,亦未获得华为方面回应或证实。

经济观察报向该自述为“盘古大模型团队员工”的人员求证,截至发稿,未获得回应。

公开信息显示,华为诺亚方舟实验室于2025年3月进行了人事调整,王云鹤接任实验室主任一职。

王云鹤是一名90后,本科就读于西安电子科技大学数学与应用数学专业,2018 年博士毕业于北京大学,其曾公开表示“个人主要研究的方向是关于端侧AI模型的优化和加速等”。端侧AI模型,也通常被业界叫做小模型。

此外,他是华为第四届“十大发明”之一“大幅提升算力的高效能乘法器和加法神经网络”的主要发明人。

此前,该实验室由姚骏负责。姚骏本硕就读于清华大学,博士毕业于日本京都大学,2009 年至 2014 担任日本奈良先端科学技术大学院准教授,从事面向深度学习等算法的AI 异构系统的研究。

(应受访者要求,郭程、冯聪为化名)

本文来自网络,不代表冰河马新闻网立场,转载请注明出处:http://jvto.cn/36016.html

作者: wczz1314

为您推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们

联系我们

13000001211

在线咨询: QQ交谈

邮箱: email@wangzhan.com

关注微信
微信扫一扫关注我们

微信扫一扫关注我们

关注微博
返回顶部