近日,开源平台 GitHub 一项研究称,华为盘古大模型与阿里通义千问 Qwen-2.5 14B 模型在注意力参数分布上有相关性,超正常范围。随后华为人工智能研究部门驳斥了网络上有关其盘古大语言模型抄袭阿里巴巴模型的指控,称其为自主研发并独立训练的模型。
@HonestAGI 的研究指出,盘古 Pro MoE 与 Qwen-2.5 14B 模型在多个技术细节上存在高度相似性。例如,QKV 偏置分析显示,两种模型在所有三种投影类型(Q、K、V)上都存在惊人相似性,尤其是早期层特有的尖峰特征及随后的收敛行为。此外,注意力层归一化权重分析进一步强化了相似性,盘古和 Qwen-2.5 14B 在层序列上展现出极为一致的趋势,具有平行的初始化模式和收敛行为。
7 月 5 日,华为诺亚方舟实验室发布声明,坚决否认抄袭指控。声明指出,盘古 Pro MoE 模型是基于昇腾硬件平台开发、训练的基础大模型,并非基于其他厂商模型增量训练而来。华为强调,盘古 Pro MoE 在架构设计、技术特性上做了关键创新,例如全球首个面向昇腾硬件平台设计的分组混合专家(MoGE)架构,有效解决了大规模分布式训练的负载均衡难题。
来源:电车之家 https://www.zhev.com.cn/news/show-1657903067.html