近日,開源平臺(tái)GitHub一項(xiàng)研究稱,華為盤古大模型與阿里通義千問(wèn)Qwen-2.5 14B模型在注意力參數(shù)分布上有相關(guān)性,超正常范圍。隨后華為人工智能研究部門駁斥了網(wǎng)絡(luò)上有關(guān)其盤古大語(yǔ)言模型抄襲阿里巴巴模型的指控,稱其為自主研發(fā)并獨(dú)立訓(xùn)練的模型。
@HonestAGI的研究指出,盤古Pro MoE與Qwen-2.5 14B模型在多個(gè)技術(shù)細(xì)節(jié)上存在高度相似性。例如,QKV偏置分析顯示,兩種模型在所有三種投影類型(Q、K、V)上都存在驚人相似性,尤其是早期層特有的尖峰特征及隨后的收斂行為。此外,注意力層歸一化權(quán)重分析進(jìn)一步強(qiáng)化了相似性,盤古和Qwen-2.5 14B在層序列上展現(xiàn)出極為一致的趨勢(shì),具有平行的初始化模式和收斂行為。
7月5日,華為諾亞方舟實(shí)驗(yàn)室發(fā)布聲明,堅(jiān)決否認(rèn)抄襲指控。聲明指出,盤古Pro MoE模型是基于昇騰硬件平臺(tái)開發(fā)、訓(xùn)練的基礎(chǔ)大模型,并非基于其他廠商模型增量訓(xùn)練而來(lái)。華為強(qiáng)調(diào),盤古Pro MoE在架構(gòu)設(shè)計(jì)、技術(shù)特性上做了關(guān)鍵創(chuàng)新,例如全球首個(gè)面向昇騰硬件平臺(tái)設(shè)計(jì)的分組混合專家(MoGE)架構(gòu),有效解決了大規(guī)模分布式訓(xùn)練的負(fù)載均衡難題。
此外,華為還指出,盤古Pro MoE部分基礎(chǔ)組件的代碼實(shí)現(xiàn)參考了業(yè)界開源實(shí)踐,涉及其他開源大模型的部分開源代碼。華為嚴(yán)格遵循Apache License 2.0等開源協(xié)議要求,在開源代碼文件中清晰標(biāo)注開源代碼的版權(quán)聲明。
值得注意的是據(jù)媒體報(bào)道,在7月6日凌晨,一位自稱是盤古大模型團(tuán)隊(duì)的網(wǎng)友自曝:確實(shí)存在套殼、續(xù)訓(xùn)、洗水印的現(xiàn)象。截至發(fā)稿前,該網(wǎng)友爆料的信息未得到有效證實(shí),華為方尚未對(duì)此爆料內(nèi)容發(fā)表聲明。
此外,有網(wǎng)友爆料華為盤古自研曝光后,華為開始修改官網(wǎng),從全棧“自研”,變成全棧“自主?”。
來(lái)源:電車之家 http://www.young-lady.cn/news/show-1657903067.html