硅谷團隊抄襲清華系大模型?面壁智能李大海獨家回應:套殼現(xiàn)象難規(guī)避
大模型廠商你方唱罷我登場,“套殼”之爭風云再起——神仙打架的戰(zhàn)場又出現(xiàn)了軟飯硬吃的戲碼。
來源|時代周報
近日,一個來自斯坦福的研究團隊發(fā)布了一款名為Llama3-V的多模態(tài)大模型,聲稱只要500美元(約合3650元)訓練,就能在多個基準測試中實現(xiàn)與GPT4-V、Gemini Ultra、Claude Opus一較高下的性能。
Llama3-V團隊中的兩位作者Siddharth Sharma與Aksh Garg是斯坦福大學計算機系的本科生,曾發(fā)表過數(shù)篇機器學習相關的論文。因兩人具備名校背景,且曾在特斯拉、SpaceX等大廠任職,Llama3-V一經(jīng)發(fā)布迅速躥紅網(wǎng)絡,還沖上了HuggingFace趨勢榜首頁(機器學習領域影響力平臺)。
然而Llama3-V迅速跌落神壇。有網(wǎng)友指出,該模型跟“清華系”大模型創(chuàng)業(yè)企業(yè)面壁智能5月發(fā)布的MiniCPM-Llama3-V 2.5模型有不少相似處,模型結構、代碼、配置文件堪稱雷同,只是變量名稱做了更改。
具體來看,Llama3-V的代碼是對MiniCPM-Llama3-V 2.5的重新格式化,其模型行為檢查點的噪聲版本相似;Llama3-V使用了MiniCPM-Llama3-V 2.5的分詞器(tokenizer),并且MiniCPM-Llama3-V 2.5定義的特殊符號也出現(xiàn)在了Llama3-V中;Llama3-V提供的代碼無法與Hugging Face的檢查點兼容,而將從HuggingFace下載的Llama3-V模型權重中的變量名改成MiniCPM-Llama3-V 2.5的,模型可以用MiniCPM-V代碼成功運行。
此外,在未公開的實驗性特征上,Llama3-V與MiniCPM-Llama3-V 2.5顯示出了相似的推理結果。
時代周報記者注意到,6月3日上午,面壁智能CEO李大海在朋友圈發(fā)文稱,團隊核實發(fā)現(xiàn),Llama3V展現(xiàn)出和小鋼炮一樣的清華簡識別能力,連做錯的樣例都一模一樣,而這一訓練數(shù)據(jù)尚未對外公開。
他表示,清華簡的識別能力是團隊耗時數(shù)月,從卷帙浩繁的清華簡中一個字一個字掃描下來,并逐一進行數(shù)據(jù)標注從而融合進模型中的。在對兩個模型進行高斯擾動驗證后發(fā)現(xiàn),它們在正確和錯誤表現(xiàn)方面都高度相似。
時代周報記者就如何規(guī)避相關現(xiàn)象詢問李大海,他稱,(想規(guī)避)應該很難。“這主要是個學術道德問題。”
對于質(zhì)疑,Llama3-V項目的作者與外界進行一番辯駁后,刪除了質(zhì)疑者在Llama3-V上提交的質(zhì)疑他們偷竊的問題,并將Llama3-V項目從開源網(wǎng)站中刪除,且發(fā)文致歉。Siddharth Sharma與Aksh Garg解釋道,他們并未參與代碼工作,所有代碼都是畢業(yè)于南加州大學的Mustafa Aljadery負責的,而他一直沒交出訓練代碼。
業(yè)內(nèi)關于“套殼”的爭議由來已久。有人認為,開源就該被充分利用;有人則表示,閉源才是自主研發(fā),參考開源就是套殼。
實際上,如今所有大模型都源于2017年谷歌大腦團隊發(fā)布的Transformer神經(jīng)網(wǎng)絡架構,這些包含模型架構和算法的設計決定了模型如何處理輸入數(shù)據(jù)并生成輸出。在此基礎上,廠商在大規(guī)模的數(shù)據(jù)上對大模型進行預訓練,來提高模型的泛化能力,加速后續(xù)的學習任務推進。因神經(jīng)網(wǎng)絡架構和預訓練這兩項工作打造難度高、投入金額大、耗費數(shù)據(jù)量多,往往被稱作大模型的內(nèi)核。
而大模型的“殼”一般指調(diào)優(yōu)。調(diào)優(yōu)是指對已經(jīng)預訓練過的模型進行進一步的訓練。這個過程通常是有監(jiān)督的,需要使用標注好的數(shù)據(jù)來指導模型的學習。調(diào)優(yōu)的目標是調(diào)整模型參數(shù),使其更好地適應特定任務的需求。
“‘套殼’常指在調(diào)優(yōu)階段通過更改變量名稱,在開源成果基礎上調(diào)適出更加符合某些場景的大模型。”AI分析師張毅向時代周報記者稱。
前語雀設計師、現(xiàn)AI助手Monica聯(lián)合創(chuàng)始人Suki曾分享了“套殼”的四個階段:一是直接引用OpenAI接口,ChatGPT?回答什么,套殼產(chǎn)品回答什么。卷UI、形態(tài)、成本。
二是構建Prompt。如大模型可以類比為研發(fā),Prompt可以類比為需求文檔,需求文檔越清晰,研發(fā)實現(xiàn)得越精準。套殼產(chǎn)品可以積累自己的優(yōu)質(zhì)Prompt,卷Prompt質(zhì)量,卷 Prompt分發(fā)。
三是把特定數(shù)據(jù)集進行向量化,在部分場景構建自己的向量數(shù)據(jù)庫,以達到可以回答 ChatGPT 回答不出來的問題。比如垂直領域、私人數(shù)據(jù)等。Embedding可以將段落文本編碼成固定維度的向量,從而便于進行語義相似度的比較,相較于Prompt可以進行更精準的檢索從而獲得更專業(yè)的回答。
四是微調(diào) Fine-Tuning。使用優(yōu)質(zhì)的問答數(shù)據(jù)進行二次訓練,讓模型更匹配對特定任務的理解。相較于 Embedding 和 Prompt 兩者需要消耗大量的 Token,微調(diào)是訓練大模型本身,消耗的 token 更少,響應速度也更快。
“實際上,套殼是個相對正常的模式,針對某一垂直領域頻繁進行調(diào)優(yōu)司空見慣,該主題的研究論文也非常多。而抄襲框架和預訓練數(shù)據(jù)的情況,一般得叫‘借殼’了。”張毅告訴時代周報記者,正因為大模型研發(fā)門檻高,入局者才更應審慎對待自研。
記者丨申謹睿
編輯丨史成超
值班丨滿? ?滿
風險提示:
本網(wǎng)站內(nèi)用戶發(fā)表的所有信息(包括但不限于文字、視頻、音頻、數(shù)據(jù)及圖表)僅代表個人觀點,僅供參考,與本網(wǎng)站立場無關,不構成任何投資建議,市場有風險,選擇需謹慎,據(jù)此操作風險自擔。
版權聲明:
此文為原作者或媒體授權發(fā)表于野馬財經(jīng)網(wǎng),且已標注作者及來源。如需轉(zhuǎn)載,請聯(lián)系原作者或媒體獲取授權。
本網(wǎng)站轉(zhuǎn)載的屬于第三方的信息,并不代表本網(wǎng)站觀點及對其真實性負責。如其他媒體、網(wǎng)站或個人擅自轉(zhuǎn)載使用,請自負相關法律責任。如對本文內(nèi)容有異議,請聯(lián)系:contact@yemamedia.com