大評測!ChatGPT 、文心一言和Bard誰更強?
3月22日,谷歌悄悄公開了Bard的測試版。
撰文 | 蘇??舒?編輯 | 李信馬? 來源|Donews
經(jīng)過上一次的翻車事件之后,谷歌明顯低調(diào)了很多。但是面對微軟的步步緊逼,谷歌也不得不站出來“打擂臺”。
不同于New Bing的大規(guī)模開放策略,Bard的測試名額將被逐步放出,同時初始版本將只能對文本響應。谷歌表示,Bard首先將面向美國和英國地區(qū)啟動,隨著測試的推進Bard也會逐步在其他地區(qū)上線。
在三大模型都開放測試后,DoNews搶先體驗了一下。我們分別就文學、翻譯、創(chuàng)作、藝術、哲學、邏輯推理等方向出題,來看看他們的回答是什么樣子的。
在此先注明,對三大語言模型提出的問題,每一次生成的答案都有所不同,也因此造成了“一萬個人有一萬個哈姆雷特”,但總體來看,三大語言模型還是各有千秋。另外,由于Bard目前只支持英文,因此,Bard是用英文提問,文心一言和ChatGPT(3.5版本)是用中文提問。
互相評價一下
分別將“你認為文心一言/ChatGPT/Bard怎么樣”拋給這三個大語言模型,讓他們給對方做一下評價。
Bard給出了相對客觀的回答,也肯定了文心一言在中文理解上的優(yōu)勢,以及ChatGPT在英文理解上的優(yōu)勢。
不過,DoNews咨詢了一下英語專業(yè)人士來解讀這段話,她表示,Bard回答很客觀但語言表述比較機械,“語言表述像是用機器翻譯的中文一般,有很多重復的內(nèi)容。”
為了更好的做對比,我們用英文在ChatGPT上和文心一言都問了一下。
上圖為ChatGPT,下圖為文心一言
在這個問題上,ChatGPT的英文表示是好于Bard。文心一言這邊就有意思的多并且“狡猾”一些,誰也不得罪同時,還吹捧了人類。(最后一句話的意思是:地球上只有一個聰明的活物種:人類。)
上圖為ChatGPT,下圖為文心一言
用中文去問,ChatGPT也好,文心一言也罷,和Bard的回答都差不多。先表明自己作為AI大模型角色,做不了任何評價,然后對其解釋一番。
文學創(chuàng)作能力
這里,我們用了一個有更多限定的問題,寫一本像奧斯丁的《傲慢與偏見》同類型小說的大綱。并且通過繼續(xù)提問的方式,以便考量三大模型對話的連續(xù)度。
Bard對話持續(xù)度是正常的。但是它似乎并沒有理解這個問題的限定詞——寫一篇類似《傲慢與偏見》的小說。Bard給出來的大綱,依舊是按照《傲慢與偏見》的情節(jié)來寫的。換句話說,Bard將這個題目理解成了概括《傲慢與偏見》的核心情節(jié)。
這一點,ChatGPT也比較類似,沒有完全脫離原著的影子。不過,ChatGPT提煉到了非常重要的核心要點,即“階級問題”,這也是《傲慢與偏見》小說呈現(xiàn)的主旨之一。
文心一言的優(yōu)勢在于,它理解到了同類型小說,所以它給出了脫離《傲慢與偏見》故事之外的另外一段愛情故事的大綱,但是比較可惜的點在于,文心一言僅限于愛情故事,沒有呈現(xiàn)《傲慢與偏見》中的階級差異。
這三大模型有一個共同點,即故事主人公的名字依舊未能突破《傲慢與偏見》原著中的主人公名字。不過,這或許也與提問的方式有關。
取個名字,寫個宣傳語
小編給三個大模型提出了這樣的要求:為具備川菜風味的中式餐廳取名并且寫宣傳語。
Bard給出了這樣的名字——“四川風味”、“天堂的味道”、“鎮(zhèn)上之最”、“舌尖上的中國”。沒有什么特色,且沒有給出宣傳語。
相比之下,文心一言在取名上更勝一籌。不過,這也與中文環(huán)境有關。但是,文心一言也并沒有給出廣告詞。
ChatGPT沒有給出很多選項,但是是唯一一個取了名字且寫了廣告詞的大模型。不得不承認的是,“麻辣香坊”還是一個不錯的名字。
邏輯推理
為了測試“邏輯推理”能力,我們將這樣一題拋給了三大模型,即“如果貓會爬樹,那么狗也會。”
上圖為Bard,下圖為ChatGPT
這一題Bard和ChatGPT更勝一籌,答案相似,認為這個邏輯題本身有問題,關鍵點在于,貓狗不是同一物種。
但是文心一言卻陷入了邏輯錯誤中去,或者說,并沒有完全理解題目意思。
但是,這也僅僅只能作為個案來呈現(xiàn),在文心一言發(fā)布會上,李彥宏詢問文心一言“雞兔同籠”的問題,在題目數(shù)據(jù)錯誤的前提下,文心一言通過推理證明了題目存在問題。
寫一行代碼
為了測試這三大模型寫代碼的能力,我們詢問了一個非常簡單的問題——x+2=5,y-3=7,輸出x+y等于幾,用java做一個簡單編程,并得出結果。
上圖為Bard,下圖為文心一言
就這個問題,小編咨詢了一下公司程序員,他表示,Bard和文心一言生成的代碼是有問題的,且最后得出來的結果也是有問題的。
這一點,ChatGPT卻給出了正確的答案。
在這里,需要提及的是,此前也有媒體試用Bard時,表示其不會寫代碼。目前來看,Bard還是可以寫代碼,這里會產(chǎn)生完全不同的結果,或許在于提問的方式。
中文理解能力
這一點,在測試之前,小編心里面對文心一言有很大的期待,事實證明,文心一言的確不負眾望,在中文語義的理解上可以在這三家中稱王,但是ChatGPT也不容小覷。
從這里來看,文心一言除了藏頭詩沒有按順序“藏頭”之外,其他回答的都相對比較好。ChatGPT也不相上下,但是卻無法理解藏頭詩的意思。
不過,Bard的問題就比較多,雖然也解釋了“瞞天過海”的意思,但是更多地去講商業(yè)上對于“瞞天過海”的應用,至于藏頭詩就更不用說了。
理解哲學問題
“闡述你對“無限”和“有限”這兩個概念的理解,并解釋為什么有時候我們會覺得自己的生命有限。”
我們把這個問題分別問了三大模型。Bard、ChatGPT、文心一言的回答都沒有什么邏輯問題,并且對“無限”和“有限”做出了解釋。
上圖為Bard,中圖為ChatGPT,下圖為文心一言
不過,文心一言則更注重“理論”,并且提出了這是一個哲學問題。
是否會取代人類?
關于ChatGPT是否會取代人類,我們將這個問題就交給這三個大模型去回答。
上圖為Bard,中圖為ChatGPT,下圖為文心一言
這一次的體驗,可以用這幾點來總結。
在生成速度上,文心一言的確是遙遙領先的。文心一言在300-500字左右的生成速度是14秒左右,但是ChatGPT即便是刨除網(wǎng)絡等問題,生成同樣字數(shù)的問題至少超過了30秒時間。另外,不少用過Bard的人告訴小編,Bard的體驗感也遠不如ChatGPT。
在中文語義理解能力上,文心一言的的確是這三大模型中比較突出的。
不過,值得注意的是,每一次的提問,生成的答案都不相同。此外,在提問的方式、角度、限定詞也會影響答案的輸出。
并不是每一個答案都是充分正確的,這三大模型也會輸出并不完全正確的內(nèi)容,或者是“一本正經(jīng)的廢話”。
不過,就像三大模型最后回答“是否會取代人類”的問題一樣,他們更像是作為輔助工具而存在。
風險提示:
本網(wǎng)站內(nèi)用戶發(fā)表的所有信息(包括但不限于文字、視頻、音頻、數(shù)據(jù)及圖表)僅代表個人觀點,僅供參考,與本網(wǎng)站立場無關,不構成任何投資建議,市場有風險,選擇需謹慎,據(jù)此操作風險自擔。
版權聲明:
此文為原作者或媒體授權發(fā)表于野馬財經(jīng)網(wǎng),且已標注作者及來源。如需轉(zhuǎn)載,請聯(lián)系原作者或媒體獲取授權。
本網(wǎng)站轉(zhuǎn)載的屬于第三方的信息,并不代表本網(wǎng)站觀點及對其真實性負責。如其他媒體、網(wǎng)站或個人擅自轉(zhuǎn)載使用,請自負相關法律責任。如對本文內(nèi)容有異議,請聯(lián)系:contact@yemamedia.com