9.11和9.9哪個(gè)更大?一道小學(xué)生都會(huì)的數(shù)學(xué)題,卻難倒了一眾AI大模型。昨天,“大模型測(cè)不出9.11和9.9哪個(gè)大”還登上了微博熱搜。
這個(gè)難倒大多數(shù)AI大模型的數(shù)學(xué)題,其實(shí)來(lái)自于最近熱播的《歌手》。
7月13日,在最新一期《歌手》公布的排名中,國(guó)內(nèi)歌手孫楠與外國(guó)歌手香緹莫的得票率分別是13.8%和13.11%。這個(gè)得票數(shù)統(tǒng)計(jì)引發(fā)了一些網(wǎng)友對(duì)排名的質(zhì)疑。
有網(wǎng)友認(rèn)為13.11%大于13.8%,因此,香緹莫的得票率比孫楠高。
隨后,關(guān)于13.8%和13.11%大小比較,一度成了網(wǎng)絡(luò)上的熱門話題。當(dāng)時(shí)也有網(wǎng)友提出,“實(shí)在不行問(wèn)問(wèn)AI”。
有趣的是,這道題AI大模型也不太會(huì)。有媒體記者測(cè)試了12個(gè)國(guó)內(nèi)外主流大模型,其中,一半模型答錯(cuò)了,認(rèn)為9.11大于9.9。橙柿互動(dòng)記者們也好奇地提問(wèn)了幾家AI大模型。結(jié)果發(fā)現(xiàn),有不少AI模型回答是錯(cuò)的,還有一些AI在答題時(shí)不太穩(wěn)定。
比如昨天下午,當(dāng)我的兩位同事向kimi提出這個(gè)問(wèn)題時(shí),其中一位同事的kimi答案時(shí)對(duì)時(shí)錯(cuò),且反應(yīng)“冷淡”。而另外一位同事的kimi舉例分析得十分在理,直觀且很好理解。同樣的問(wèn)題詢問(wèn)了通義千問(wèn)、文心一言、訊飛星火等AI模型,大部分AI回答正確并給出了詳細(xì)的答題過(guò)程。
為什么一道小學(xué)數(shù)學(xué)題難倒了部分AI大模型?
昨天上午,通義實(shí)驗(yàn)室產(chǎn)品經(jīng)理王曉明看到這則熱搜和網(wǎng)友們的評(píng)論,第一反應(yīng)是并不覺(jué)得奇怪,更像是網(wǎng)友玩的一個(gè)“花活”。王曉明說(shuō),大語(yǔ)言模型雖然在語(yǔ)言和文本類型的任務(wù)里能超越人類普通平均水平,但對(duì)于數(shù)學(xué)、物理這種強(qiáng)調(diào)邏輯性的任務(wù)短板比較明顯。
也就是說(shuō),現(xiàn)在的大模型其實(shí)更像一個(gè)文科生。
“簡(jiǎn)單來(lái)說(shuō),大模型不會(huì)把這個(gè)問(wèn)題像人類一樣,當(dāng)作一個(gè)比大小的題目�!�
王曉明說(shuō),大模型的本質(zhì)是通過(guò)提示詞,也就是提的問(wèn)題,對(duì)下一個(gè)詞進(jìn)行預(yù)測(cè),而不是做算術(shù)計(jì)算。這個(gè)跟平時(shí)的訓(xùn)練數(shù)據(jù)和大模型配置有關(guān)。
所以在處理“9.11和9.9哪個(gè)更大”這樣的對(duì)話場(chǎng)景時(shí),大模型不像人類,不會(huì)天然地把這個(gè)問(wèn)題視作算數(shù)比大小的題目,可能會(huì)把這當(dāng)成日期“9月11日”,拿9.11里面的11和9.9里面的9做對(duì)比�!霸谶@種情況下,它就會(huì)認(rèn)為11比9更大。這是由大模型處理的流程或機(jī)制決定的。有些大模型對(duì)指令識(shí)別得更好,答對(duì)概率就比較高。我們內(nèi)部測(cè)試發(fā)現(xiàn),通義絕大部分情況能答對(duì)�!�
還有不少網(wǎng)友發(fā)現(xiàn),調(diào)整提示詞的順序,大模型給出的答案準(zhǔn)確率也不一致。比如把提示詞從“9.11和9.9誰(shuí)更大”換成“哪個(gè)更大:9.11和9.9”,前一種情況幾乎全軍覆沒(méi),而后一種情況大部分大模型都能答對(duì)。
在王曉明看來(lái),這是因?yàn)榇蠖鄶?shù)模型對(duì)于后一句提示詞能更快更準(zhǔn)確地理解這是一個(gè)比大小的問(wèn)題,而不是比日期或者其他數(shù)字場(chǎng)景,這樣預(yù)測(cè)的概率就會(huì)大大提高。
“另外,這跟模型本身預(yù)置的數(shù)理邏輯、訓(xùn)練數(shù)據(jù)以及配置都有關(guān)系。第二種情況下,更接近于模型之前訓(xùn)練階段遇到的場(chǎng)景,所以答對(duì)的概率比較高�!�
王曉明說(shuō),使用大模型相當(dāng)于一個(gè)調(diào)教的過(guò)程。雖然預(yù)測(cè)本身帶有隨機(jī)性,存在成功的概率,也有失敗的概率。但大模型根據(jù)他的回答及你的訂正去生成一個(gè)新的回答,訂正的過(guò)程會(huì)作為下一輪的輸入。
聲明:
本文僅代表作者個(gè)人觀點(diǎn),與新江南網(wǎng)無(wú)關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí),對(duì)本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾,請(qǐng)讀者僅作參考,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容,新江南網(wǎng)號(hào)系信息發(fā)布平臺(tái),新江南網(wǎng)僅提供信息存儲(chǔ)空間服務(wù)。如有侵權(quán)請(qǐng)出示權(quán)屬憑證聯(lián)系管理員([email protected])刪除!
閱讀推薦
新聞爆料
圖片精選
點(diǎn)擊排行