9.11大還是9.9大？為什么一道小學(xué)數(shù)學(xué)題難倒了大多數(shù)AI？

文章來(lái)源：都市快報(bào)

字體：大中小

發(fā)布時(shí)間：2024-07-18 16:56:58

《新江南網(wǎng)》江南區(qū)域知名綜合門戶網(wǎng)站！

追蹤網(wǎng)絡(luò)熱點(diǎn)，關(guān)注民生動(dòng)態(tài)，傳播江南文化，倡導(dǎo)網(wǎng)絡(luò)新時(shí)代！

http://hzgou.cn/歡迎您！

☆ 新江南網(wǎng) ☆歡迎您

9.11和9.9哪個(gè)更大？一道小學(xué)生都會(huì)的數(shù)學(xué)題，卻難倒了一眾AI大模型。昨天，“大模型測(cè)不出9.11和9.9哪個(gè)大”還登上了微博熱搜。

這個(gè)難倒大多數(shù)AI大模型的數(shù)學(xué)題，其實(shí)來(lái)自于最近熱播的《歌手》。

7月13日，在最新一期《歌手》公布的排名中，國(guó)內(nèi)歌手孫楠與外國(guó)歌手香緹莫的得票率分別是13.8%和13.11%。這個(gè)得票數(shù)統(tǒng)計(jì)引發(fā)了一些網(wǎng)友對(duì)排名的質(zhì)疑。

有網(wǎng)友認(rèn)為13.11%大于13.8%，因此，香緹莫的得票率比孫楠高。

隨后，關(guān)于13.8%和13.11%大小比較，一度成了網(wǎng)絡(luò)上的熱門話題。當(dāng)時(shí)也有網(wǎng)友提出，“實(shí)在不行問(wèn)問(wèn)AI”。

有趣的是，這道題AI大模型也不太會(huì)。有媒體記者測(cè)試了12個(gè)國(guó)內(nèi)外主流大模型，其中，一半模型答錯(cuò)了，認(rèn)為9.11大于9.9。橙柿互動(dòng)記者們也好奇地提問(wèn)了幾家AI大模型。結(jié)果發(fā)現(xiàn)，有不少AI模型回答是錯(cuò)的，還有一些AI在答題時(shí)不太穩(wěn)定。

比如昨天下午，當(dāng)我的兩位同事向kimi提出這個(gè)問(wèn)題時(shí)，其中一位同事的kimi答案時(shí)對(duì)時(shí)錯(cuò)，且反應(yīng)“冷淡”。而另外一位同事的kimi舉例分析得十分在理，直觀且很好理解。同樣的問(wèn)題詢問(wèn)了通義千問(wèn)、文心一言、訊飛星火等AI模型，大部分AI回答正確并給出了詳細(xì)的答題過(guò)程。

為什么一道小學(xué)數(shù)學(xué)題難倒了部分AI大模型？

昨天上午，通義實(shí)驗(yàn)室產(chǎn)品經(jīng)理王曉明看到這則熱搜和網(wǎng)友們的評(píng)論，第一反應(yīng)是并不覺(jué)得奇怪，更像是網(wǎng)友玩的一個(gè)“花活”。王曉明說(shuō)，大語(yǔ)言模型雖然在語(yǔ)言和文本類型的任務(wù)里能超越人類普通平均水平，但對(duì)于數(shù)學(xué)、物理這種強(qiáng)調(diào)邏輯性的任務(wù)短板比較明顯。

也就是說(shuō)，現(xiàn)在的大模型其實(shí)更像一個(gè)文科生。

“簡(jiǎn)單來(lái)說(shuō)，大模型不會(huì)把這個(gè)問(wèn)題像人類一樣，當(dāng)作一個(gè)比大小的題目�！�

王曉明說(shuō)，大模型的本質(zhì)是通過(guò)提示詞，也就是提的問(wèn)題，對(duì)下一個(gè)詞進(jìn)行預(yù)測(cè)，而不是做算術(shù)計(jì)算。這個(gè)跟平時(shí)的訓(xùn)練數(shù)據(jù)和大模型配置有關(guān)。

所以在處理“9.11和9.9哪個(gè)更大”這樣的對(duì)話場(chǎng)景時(shí)，大模型不像人類，不會(huì)天然地把這個(gè)問(wèn)題視作算數(shù)比大小的題目，可能會(huì)把這當(dāng)成日期“9月11日”，拿9.11里面的11和9.9里面的9做對(duì)比�！霸谶@種情況下，它就會(huì)認(rèn)為11比9更大。這是由大模型處理的流程或機(jī)制決定的。有些大模型對(duì)指令識(shí)別得更好，答對(duì)概率就比較高。我們內(nèi)部測(cè)試發(fā)現(xiàn)，通義絕大部分情況能答對(duì)�！�

還有不少網(wǎng)友發(fā)現(xiàn)，調(diào)整提示詞的順序，大模型給出的答案準(zhǔn)確率也不一致。比如把提示詞從“9.11和9.9誰(shuí)更大”換成“哪個(gè)更大：9.11和9.9”，前一種情況幾乎全軍覆沒(méi)，而后一種情況大部分大模型都能答對(duì)。

在王曉明看來(lái)，這是因?yàn)榇蠖鄶?shù)模型對(duì)于后一句提示詞能更快更準(zhǔn)確地理解這是一個(gè)比大小的問(wèn)題，而不是比日期或者其他數(shù)字場(chǎng)景，這樣預(yù)測(cè)的概率就會(huì)大大提高。

“另外，這跟模型本身預(yù)置的數(shù)理邏輯、訓(xùn)練數(shù)據(jù)以及配置都有關(guān)系。第二種情況下，更接近于模型之前訓(xùn)練階段遇到的場(chǎng)景，所以答對(duì)的概率比較高�！�

王曉明說(shuō)，使用大模型相當(dāng)于一個(gè)調(diào)教的過(guò)程。雖然預(yù)測(cè)本身帶有隨機(jī)性，存在成功的概率，也有失敗的概率。但大模型根據(jù)他的回答及你的訂正去生成一個(gè)新的回答，訂正的過(guò)程會(huì)作為下一輪的輸入。

聲明：
本文僅代表作者個(gè)人觀點(diǎn)，與新江南網(wǎng)無(wú)關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí)，對(duì)本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾，請(qǐng)讀者僅作參考，并請(qǐng)自行核實(shí)相關(guān)內(nèi)容，新江南網(wǎng)號(hào)系信息發(fā)布平臺(tái)，新江南網(wǎng)僅提供信息存儲(chǔ)空間服務(wù)。如有侵權(quán)請(qǐng)出示權(quán)屬憑證聯(lián)系管理員（[email protected]）刪除！

上一篇：義診入社區(qū) 分類進(jìn)人心
下一篇：四位高一新生在學(xué)校邊租了套房媽媽們輪流陪讀！