日韩欧美精品国产亚洲综合,日韩欧美有亚洲日韩中文字幕在线,在线观看片a免费观看岛国,亚洲欧美中文字幕在线播放

    
    <address id="vbdd0"></address>
  1. <tt id="vbdd0"></tt>
    
    <listing id="vbdd0"></listing><small id="vbdd0"></small>
    首頁(yè) > 新聞中心 > 城市新聞 > 浙江 > 正文

    9.11大還是9.9大?為什么一道小學(xué)數(shù)學(xué)題 難倒了大多數(shù)AI?

    文章來(lái)源:都市快報(bào)
    字體:
    發(fā)布時(shí)間:2024-07-18 16:56:58
      《新江南網(wǎng)》江南區(qū)域知名綜合門戶網(wǎng)站!
     追蹤網(wǎng)絡(luò)熱點(diǎn),關(guān)注民生動(dòng)態(tài),傳播江南文化,倡導(dǎo)網(wǎng)絡(luò)新時(shí)代!
    http://hzgou.cn/歡迎您! 

    ☆ 新江南網(wǎng) ☆歡迎您 

    9.11和9.9哪個(gè)更大?一道小學(xué)生都會(huì)的數(shù)學(xué)題,卻難倒了一眾AI大模型。昨天,“大模型測(cè)不出9.11和9.9哪個(gè)大”還登上了微博熱搜。
    UBD新江南網(wǎng)|江南區(qū)域知名綜合門戶網(wǎng)

    這個(gè)難倒大多數(shù)AI大模型的數(shù)學(xué)題,其實(shí)來(lái)自于最近熱播的《歌手》。UBD新江南網(wǎng)|江南區(qū)域知名綜合門戶網(wǎng)

    7月13日,在最新一期《歌手》公布的排名中,國(guó)內(nèi)歌手孫楠與外國(guó)歌手香緹莫的得票率分別是13.8%和13.11%。這個(gè)得票數(shù)統(tǒng)計(jì)引發(fā)了一些網(wǎng)友對(duì)排名的質(zhì)疑。UBD新江南網(wǎng)|江南區(qū)域知名綜合門戶網(wǎng)

    有網(wǎng)友認(rèn)為13.11%大于13.8%,因此,香緹莫的得票率比孫楠高。UBD新江南網(wǎng)|江南區(qū)域知名綜合門戶網(wǎng)

    隨后,關(guān)于13.8%和13.11%大小比較,一度成了網(wǎng)絡(luò)上的熱門話題。當(dāng)時(shí)也有網(wǎng)友提出,“實(shí)在不行問(wèn)問(wèn)AI”。UBD新江南網(wǎng)|江南區(qū)域知名綜合門戶網(wǎng)

    有趣的是,這道題AI大模型也不太會(huì)。有媒體記者測(cè)試了12個(gè)國(guó)內(nèi)外主流大模型,其中,一半模型答錯(cuò)了,認(rèn)為9.11大于9.9。橙柿互動(dòng)記者們也好奇地提問(wèn)了幾家AI大模型。結(jié)果發(fā)現(xiàn),有不少AI模型回答是錯(cuò)的,還有一些AI在答題時(shí)不太穩(wěn)定。UBD新江南網(wǎng)|江南區(qū)域知名綜合門戶網(wǎng)

    比如昨天下午,當(dāng)我的兩位同事向kimi提出這個(gè)問(wèn)題時(shí),其中一位同事的kimi答案時(shí)對(duì)時(shí)錯(cuò),且反應(yīng)“冷淡”。而另外一位同事的kimi舉例分析得十分在理,直觀且很好理解。同樣的問(wèn)題詢問(wèn)了通義千問(wèn)、文心一言、訊飛星火等AI模型,大部分AI回答正確并給出了詳細(xì)的答題過(guò)程。UBD新江南網(wǎng)|江南區(qū)域知名綜合門戶網(wǎng)

    為什么一道小學(xué)數(shù)學(xué)題難倒了部分AI大模型?UBD新江南網(wǎng)|江南區(qū)域知名綜合門戶網(wǎng)

    昨天上午,通義實(shí)驗(yàn)室產(chǎn)品經(jīng)理王曉明看到這則熱搜和網(wǎng)友們的評(píng)論,第一反應(yīng)是并不覺(jué)得奇怪,更像是網(wǎng)友玩的一個(gè)“花活”。王曉明說(shuō),大語(yǔ)言模型雖然在語(yǔ)言和文本類型的任務(wù)里能超越人類普通平均水平,但對(duì)于數(shù)學(xué)、物理這種強(qiáng)調(diào)邏輯性的任務(wù)短板比較明顯。UBD新江南網(wǎng)|江南區(qū)域知名綜合門戶網(wǎng)

    也就是說(shuō),現(xiàn)在的大模型其實(shí)更像一個(gè)文科生。UBD新江南網(wǎng)|江南區(qū)域知名綜合門戶網(wǎng)

    “簡(jiǎn)單來(lái)說(shuō),大模型不會(huì)把這個(gè)問(wèn)題像人類一樣,當(dāng)作一個(gè)比大小的題目�!�UBD新江南網(wǎng)|江南區(qū)域知名綜合門戶網(wǎng)

    王曉明說(shuō),大模型的本質(zhì)是通過(guò)提示詞,也就是提的問(wèn)題,對(duì)下一個(gè)詞進(jìn)行預(yù)測(cè),而不是做算術(shù)計(jì)算。這個(gè)跟平時(shí)的訓(xùn)練數(shù)據(jù)和大模型配置有關(guān)。UBD新江南網(wǎng)|江南區(qū)域知名綜合門戶網(wǎng)

    所以在處理“9.11和9.9哪個(gè)更大”這樣的對(duì)話場(chǎng)景時(shí),大模型不像人類,不會(huì)天然地把這個(gè)問(wèn)題視作算數(shù)比大小的題目,可能會(huì)把這當(dāng)成日期“9月11日”,拿9.11里面的11和9.9里面的9做對(duì)比�!霸谶@種情況下,它就會(huì)認(rèn)為11比9更大。這是由大模型處理的流程或機(jī)制決定的。有些大模型對(duì)指令識(shí)別得更好,答對(duì)概率就比較高。我們內(nèi)部測(cè)試發(fā)現(xiàn),通義絕大部分情況能答對(duì)�!�UBD新江南網(wǎng)|江南區(qū)域知名綜合門戶網(wǎng)

    還有不少網(wǎng)友發(fā)現(xiàn),調(diào)整提示詞的順序,大模型給出的答案準(zhǔn)確率也不一致。比如把提示詞從“9.11和9.9誰(shuí)更大”換成“哪個(gè)更大:9.11和9.9”,前一種情況幾乎全軍覆沒(méi),而后一種情況大部分大模型都能答對(duì)。UBD新江南網(wǎng)|江南區(qū)域知名綜合門戶網(wǎng)

    在王曉明看來(lái),這是因?yàn)榇蠖鄶?shù)模型對(duì)于后一句提示詞能更快更準(zhǔn)確地理解這是一個(gè)比大小的問(wèn)題,而不是比日期或者其他數(shù)字場(chǎng)景,這樣預(yù)測(cè)的概率就會(huì)大大提高。UBD新江南網(wǎng)|江南區(qū)域知名綜合門戶網(wǎng)

    “另外,這跟模型本身預(yù)置的數(shù)理邏輯、訓(xùn)練數(shù)據(jù)以及配置都有關(guān)系。第二種情況下,更接近于模型之前訓(xùn)練階段遇到的場(chǎng)景,所以答對(duì)的概率比較高�!�UBD新江南網(wǎng)|江南區(qū)域知名綜合門戶網(wǎng)

    王曉明說(shuō),使用大模型相當(dāng)于一個(gè)調(diào)教的過(guò)程。雖然預(yù)測(cè)本身帶有隨機(jī)性,存在成功的概率,也有失敗的概率。但大模型根據(jù)他的回答及你的訂正去生成一個(gè)新的回答,訂正的過(guò)程會(huì)作為下一輪的輸入。UBD新江南網(wǎng)|江南區(qū)域知名綜合門戶網(wǎng)


    UBD新江南網(wǎng)|江南區(qū)域知名綜合門戶網(wǎng)

     

    聲明:
    本文僅代表作者個(gè)人觀點(diǎn),與新江南網(wǎng)無(wú)關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí),對(duì)本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾,請(qǐng)讀者僅作參考,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容,新江南網(wǎng)號(hào)系信息發(fā)布平臺(tái),新江南網(wǎng)僅提供信息存儲(chǔ)空間服務(wù)。如有侵權(quán)請(qǐng)出示權(quán)屬憑證聯(lián)系管理員([email protected])刪除!

     

     

      匿名評(píng)論
    • 評(píng)論
    人參與,條評(píng)論