日韩欧美精品国产亚洲综合,日韩欧美有亚洲日韩中文字幕在线,在线观看片a免费观看岛国,亚洲欧美中文字幕在线播放

    
    <address id="vbdd0"></address>
  1. <tt id="vbdd0"></tt>
    
    <listing id="vbdd0"></listing><small id="vbdd0"></small>
    首頁 > 新聞中心 > 城市新聞 > 浙江 > 正文

    阿里云通義千問再開源!看得懂圖文的多模態(tài)大模型Qwen-VL來了

    文章來源:潮新聞
    字體:
    發(fā)布時(shí)間:2023-08-26 09:11:57
      《新江南網(wǎng)》江南區(qū)域知名綜合門戶網(wǎng)站!
     追蹤網(wǎng)絡(luò)熱點(diǎn),關(guān)注民生動態(tài),傳播江南文化,倡導(dǎo)網(wǎng)絡(luò)新時(shí)代!
    http://hzgou.cn/歡迎您! 

    ☆ 新江南網(wǎng) ☆歡迎您 

    <愛上你,愛上新江南網(wǎng):hzgou.cn www.xjnnet.net,hzgou.cn歡迎您!>

    通義千問開源第二波!8月25日消息,阿里云推出大規(guī)模視覺語言模型Qwen-VL,一步到位、直接開源。Qwen-VL以通義千問70億參數(shù)模型Qwen-7B為基座語言模型研發(fā),支持圖文輸入,具備多模態(tài)信息理解能力。在主流的多模態(tài)任務(wù)評測和多模態(tài)聊天能力評測中,Qwen-VL取得了遠(yuǎn)超同等規(guī)模通用模型的表現(xiàn)。YPd新江南網(wǎng)|江南區(qū)域知名綜合門戶網(wǎng)

    Qwen-VL是支持中英文等多種語言的視覺語言(VisionLanguage,VL)模型,相較于此前的VL模型,Qwen-VL除了具備基本的圖文識別、描述、問答及對話能力之外,還新增了視覺定位、圖像中文字理解等能力。YPd新江南網(wǎng)|江南區(qū)域知名綜合門戶網(wǎng)

    多模態(tài)是通用人工智能的重要技術(shù)演進(jìn)方向之一。業(yè)界普遍認(rèn)為,從單一感官的、僅支持文本輸入的語言模型,到“五官全開”的,支持文本、圖像、音頻等多種信息輸入的多模態(tài)模型,蘊(yùn)含著大模型智能躍升的巨大可能。多模態(tài)能夠提升大模型對世界的理解程度,充分拓展大模型的使用場景。YPd新江南網(wǎng)|江南區(qū)域知名綜合門戶網(wǎng)

    視覺是人類的第一感官能力,也是研究者首先想賦予大模型的多模態(tài)能力。繼此前推出M6、OFA系列多模態(tài)模型之后,阿里云通義千問團(tuán)隊(duì)又開源了基于Qwen-7B的大規(guī)模視覺語言模型(LargeVisionLanguageModel,LVLM)Qwen-VL。Qwen-VL及其視覺AI助手Qwen-VL-Chat均已上線ModelScope魔搭社區(qū),開源、免費(fèi)、可商用。YPd新江南網(wǎng)|江南區(qū)域知名綜合門戶網(wǎng)

    用戶可從魔搭社區(qū)直接下載模型,也可通過阿里云靈積平臺訪問調(diào)用Qwen-VL和Qwen-VL-Chat,阿里云為用戶提供包括模型訓(xùn)練、推理、部署、精調(diào)等在內(nèi)的全方位服務(wù)。YPd新江南網(wǎng)|江南區(qū)域知名綜合門戶網(wǎng)

    Qwen-VL可用于知識問答、圖像標(biāo)題生成、圖像問答、文檔問答、細(xì)粒度視覺定位等場景。YPd新江南網(wǎng)|江南區(qū)域知名綜合門戶網(wǎng)

    比如,一位不懂中文的外國游客到醫(yī)院看病,不知怎么去往對應(yīng)科室,他拍下樓層導(dǎo)覽圖問Qwen-VL“骨科在哪層”“耳鼻喉科去哪層”,Qwen-VL會根據(jù)圖片信息給出文字回復(fù),這是圖像問答能力;再比如,輸入一張上海外灘的照片,讓Qwen-VL找出東方明珠,Qwen-VL能用檢測框準(zhǔn)確圈出對應(yīng)建筑,這是視覺定位能力。YPd新江南網(wǎng)|江南區(qū)域知名綜合門戶網(wǎng)

    Qwen-VL是業(yè)界首個(gè)支持中文開放域定位的通用模型,開放域視覺定位能力決定了大模型“視力”的精準(zhǔn)度,也即,能否在畫面中精準(zhǔn)地找出想找的事物,這對于VL模型在機(jī)器人操控等真實(shí)應(yīng)用場景的落地至關(guān)重要。YPd新江南網(wǎng)|江南區(qū)域知名綜合門戶網(wǎng)

    Qwen-VL以Qwen-7B為基座語言模型,在模型架構(gòu)上引入視覺編碼器,使得模型支持視覺信號輸入,并通過設(shè)計(jì)訓(xùn)練過程,讓模型具備對視覺信號的細(xì)粒度感知和理解能力。Qwen-VL支持的圖像輸入分辨率為448,此前開源的LVLM模型通常僅支持224分辨率。在Qwen-VL的基礎(chǔ)上,通義千問團(tuán)隊(duì)使用對齊機(jī)制,打造了基于LLM的視覺AI助手Qwen-VL-Chat,可讓開發(fā)者快速搭建具備多模態(tài)能力的對話應(yīng)用。YPd新江南網(wǎng)|江南區(qū)域知名綜合門戶網(wǎng)

    在四大類多模態(tài)任務(wù)(Zero-shotCaption/VQA/DocVQA/Grounding)的標(biāo)準(zhǔn)英文測評中,Qwen-VL取得了同等尺寸開源LVLM的最好效果。為了測試模型的多模態(tài)對話能力,通義千問團(tuán)隊(duì)構(gòu)建了一套基于GPT-4打分機(jī)制的測試集“試金石”,對Qwen-VL-Chat及其他模型進(jìn)行對比測試,Qwen-VL-Chat在中英文的對齊評測中均取得了開源LVLM最好結(jié)果。YPd新江南網(wǎng)|江南區(qū)域知名綜合門戶網(wǎng)

    8月初,阿里云開源通義千問70億參數(shù)通用模型Qwen-7B和對話模型Qwen-7B-Chat,成為國內(nèi)首個(gè)加入大模型開源行列的大型科技企業(yè)。通義千問開源模型剛一上線就廣受關(guān)注,當(dāng)周沖上HuggingFace趨勢榜單,不到一個(gè)月在GitHub收獲3400多星,模型累計(jì)下載量已突破40萬。YPd新江南網(wǎng)|江南區(qū)域知名綜合門戶網(wǎng)

    <愛上你,愛上新江南網(wǎng):hzgou.cn www.xjnnet.net,hzgou.cn歡迎您!>
     

    聲明:
    本文僅代表作者個(gè)人觀點(diǎn),與新江南網(wǎng)無關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí),對本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾,請讀者僅作參考,并請自行核實(shí)相關(guān)內(nèi)容,新江南網(wǎng)號系信息發(fā)布平臺,新江南網(wǎng)僅提供信息存儲空間服務(wù)。如有侵權(quán)請出示權(quán)屬憑證聯(lián)系管理員(yin040310@sina.com)刪除!

     

     

      匿名評論
    • 評論
    人參與,條評論