阿里云通義千問再開源！看得懂圖文的多模態(tài)大模型Qwen-VL來了

文章來源：潮新聞

字體：大中小

發(fā)布時(shí)間：2023-08-26 09:11:57

《新江南網(wǎng)》江南區(qū)域知名綜合門戶網(wǎng)站！

追蹤網(wǎng)絡(luò)熱點(diǎn)，關(guān)注民生動態(tài)，傳播江南文化，倡導(dǎo)網(wǎng)絡(luò)新時(shí)代！

☆ 新江南網(wǎng) ☆歡迎您

<愛上你，愛上新江南網(wǎng):hzgou.cn www.xjnnet.net,hzgou.cn歡迎您！>

通義千問開源第二波！8月25日消息，阿里云推出大規(guī)模視覺語言模型Qwen-VL，一步到位、直接開源。Qwen-VL以通義千問70億參數(shù)模型Qwen-7B為基座語言模型研發(fā)，支持圖文輸入，具備多模態(tài)信息理解能力。在主流的多模態(tài)任務(wù)評測和多模態(tài)聊天能力評測中，Qwen-VL取得了遠(yuǎn)超同等規(guī)模通用模型的表現(xiàn)。

Qwen-VL是支持中英文等多種語言的視覺語言（VisionLanguage，VL）模型，相較于此前的VL模型，Qwen-VL除了具備基本的圖文識別、描述、問答及對話能力之外，還新增了視覺定位、圖像中文字理解等能力。

多模態(tài)是通用人工智能的重要技術(shù)演進(jìn)方向之一。業(yè)界普遍認(rèn)為，從單一感官的、僅支持文本輸入的語言模型，到“五官全開”的，支持文本、圖像、音頻等多種信息輸入的多模態(tài)模型，蘊(yùn)含著大模型智能躍升的巨大可能。多模態(tài)能夠提升大模型對世界的理解程度，充分拓展大模型的使用場景。

視覺是人類的第一感官能力，也是研究者首先想賦予大模型的多模態(tài)能力。繼此前推出M6、OFA系列多模態(tài)模型之后，阿里云通義千問團(tuán)隊(duì)又開源了基于Qwen-7B的大規(guī)模視覺語言模型（LargeVisionLanguageModel,LVLM）Qwen-VL。Qwen-VL及其視覺AI助手Qwen-VL-Chat均已上線ModelScope魔搭社區(qū)，開源、免費(fèi)、可商用。

用戶可從魔搭社區(qū)直接下載模型，也可通過阿里云靈積平臺訪問調(diào)用Qwen-VL和Qwen-VL-Chat，阿里云為用戶提供包括模型訓(xùn)練、推理、部署、精調(diào)等在內(nèi)的全方位服務(wù)。

Qwen-VL可用于知識問答、圖像標(biāo)題生成、圖像問答、文檔問答、細(xì)粒度視覺定位等場景。

比如，一位不懂中文的外國游客到醫(yī)院看病，不知怎么去往對應(yīng)科室，他拍下樓層導(dǎo)覽圖問Qwen-VL“骨科在哪層”“耳鼻喉科去哪層”，Qwen-VL會根據(jù)圖片信息給出文字回復(fù)，這是圖像問答能力；再比如，輸入一張上海外灘的照片，讓Qwen-VL找出東方明珠，Qwen-VL能用檢測框準(zhǔn)確圈出對應(yīng)建筑，這是視覺定位能力。

Qwen-VL是業(yè)界首個(gè)支持中文開放域定位的通用模型，開放域視覺定位能力決定了大模型“視力”的精準(zhǔn)度，也即，能否在畫面中精準(zhǔn)地找出想找的事物，這對于VL模型在機(jī)器人操控等真實(shí)應(yīng)用場景的落地至關(guān)重要。

Qwen-VL以Qwen-7B為基座語言模型，在模型架構(gòu)上引入視覺編碼器，使得模型支持視覺信號輸入，并通過設(shè)計(jì)訓(xùn)練過程，讓模型具備對視覺信號的細(xì)粒度感知和理解能力。Qwen-VL支持的圖像輸入分辨率為448，此前開源的LVLM模型通常僅支持224分辨率。在Qwen-VL的基礎(chǔ)上，通義千問團(tuán)隊(duì)使用對齊機(jī)制，打造了基于LLM的視覺AI助手Qwen-VL-Chat，可讓開發(fā)者快速搭建具備多模態(tài)能力的對話應(yīng)用。

在四大類多模態(tài)任務(wù)（Zero-shotCaption/VQA/DocVQA/Grounding）的標(biāo)準(zhǔn)英文測評中，Qwen-VL取得了同等尺寸開源LVLM的最好效果。為了測試模型的多模態(tài)對話能力，通義千問團(tuán)隊(duì)構(gòu)建了一套基于GPT-4打分機(jī)制的測試集“試金石”，對Qwen-VL-Chat及其他模型進(jìn)行對比測試，Qwen-VL-Chat在中英文的對齊評測中均取得了開源LVLM最好結(jié)果。

8月初，阿里云開源通義千問70億參數(shù)通用模型Qwen-7B和對話模型Qwen-7B-Chat，成為國內(nèi)首個(gè)加入大模型開源行列的大型科技企業(yè)。通義千問開源模型剛一上線就廣受關(guān)注，當(dāng)周沖上HuggingFace趨勢榜單，不到一個(gè)月在GitHub收獲3400多星，模型累計(jì)下載量已突破40萬。

<愛上你，愛上新江南網(wǎng):hzgou.cn www.xjnnet.net,hzgou.cn歡迎您！>

聲明：
本文僅代表作者個(gè)人觀點(diǎn)，與新江南網(wǎng)無關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí)，對本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾，請讀者僅作參考，并請自行核實(shí)相關(guān)內(nèi)容，新江南網(wǎng)號系信息發(fā)布平臺，新江南網(wǎng)僅提供信息存儲空間服務(wù)。如有侵權(quán)請出示權(quán)屬憑證聯(lián)系管理員（yin040310@sina.com）刪除！

上一篇：讓青春力量閃耀世界賽場
下一篇：志愿者宣講、集體觀看《孤注一擲》，杭州水湘社區(qū)自發(fā)成立反詐聯(lián)盟