誰(shuí)在用AI點(diǎn)亮杭州未來(lái)
去年的云棲大會(huì)上,王堅(jiān)博士引用建筑大師路易斯·康的靈魂一問,來(lái)回答這輪AI浪潮究竟會(huì)走向何方的疑問:“貝多芬創(chuàng)作第五交響曲之前,世界對(duì)它有需求嗎?”
在GPT-3.5橫空出世的一年后,在杭州的各個(gè)角落,無(wú)數(shù)音符開始?xì)g快地跳躍起來(lái)。
讓兵馬俑跳“科目三”
最近,兵馬俑、愛因斯坦跳“科目三”的視頻刷爆了朋友圈。不管是哪個(gè)時(shí)代的人,也不管存在于哪個(gè)次元,只要一張全身照,就能在AI的加持下,來(lái)上一段熱舞。
這個(gè)刷屏的小應(yīng)用緣起于去年9月,阿里通義XR實(shí)驗(yàn)室啟動(dòng)的一項(xiàng)視頻生成項(xiàng)目。從設(shè)想被提出到具體落地,前后只用了短短三個(gè)多月時(shí)間。
當(dāng)時(shí)的視頻生成領(lǐng)域,行業(yè)主要聚焦在通用的文生視頻、圖生視頻等場(chǎng)景,針對(duì)人物的生成效果都不佳,尤其是真實(shí)人物的生成,主要原因是用戶對(duì)于真人的效果非常敏感和挑剔。
大部分視頻生成研究團(tuán)隊(duì)主動(dòng)繞開了這個(gè)難啃的骨頭,也給XR實(shí)驗(yàn)室留出了實(shí)驗(yàn)和論證的時(shí)間。
作為阿里通義XR實(shí)驗(yàn)室負(fù)責(zé)人,薄列峰是機(jī)器學(xué)習(xí)、計(jì)算機(jī)視覺領(lǐng)域的大牛,這個(gè)團(tuán)隊(duì)還聚集著有豐富2D/3D數(shù)字人經(jīng)驗(yàn)的工程師。
在通用視頻生成方案上,薄列峰團(tuán)隊(duì)針對(duì)人物視頻生成這個(gè)特定問題做了優(yōu)化,比如創(chuàng)新地提出了ReferenceNet,能夠很好地保留人物圖片的一致性。
去年12月,項(xiàng)目組在arXiv上公開了AnimateAnyone的論文和主頁(yè):經(jīng)過5000個(gè)角色視頻剪輯的內(nèi)部數(shù)據(jù)集的訓(xùn)練后,只需要一張人物靜態(tài)圖片,結(jié)合人物的骨骼動(dòng)畫(姿勢(shì)控制),就能生成一段人物動(dòng)畫視頻。
論文一發(fā)布,立馬引起了國(guó)內(nèi)外AI界的關(guān)注和轉(zhuǎn)發(fā)。
隨后,項(xiàng)目組把Animate Anyone集成到通義千問App中,“全民舞王”成為Animate Anyone落地的首款產(chǎn)品。
<愛上你,愛上新江南網(wǎng):hzgou.cn www.xjnnet.net,hzgou.cn歡迎您!>聲明:
本文僅代表作者個(gè)人觀點(diǎn),與新江南網(wǎng)無(wú)關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí),對(duì)本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾,請(qǐng)讀者僅作參考,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容,新江南網(wǎng)號(hào)系信息發(fā)布平臺(tái),新江南網(wǎng)僅提供信息存儲(chǔ)空間服務(wù)。如有侵權(quán)請(qǐng)出示權(quán)屬憑證聯(lián)系管理員(yin040310@sina.com)刪除!
閱讀推薦
新聞爆料
圖片精選
點(diǎn)擊排行