阿里云旗下影片和圖像生成模型“通義萬相2.1”開源,號稱“家用顯卡都能跑AI”,代表頂級前沿模型的開源浪潮,涌向由AI驅動的影片創(chuàng)作領域,也代表本周全球AI大混戰(zhàn)升溫。
權威評測榜單VBench顯示,萬相2.1以總分86.22%的成績大幅超越Sora、Luma、Pika等國內外模型,穩(wěn)居榜首位置。
財聯(lián)社報導,美國Anthropic公司24日發(fā)布首個混合推理模型Claude 3.7 Sonnet。與此同時,DeepSeek也在持續(xù)開源5個代碼庫,趕忙上架“最強大模型”的xAI,將推出一系列應用層面的優(yōu)化;美國科技巨頭亞馬遜也已經定檔26日,將給語音助手Alexa帶來“AI升級”。坊間也有傳言稱,OpenAI可能會在本周推出GPT-4.5。
根據通義介紹,此次開源的是2個版本的模型:14B版本適用于專業(yè)創(chuàng)作者迅速上手部署,而1.3B參數量的版本在家用顯卡,例如英偉達4090上用單卡8.2G顯存,就能生成480P高品質影片。性能甚至能與某些5B參數量的閉源大模型相媲美。
受消息影響,阿里巴巴美股盤中異動拉升,帶動中概股集體走強。
分析認為,萬相2.1主動開源,而且是全部推理代碼和權重全部開源,代表影片生成模型賽道將更加活躍,競爭和反復計算也會變得更加激烈;對消費者以及內容產業(yè)的從業(yè)者而言,生產力躍升的速度也會變得更快、成本和使用門檻將快速降低。
例如,OpenAI終于在去年底發(fā)布Sora產品,面向每月繳納20/200美元的訂閱用戶。同時由于算力不足,暫時沒有推出API(應用程序開發(fā)界面)的計劃;谷歌Veo 2模型則在近期披露定價,每生成1秒影片需要付費0.5美元,相當于生成1個小時的影片,需要花費1800美元。
萬相2.1的技術突破主要體現(xiàn)在2點,首先是能夠展現(xiàn)復雜穩(wěn)定的人物肢體動作,以及精準還原碰撞、反彈等復雜物理場景。這決定了AI生成的影片是否有足夠真實性。
另一個巨大的優(yōu)勢,是萬相2.1能夠直接通過提示,可以在影片中生成中英文字及特殊藝術效果。隨著這個模型的開源,中文AI應用市場又將迎來一波新玩法的升級。
通義萬相于2023年7月7日上線,去年9月19日的阿里云棲大會上,發(fā)布通義萬相影片生成大模型。