616日,在人工智能框架生態(tài)峰會2023上,中國科學院自動化研究所所長徐波正式發(fā)布“紫東太初”全模態(tài)大模型。 

  “紫東太初”全模態(tài)大模型是在千億參數(shù)多模態(tài)大模型“紫東太初”1.0基礎上升級打造的2.0版本,在語音、圖像和文本三模態(tài)的基礎上,加入視頻、信號、3D點云等模態(tài)數(shù)據(jù),研究突破了認知增強的多模態(tài)關聯(lián)等關鍵技術,具備全模態(tài)理解能力、生成能力和關聯(lián)能力,面向數(shù)字經(jīng)濟時代加速通用人工智能的實現(xiàn)。 

  會上,徐波首次對外實時展示了大模型在音樂理解與生成、三維場景導航、信號理解、多模態(tài)對話等方面的全新功能,并邀請現(xiàn)場觀眾與大模型即時互動。“紫東太初”全模態(tài)認知大模型不僅可以透過《月光曲》暢談貝多芬的故事,也可以在三維場景里實現(xiàn)精準定位,還能夠通過圖像與聲音的結(jié)合完成場景分析,在現(xiàn)場獲得了熱烈反響。 

  從多模態(tài)到全模態(tài)的持續(xù)探索 

  人類在認知世界時,往往同時涉及語音、圖像、文字等信息。機器需要實現(xiàn)更高水平的智能,就需要像人一樣,發(fā)展貫通圖、文、音等更多模態(tài)的大模型。自2019年起,中國科學院自動化研究所(以下簡稱“自動化所”)即堅持以“圖--多模態(tài)技術為核心,確立多模態(tài)大模型布局,整合所內(nèi)圖像、文本、語音等研究方向的優(yōu)勢資源開展集團式攻關,于20219月成功打造“紫東太初”1.0多模態(tài)大模型?!白蠔|太初”1.0助推人工智能從“一專一能”邁向“多專多能”,向發(fā)展通用人工智能邁出了堅實的第一步。 

  以此為基礎,“紫東太初”大模型的多模態(tài)探索仍在持續(xù)深入。邁入數(shù)字經(jīng)濟時代,數(shù)據(jù)的范疇不斷拓寬,不僅包含人類自身產(chǎn)生的語音、圖像、文字等數(shù)據(jù),還有機器產(chǎn)生的大量結(jié)構(gòu)和非結(jié)構(gòu)化數(shù)據(jù)。針對新需求與新趨勢,紫東太初”2.0在語音、圖像和文本之外,加入了視頻、信號、3D點云等更多模態(tài),從技術架構(gòu)上實現(xiàn)了結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的全模態(tài)開放式接入;突破了能對信息進行充分理解和靈活生成的多模態(tài)分組認知編解碼技術,能融合多個任務的認知增強多模態(tài)關聯(lián)技術等,大模型多模態(tài)認知能力大幅提升。 

  “紫東太初”2.0可以理解三維場景、信號等數(shù)字物聯(lián)時代的重要信息,完成了音樂、圖片和視頻等數(shù)據(jù)之間的跨模態(tài)對齊,能夠處理音樂視頻分析、三維導航等多模態(tài)關聯(lián)應用需求,并可實現(xiàn)音樂、視頻等多模態(tài)內(nèi)容理解和生成。從1.02.0,“紫東太初”大模型打通了感知、認知乃至決策的交互屏障,使人工智能進一步感知世界、認知世界,從而延伸出更加強大的通用能力。 

  打造全棧國產(chǎn)化通用人工智能底座 

  “紫東太初”2.0以自動化所自研算法為核心,以國產(chǎn)化基礎軟硬件平臺昇騰AI為基礎,依托武漢人工智能計算中心算力支持,著力打造全棧國產(chǎn)化通用人工智能底座。長期以來,強大的算力支撐是約束我國人工智能發(fā)展的瓶頸之一,以“紫東太初”大模型為領頭雁開展的創(chuàng)新實踐將有力推動國產(chǎn)基礎軟硬件與大模型技術的適配,協(xié)同構(gòu)建我國通用人工智能自主可控發(fā)展生態(tài)。 

  全模態(tài)賦能,產(chǎn)業(yè)應用前景廣闊 

  目前,“紫東太初”大模型已展現(xiàn)出廣闊的產(chǎn)業(yè)應用前景,在神經(jīng)外科手術導航、短視頻內(nèi)容審核、法律咨詢、醫(yī)療多模態(tài)鑒別診斷、交通違規(guī)圖像研讀等領域開始了一系列引領性、示范性應用。 

  在醫(yī)療場景,“紫東太初”大模型部署于神經(jīng)外科機器人MicroNeuro,可實現(xiàn)在術中實時融合視覺、觸覺等多模態(tài)信息,協(xié)助醫(yī)生對手術場景進行實時推理判斷。同時與北京協(xié)和醫(yī)院合作,利用“紫東太初”具備的較強邏輯推理能力,嘗試在人類罕見病診療這個挑戰(zhàn)性醫(yī)學領域有所突破。 

  徐波表示,自動化所以“紫東太初”大模型為基礎,持續(xù)探索與類腦智能、博弈智能等技術路徑的相互融合,最終實現(xiàn)可自主進化的通用人工智能。并將探索在更多領域發(fā)揮賦能價值,為促進我國數(shù)字經(jīng)濟快速發(fā)展貢獻力量。 

附件: