<source id="8ti10"></source>
  • <video id="8ti10"></video>
  • <source id="8ti10"></source>

        <u id="8ti10"><video id="8ti10"></video></u>
      1. 申請試用
        登錄
        新聞中心

        商湯科技50篇論文入選CVPR 2024,“數字生命計劃”加速創新應用

        2024-06-19

        當地時間6月17-21日,全球人工智能計算機視覺領域頂級國際會議CVPR 2024(Computer Vision and Pattern Recognition,即國際計算機視覺與模式識別)在美國西雅圖舉行,共有來自全球的2719篇論文被接收,錄用率為23.6%,相較去年下降2.2%,難度提升。

        商湯科技及聯合實驗室的50篇論文成功入選,其中9篇被錄用為Oral、Highlight,再創佳績。伴隨大語言模型(LLM)技術的爆發,商湯在本屆CVPR的研究成果重點聚焦于推動視覺語言基礎模型的提升及多模態技術的應用創新,其中有多篇涉及自動駕駛、機器人等前沿方向。


        夯實基礎模型能力,釋放無限應用潛能

        近年來,大語言模型的創新呈指數級增長,同時也為多模態系統開辟了諸多可能。大語言模型結合多模態技術能夠更準確地模擬并理解人類的復雜行為和思維方式,這將進一步推動AI在自動駕駛、智能助手、醫療診斷等各行各業的創新和應用。

        然而,目前視覺語言基礎模型尚未跟上大語言模型的發展步伐,許多需要綜合處理視覺和語言信息的場景無法充分發揮潛力。視覺語言模型的發展滯后會對創新研究和應用產生抑制作用,并導致資源浪費。

        為此,商湯科技、上海AI實驗室等聯合設計了一個大規模的視覺語言基礎模型——InternVL1,首次將大規模視覺編碼器擴展到60億個參數,與LLM進行對齊,在準確性、速度和穩定性之間取得了良好平衡。

        微信截圖_20240619144335.png

        (InternVL模型的訓練策略)

        為了有效訓練大規模視覺語言基礎模型,InternVL還引入了一種漸進式圖像-文本對齊策略。該策略最大限度地利用網絡規模的噪聲圖像-文本數據進行對比學習,并將細粒度、高質量的數據用于生成學習。通過驗證,相較于當前最先進的視覺基礎模型和多模態大語言模型,InternVL在廣泛的通用視覺語言任務上能夠取得更領先的結果。

        另外,InternVL工作的最新版本InternVL 1.5 2具備強大的視覺編碼器和更深層次的場景理解能力;支持動態高分辨率,能夠準確識別和理解圖像中的各種細節以及文字信息。第三方評測結果顯示,InternVL 1.5在多模態感知、通用問答、文檔理解、信息圖表理解以及數理理解等方面綜合能力領先開源模型,比肩GPT-4V、Gemini Pro等閉源模型。

        不僅如此,為了補充多模態系統在高質量圖像生成中的優質表現,對傳統模型進行優化,商湯還提出了一個“基于時間信息塊的時間特征維護量化(TFMQ)”擴散模型框架3。該框架時間信息塊僅與時間步驟相關,與采樣數據無關,創新地設計并引入了時間信息感知重建(TIAR)和有限集校準(FSC)方法,從而可以在有限的時間內對齊全精度時間特征,最小化精度損失的同時提高圖像生成效率。

        配備此框架,可以保持最多的時間信息并確保端到端的圖像生成質量。在各種數據集和擴散模型上的廣泛實驗證明了該技術已經達到SOTA水平。

         

        3D感知、數字生命,機器人應用越來越近

        隨著多模態能力的不斷提升,大模型在AI智能體、機器人,乃至具身智能領域有著非常重要的應用前景。它可顯著提升對復雜環境的感知、決策和執行能力,使其不僅能理解和響應自然語言指令,還能通過視覺識別分析環境。

        場景級別的3D開放世界感知更是機器人領域非常重要的能力之一,它能夠使機器人在復雜、多變的環境中自主導航、理解和交互,從而提升執行復雜任務的效率、準確性和安全性。

        商湯科技和聯合實驗室的研究團隊提出了一種直接結合點云和自然語言的新開放世界理解算法——RegionPLC4,無需額外訓練就可以和大語言模型結合進行一些場景級別的開放問答。該算法擴展到了更細粒度的區域級別點云和語言的結合,能夠生成更密集和細粒度的描述。

        在該研究中,研究人員設計了一種基于互補的數據混合策略SFusion,只會混合在3D空間中互補的 3D-text pairs,減少在優化時產生沖突的概率。這樣的設計使得 RegionPLC 可以結合不同 2D 大模型的優勢,達到更好性能。

        通過大量實驗證明,RegionPLC 在室內和室外場景中明顯優于先前的開放世界方法,并在具有挑戰性的長尾或無注釋場景中表現非常出色。

        除了對場景的識別和理解,智能體的社會化交互能力也是人工智能邁向更高階的關鍵所在。通過增強社會化交互能力,它們可以更有效地與人類和其他智能體進行溝通、交互和合作,創造更多新的價值和可能性。

        為此,商湯及聯合實驗室提出了“數字生命計劃(Digital Life Project)5”,即通過AI技術和動作合成技術創造出能夠在數字環境中模擬交互的自主3D虛擬角色。這些角色不僅可以進行對話,還將擁有自己的人格,并感知所處的不同社交環境,做出相對應的身體動作來表達情感和反應。

        數字生命計劃的包括“SocioMind”和“MoMat-MoGen”兩個核心部分。其中,SocioMind是一個模擬人類思想和判斷的數字大腦。它能夠利用近期發展非常迅猛的大語言模型,結合基于心理學原理的反思過程,并通過發起對話主題來模擬具有自主性的角色。SocioMind能夠使角色自主地發起和參與對話,規劃接下來的故事發展。

        image.png

        image.png

        (SocioMind數字大腦的架構總覽)

        而MoMat-MoGen是一套用于控制角色身體動作的3D系統。它結合了動作匹配(Motion Matching)和動作生成(Motion Generation)技術,在數字大腦的驅動下,匹配并生成高精度且豐富的動作,讓角色能根據場景做出合理的反應。

        微信截圖_20240619144959.png

        (MoMat-MoGen數字身體的架構總覽)

        這兩個系統的結合能夠創造出能夠進行復雜社交互動的3D虛擬角色,在新媒體內容創作、3D虛擬陪伴、大規模虛擬社區等領域有著非常廣泛的應用潛力。數字生命計劃探索了數字大腦的可能,使得智能體變得具有靈性,結合對于3D場景的理解和交互,使得機器人和具身智能的應用離人類越來越近。

        商湯科技在學術研究及技術創新方面取得的突出成績,離不開領先的軟硬件基礎設施整合的強大算力基礎和領先的算法能力,以及商湯在學術生態和開源生態建設方面的長期積累。

        基于眼光更長遠的“大模型+大裝置”戰略布局,商湯科技聯合各大實驗室,不斷完善AI學術生態,通過大量學術創新成果,并結合自身在AI技術落地的多年實踐經驗,為生成式AI和大模型的產業應用開拓了新的方向

         

        參考文獻:

        1. InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks

        (https://openaccess.thecvf.com/content/CVPR2024/papers/Chen_InternVL_Scaling_up_Vision_Foundation_Models_and_Aligning_for_Generic_CVPR_2024_paper.pdf)

        2. https://arxiv.org/pdf/2404.16821

        3. TFMQ-DM: Temporal Feature Maintenance Quantization for Diffusion Models

        (https://openaccess.thecvf.com/content/CVPR2024/papers/Huang_TFMQ-DM_Temporal_Feature_Maintenance_Quantization_for_Diffusion_Models_CVPR_2024_paper.pdf)

        4. RegionPLC: Regional Point-Language Contrastive Learning for Open-World 3D Scene Understanding

        (https://openaccess.thecvf.com/content/CVPR2024/papers/Yang_RegionPLC_Regional_Point-Language_Contrastive_Learning_for_Open-World_3D_Scene_Understanding_CVPR_2024_paper.pdf)

        5. Digital Life Project: Autonomous 3D Characters with Social Intelligence

        (https://openaccess.thecvf.com/content/CVPR2024/papers/Cai_Digital_Life_Project_Autonomous_3D_Characters_with_Social_Intelligence_CVPR_2024_paper.pdf)


        <source id="8ti10"></source>
      2. <video id="8ti10"></video>
      3. <source id="8ti10"></source>

            <u id="8ti10"><video id="8ti10"></video></u>
          1. 动漫人物打扑克视频