<source id="8ti10"></source>

<video id="8ti10"></video>

<source id="8ti10"></source>

<u id="8ti10"><video id="8ti10"></video></u>

返回新聞中心

? ? ?

新聞中心

< 返回新聞中心

NEO-unify：原生架構打造端到端多模態理解與生成統一模型

2026-03-06

當前多模態智能架構困境

長期以來，多模態研究已形成一種默認范式：視覺編碼器（Vision Encoder, VE）負責感知與理解，而變分自編碼器（Variational Autoencoder, VAE）則用于內容生成。近期的一些工作嘗試構建共享編碼器，但這種折衷往往引入新的結構性設計權衡。

由此回到第一性原理：構建一體化模型直接處理原生輸入，即像素本身與文字本身。商湯科技聯合南洋理工大學，提出一種全新的架構范式：NEO-unify（preview），一個原生、統一、端到端的多模態模型架構。它不僅越過了當前視覺表征的爭論，也擺脫了預訓練先驗和規模定律瓶頸的限制。最關鍵的是：不需要 VE，也不需要 VAE。

我們正擴大規模、持續迭代。更多模型與開源成果，將很快與大家見面。

NEO-unify原生一體化架構新范式

NEO-unify 第一次邁向真正的端到端統一框架，能夠直接從近乎無損的信息輸入中學習，并由模型自身塑造內部表征空間。首先，引入近似無損的視覺接口，用于統一圖像的輸入與輸出表示；其次，采用原生混合Transformer（Mixture-of-Transformer，MoT）架構，使理解與生成能夠在同一體系中協同進行；最終，通過統一學習框架實現跨模態訓練：文本采用自回歸交叉熵目標，視覺通過像素流匹配進行優化。

模型效果

1、定量結果分析

2、生圖效果展示

技術發現

1、無編碼器設計能夠同時保留抽象語義與細粒度表征

[圖像重建任務]

我們先前的工作 NEO（Diao et al., ICLR 2026）表明，原生端到端模型同樣能夠學習到豐富的語義表征。在此基礎上，我們進一步觀察到一個有趣的現象：即使在凍結理解分支的情況下，獨立的生成分支仍然能夠從表示中抽取并恢復細粒度的視覺細節。

基于這一發現，我們訓練了 NEO-unify（2B）。在初步 9 萬步預訓練后，模型在 MS COCO 2017 上取得 31.56 PSNR 和 0.85 SSIM，而 Flux VAE 的對應指標為 32.65 和 0.91。這一結果表明，即使不依賴預訓練 VE 或 VAE，近似無損的原生輸入仍能夠同時支持高質量的語義理解與像素級細節保真。

域外圖像重建（2B NEO-unify，理解分支凍結）

[圖像編輯任務]

據此，我們進一步開展探索：NEO-unify 將所有全模態條件信息統一輸入到理解分支，而生成分支僅負責生成新的圖像。

即使在凍結理解分支的情況下，NEO-unify（2B）仍展現出強大的圖像編輯能力，同時顯著減少了輸入圖像令牌的數量。在使用開源生成與圖像編輯數據集并進行初步 6 萬步混合訓練后，模型在 ImgEdit 基準上取得 3.32 的成績，且理解分支在整個訓練過程中保持凍結。

小規模數據驗證（2B NEO-unify，理解分支凍結）

ImgEdit提示詞編輯（2B NEO-unify，理解分支凍結）

2、無編碼器架構與 MoT 主干高度協同大幅降低內在沖突

借助預訓練的理解分支與生成分支，NEO-unify 使用相同的中期訓練（MT）與監督微調（SFT）數據進行聯合訓練。即使在較低的數據比例和損失權重下，理解能力依然保持穩定，而生成能力則收斂很快。二者在 MoT 主干中協同提升，整體沖突極小。

3、無編碼器架構，展現更高數據訓練效率

此外，我們首先進行 web-scale 預訓練，隨后在多樣且高質量的數據語料上依次進行中期訓練（MT）和監督微調（SFT）。與 Bagel 模型相比，NEO-unify 展現出更高的數據訓練效率，在使用更少訓練 token 的情況下取得了更優的性能。

未來展望

這不僅僅是一種模型架構探索，更是邁向下一代智能形態的一步：

? 感知與生成交織的閉環

? 全模態推理

? 視覺推理

? 空間智能

? 世界模型

? …

一條新的路線圖正在展開：模型不再在模態之間進行轉換，而是能夠原生地跨模態思考。多模態 AI 不再只是連接不同系統，而是構建一個從未割裂的統一智能體，并讓所需能力從其內部自然涌現。

您尚未完善信息

完善信息后，即可下載資料

完善信息跳過，繼續瀏覽

您尚未登錄

您還未登錄，登錄方可繼續

登錄跳過，繼續瀏覽

請選擇您認為需要改進的地方：

導航不好用，不方便找到感興趣的內容
產品介紹信息不夠全面
產品介紹信息不容易懂
頁面打開速度不快，頁面瀏覽不流暢/有卡頓
頁面不夠美觀
售后服務不好找，體驗不好

跳過下一個

您是否能夠達到本次網站的訪問目的？

是
否
仍在進行中

下一個

您對商湯官網的滿意度如何？

1
2
3
4
5
6
7
8
9
10

非常不滿意非常滿意

提交

已收到您對商湯官網的評價和建議！

感謝您的耐心反饋~

關閉

產品試用

填寫此簡單表格，我們將盡快聯系您！

把您的需求發給我們了解所有產品

商務合作

400 900 5986

周一至周五 9:00-12:00，13:00-18:00

business@sensetime.com

合作伙伴招募

成為合作伙伴

您還未登錄，登錄方可繼續

登錄跳過，繼續瀏覽

您尚未完善信息

完善信息后，即可下載資料

完善信息跳過，繼續瀏覽

產品試用

產品試用
商務合作

400 900 5986
( 周一至周五 9:00-12:00, 13:00-18:00 )
business@sensetime.com
媒體溝通: pr@sensetime.com
投資者關系聯絡: ir@sensetime.com

社交媒體

微信公眾號

<source id="8ti10"></source>

<video id="8ti10"></video>

<source id="8ti10"></source>

<u id="8ti10"><video id="8ti10"></video></u>

动漫人物打扑克视频