- 新聞中心
NEO-unify:原生架構打造端到端多模態理解與生成統一模型
當前多模態智能架構困境
長期以來,多模態研究已形成一種默認范式:視覺編碼器(Vision Encoder, VE) 負責感知與理解,而變分自編碼器(Variational Autoencoder, VAE) 則用于內容生成。近期的一些工作嘗試構建共享編碼器,但這種折衷往往引入新的結構性設計權衡。
由此回到第一性原理:構建一體化模型直接處理原生輸入,即像素本身與文字本身。商湯科技聯合南洋理工大學,提出一種全新的架構范式:NEO-unify(preview),一個原生、統一、端到端的多模態模型架構。它不僅越過了當前視覺表征的爭論,也擺脫了預訓練先驗和規模定律瓶頸的限制。最關鍵的是:不需要 VE,也不需要 VAE。
我們正擴大規模、持續迭代。更多模型與開源成果,將很快與大家見面。
NEO-unify原生一體化架構新范式
NEO-unify 第一次邁向真正的端到端統一框架,能夠直接從近乎無損的信息輸入中學習,并由模型自身塑造內部表征空間。首先,引入近似無損的視覺接口,用于統一圖像的輸入與輸出表示;其次,采用原生混合Transformer(Mixture-of-Transformer,MoT)架構,使理解與生成能夠在同一體系中協同進行;最終,通過統一學習框架實現跨模態訓練:文本采用自回歸交叉熵目標,視覺通過像素流匹配進行優化。
模型效果
1、定量結果分析


2、生圖效果展示


技術發現
1、無編碼器設計能夠同時保留抽象語義與細粒度表征
[圖像重建任務]
我們先前的工作 NEO(Diao et al., ICLR 2026)表明,原生端到端模型同樣能夠學習到豐富的語義表征。在此基礎上,我們進一步觀察到一個有趣的現象:即使在凍結理解分支的情況下,獨立的生成分支仍然能夠從表示中抽取并恢復細粒度的視覺細節。
基于這一發現,我們訓練了 NEO-unify(2B)。在初步 9 萬步預訓練后,模型在 MS COCO 2017 上取得 31.56 PSNR 和 0.85 SSIM,而 Flux VAE 的對應指標為 32.65 和 0.91。這一結果表明,即使不依賴預訓練 VE 或 VAE,近似無損的原生輸入仍能夠同時支持高質量的語義理解與像素級細節保真。
域外圖像重建(2B NEO-unify,理解分支凍結)

[圖像編輯任務]
據此,我們進一步開展探索:NEO-unify 將所有全模態條件信息統一輸入到理解分支,而生成分支僅負責生成新的圖像。
即使在凍結理解分支的情況下,NEO-unify(2B) 仍展現出強大的圖像編輯能力,同時顯著減少了輸入圖像令牌的數量。在使用開源生成與圖像編輯數據集并進行初步 6 萬步混合訓練后,模型在 ImgEdit 基準上取得 3.32 的成績,且理解分支在整個訓練過程中保持凍結。
小規模數據驗證(2B NEO-unify,理解分支凍結)

ImgEdit提示詞編輯(2B NEO-unify,理解分支凍結)

2、無編碼器架構與 MoT 主干高度協同大幅降低內在沖突
借助預訓練的理解分支與生成分支,NEO-unify 使用相同的中期訓練(MT)與 監督微調(SFT) 數據進行聯合訓練。即使在較低的數據比例和損失權重下,理解能力依然保持穩定,而生成能力則收斂很快。二者在 MoT 主干中協同提升,整體沖突極小。

3、無編碼器架構,展現更高數據訓練效率
此外,我們首先進行 web-scale 預訓練,隨后在多樣且高質量的數據語料上依次進行中期訓練(MT) 和 監督微調(SFT)。與 Bagel 模型相比,NEO-unify 展現出更高的數據訓練效率,在使用更少訓練 token 的情況下取得了更優的性能。

未來展望
這不僅僅是一種模型架構探索,更是邁向下一代智能形態的一步:
? 感知與生成交織的閉環
? 全模態推理
? 視覺推理
? 空間智能
? 世界模型
? …
一條新的路線圖正在展開:模型不再在模態之間進行轉換,而是能夠原生地跨模態思考。多模態 AI 不再只是連接不同系統,而是構建一個從未割裂的統一智能體,并讓所需能力從其內部自然涌現。





返回