- 新聞中心
商湯科技董事長徐立:整個AI行業都有兩條生死線
在MEET2025智能未來大會上,商湯科技董事長兼CEO徐立博士與量子位總編輯李根展開對話,分享了他對AGI征程第二個十年的感受與思考。量子位(ID:QbitAI)整理刊登文章如下:
核心觀點
- AI發展的兩個關鍵要素:基礎設施建設的完備性和技術深入應用場景。
- 算力供給的成本線和開源模型性能線是AI行業的兩條生死線。
- 未來中國的AI行業應用百花齊放需要實現一個重要目標:計算資源平權。
- 無論是當前的語言模型還是垂直行業應用,可能都只是一個前奏,我們可能會迎來通用人工智能的“超級時刻”
- 真正通往廣泛智能的路線(AGI),很可能不會局限于人類的視角和能力。
AI十年發展的兩個關鍵要素
李根:很高興邀請您進行分享,創業十年的感覺怎么樣?
徐立:今年也是商湯的第十個年頭,可以說見證了人工智能的發展、變化。
十幾年前看AI的時候,大家還沒有現在這么強的廣泛認知,還是一個相對比較模糊的概念。
但今天,大眾對于AI的認知變化,讓我們感覺到這個時代在突破的臨門一腳上。包括剛才咱們活動上提到了很多人工智能的發展趨勢,這些趨勢和技術,甚至就是討論的這些關鍵詞本身,如果放到十年前,可能大部分的人一頭霧水,但今天所有人都耳熟能詳,這就是一個時代的進步。
對新技術認知的快速迭代,是推動時代進步的基礎要素。
李根:讓我印象一直很深刻,你說所有紅利最前面是認知的紅利。如果我們總結過去的十年,或商湯創業的十年,我們現在回過頭得出的結論有哪些?
徐立:從我們看來,這個時代的發展或過往十年,可能有兩個要素是推動行業發展進步的基礎。
第一個要素是基礎設施發展要素,為行業往前走提供了核心支撐。
過往我認為移動互聯網發展得很好,得益于我們的產品和開發人才密度高等因素,這些當然是事實。但最關鍵的一點是,在這之前我們已經建立了完善的基礎設施。移動互聯網的爆發得益于移動通信大規模的建設和發展。它的成本能夠以非常快的速度降低,甚至是在世界范圍之內以領先的成本優勢推動下游的應用百花齊放,并最終遴選出今天的頭部互聯網。這完全是基礎設施迭代的紅利。
事實上,回望AI1.0時代全球的技術發展,差不多中國是同步推動了ImageNet時刻的行業落地。在ImageNet時刻之前,許多人對AI在現實世界任務上的能力存有疑問。但如果AI能夠在視覺領域,特別是基于互聯網數據的任務上取得突破,就能吸引很多人投身其中。當然,這里ImageNet時刻也得益于互聯網基礎設施的完善從而獲得大量的互聯網數據。
那場景為什么是中國?這得益于中國早期在基礎設施建設上的完備性。比如做視覺相關工作,攝像頭的數量;又如進行任務檢測時,早期通信連接和數字化儲備,這些都為我們在數字化轉型中帶來了一波紅利。
然而,回過頭看,當時創業者普遍take for granted,認為基礎設施的發展是自然條件。今天我們發展AI2.0,更需要注重基礎設施的建設和發展。
第二個要素是:無論技術再通用、再基礎,“場景化”始終是技術走向大眾、實現真正意義上商用的核心關鍵。
接下來的AGI(AI2.0)時代,無論技術多通用,“場景化”依然會成為推動技術迭代的核心驅動力,因為技術本身只是一個工具。
今年的諾貝爾獎很有意思,把物理獎和化學獎同時頒給了AI。物理獎把人工智能作為目的、作為一門科學,用物理學的知識推進人工智能的發展;而化學獎則把人工智能作為工具,用它推動計算化學、蛋白質預測領域的突破。
我理解這兩個獎項應該分屬于不同的階段:先有技術作為工具推動行業進步,之后再將其本身作為學科研究的目標。然而,它們卻同時發生。這反映了AI技術發展很快凝聚了共識并在場景化應用中的快速迭代,極大提升了學科的認可度,使人工智能本身也成為獨立研究的對象,這是非常有趣的現象。
基礎科學的突破往往體現“無用之用”。有個傳聞說,學生問歐幾里得:“我學習這些有什么用?”歐幾里得回答:“如果是教你有用的東西,你就不該來這里”,然后把學生趕了出去。這當然是個傳聞,但確實說明了基礎學科或技術突破往往在早期難以直接看到實用價值。但今天如果我們要讓技術走進千家萬戶,實現商業化,僅靠“無用之用”已無法推動應用變革。一定是通過場景化的應用深入,才能促進行業真正發展。而場景化是AI凝聚認知共識的起點。因此,無論技術多么基礎,多么通用,我過往十年的觀察是,技術的細分場景化深入才是真正的破局點。
整個AI行業都有兩條生死線
李根:所以聽起來1.0時代更多還是做AI基礎設施構建工作,包括大裝置,到2.0現在用的LLM這樣新的范式,可以更加把場景化的問題解決好。
徐立:我們現在的認知是,在1.0時代,如果AI能夠進入到行業,通常是因為行業已經構建了完善的基礎設施,并充分利用了這些基礎設施的優勢。比如,有了攝像頭網絡,視覺相關的AI應用才能快速推進。如果要讓視覺企業負責建設攝像頭網絡的話,那么應用迭代將會非常緩慢,也算不過來經濟賬。就像如果開發移動互聯網產品的企業還要自行搭建4G、5G通信網絡,這也是算不過來經濟賬的。
這引出2.0時代的一個挑戰:如果2.0時代的AI發展極度依賴計算基礎設施,也就是算力的建設,那么2.0時代的基礎設施應該如何構建?在構建過程中,如何確保它真正能夠為大眾所用?這是2.0時代的一個核心命題,或者也是當前技術發展所面臨的一項挑戰。
李根:今年我們也做了戰略上的升級,商湯做了一個大裝置、大模型以及應用的“三位一體”,跟這個判斷有關系嗎?
徐立:從9月以來,硅谷做了很多有意思的事。比如,9月3日,馬斯克的xAI宣布用4個月建成了100K的集群, 算力超越了OpenAI。最近,他們更宣布計劃將Colossus超算擴容十倍,集成超過100萬塊GPU。20萬張卡,不知道大家有沒有概念,僅建設就大概要600億元。這個時代,可以看像馬斯克xAI這樣的創業公司,是以如此的閉環節奏往前推進。
9月12日,白宮宣布將成立智算中心基礎設施特別工作組。政府把所有涉及計算資源和基礎設施的企業招來,成立聯盟來推動相關發展。這一系列事件,將基礎設施的重要性提升到了一個新的高度——輸入是能源,輸出是數字智能,相當于對計算基礎設施進行了重新定義和高度強化。同時,谷歌、甲骨文投入了大量資源在核電;微軟和貝萊德成立了300億美元的AI基礎設施基金;特斯拉一年之內GPU增加了9倍,24年底達9萬塊H100。
這對中國來說也是一個重要命題。如果中國想實現端到端自動駕駛,需要具備什么條件?按照馬斯克的第一性原理思考,他一定認為9萬張卡是實現端到端自動駕駛的必要條件,那我們是否具備對等的邏輯與資源投入?
很多人將1.0和2.0時代的差異定義為專有AI與通用AI的轉變。但在我看來,1.0和2.0最大的區別在于資源的側重。1.0時代是人力密集型,所有資源都集中在人才招攬上,當時GPU的使用實際是解放了CPU,大幅降低了成本,計算的成本占AI公司的占比不足5%。到了2.0時代,計算的權重反了過來,在訓練大模型任務中,成本中計算占比達到95%,人力只占5%。
這就帶來了一個核心問題:在2.0時代,如何更高效地利用基礎設施?
我們提出的“三位一體”——大裝置、模型和應用的無縫集成,強調了AI2.0發展的核心路徑。首先,“場景化”一定是驅動力。沒有場景應用,你無法明確市場上的模型會以何種形態發展。其次,模型研發是驅動基礎設施建設的核心動力,因為今天任何一個模型的變化,都會帶來基礎設施成本價值的巨大變化。
現在做AI,我常說行業內存在兩條“生死線”。
英偉達為什么能達到3萬億美元的市值?因為過往10年,他們把算力的成本降低了100萬倍。而未來,他們同樣計劃實現算力成本再降低100萬倍的目標。這樣的基礎設施變革,以10年100萬倍的成本下降速度,是史無前例的。
2018年,我曾推薦過一本書《Prediction Machines》,它提出一個有趣的觀點:當生產要素的成本下降百倍時,會迎來時代的轉折點。例如,電力成本下降100倍,開啟了電氣時代;通信成本下降100倍,推動了移動互聯網時代。
對于從業者而言,進入的時機尤為關鍵。如果晚幾年投入,可能只需要1/1000的資源就能完成相同的任務。那么,在什么時間節點投入、投入的資源是否能夠沉淀為持久的價值,就成為行業發展的第一條生死線。
第二條就是開源模型性能線。
在過去的行業發展中,大模型開源已成為一個重要的前提,尤其是在從事基礎設施建設或銷售硬件的公司中。例如,英偉達在推動開源方面不遺余力,他們將所有過程、數據和細節開源。
模型開源除了推動行業進步,一般有三類玩家:
第一類是基礎設施提供方,開源的目標是讓用戶掌握這項技術,然后通過銷售硬件或服務(比如算力或者模型的調用)獲利。這種模式可能在模型本身上不盈利,但通過配套的業務模式實現收益。
第二類內容平臺。生成式AI越多生成內容,平臺的內容生態就越豐富。這也是為什么像Meta 有Facebook和Instagram等內容平臺,也會大力推動開源。實際上生成內容越豐富,平臺價值就越高。
第三類是創業公司的開源。這些公司通常在有限的資源下,將開源作為快速提升行業影響力的路徑,吸引投資者。
不過,這三類積極開源的企業帶來一條性能增長線,而這條性能線已經接近甚至追平了閉源模型,如果行業開源模型投入的平均水平較高,而企業的投入不足,就必須走差異化路線,為行業提供獨特的價值。
比如,可以選擇了以行業應用的垂直領域為切入點,通過差異化模型發展,包括差異化的場景數據發展,推動行業的變化。商湯在這一定位中,既要完成基礎模型的迭代,又要為行業客戶提供差異化的價值,我們的目標是以同等甚至更低的成本,為市場提供優質的計算資源和模型使用。
未來中國的AI行業應用需要實現一個重要目標,即計算資源平權。訓練基礎模型還是少數企業的責任,但是使用大模型一定是百花齊放,所以使用模型需要的計算資源必須要高性價比,才能推動行業的發展。
當前,我們面臨很多挑戰,例如連接硬件技術的難題、國產化能力的限制等。這些挑戰使得應用方難以平等獲取低成本的計算資源。如何解決這些問題,是商湯在“三位一體”戰略轉型中深入思考的方向。
大裝置、大模型、場景應用的“三位一體”
李根:商湯之所以具有AI的代表性也是因為這樣的“三位一體”不是每家公司都具有或者都有這樣實踐的可能性。我們在做大裝置算力、大模型以及應用的“三位一體”過程中,您是怎么去看這三個要素當前的成熟度?
徐立:如果討論成熟度,現在計算成本在AI領域占據了極大的比重,無論是訓練還是推理環節都如此。這個變化是Scaling在不同領域驗證的結果,我認為Scaling Law經歷了三個重要的驗證時刻,這三件事情的驗證塑造了今天對它的認識。
第一個驗證是大語言模型上的應用,這是非常有意思的點。大家如今普遍認為資源越多性能越好是常識,但實際上,在Scaling Law提出之前,這在AI領域是一個反共識的觀點。在小數據、小模型上表現優秀的算法,往往在大數據、大模型上效果不佳。過去,從未有人宣稱某種方法能夠適用于不同尺度的模型,這也是為什么Scaling Law被稱為“尺度定律”。這一驗證首次明確了算力資源的重要性和正相關性。
第二個驗證是跨模態的適用性。不管是Sora還是4o等其他跨模態系統,Scaling Law的作用不僅限于語言模型,也適用于視覺等其他模態。這在過往非常不常見,因為在傳統AI領域,算法往往在跨數據、跨模態時失效。
第三個驗證是推理時間上的Scaling Law。推理時間越長,模型性能越容易提升。這個可能是在單一模型Scaling Law放緩的節奏下,帶來的又一個新的增長引擎。
可以說這三次驗證從根本上明確了算力資源在整個鏈路中所扮演的核心商業角色。
這里還有一個關鍵點,模型本身的架構和設計直接決定了計算資源的配置和使用。算力、模型和應用這三大要素中,大模型是貫穿上下的核心紐帶,既牽動著上層應用的發展,也影響著下層計算資源的配置。而計算資源的優化和投入,則是決定整個商業模式能否實現閉環的關鍵所在。
李根:我也是想要進一步問一下更賺錢的問題,我們大眾對于AI的感情好像是很復雜的,比如像OpenAI最初成立的時候,有幾個富豪可以拍10億美金在那說你們啥也不用干,你們就研究AGI就完了,不用考慮任何的事情。后來等這個事情成了,我們很多人就會追問說,中國為啥沒有OpenAI這樣的公司?但是可能過了兩年又會追問說,你們燒了那么多錢,究竟賺錢了嗎?究竟能不能賺錢?所以我感覺當前階段,如果像您講的很多基礎設施都成熟了,那在2.0的階段,我們是不是有更多商業化的進展可以出來?或者對于商湯而言,有沒有商業化的進展是可以分享的?
徐立:商湯作為上市公司發展技術的同時還有一個重要責任就是,對股東的負責。所以在走向AGI的過程中,要有成熟的商業化的變現模式。
對于商湯來講,我們通過“三位一體”的方式將計算成本降得更低,這部分很挑戰,在于必須結合應用、模型和算力,但是一旦迭代完成,就能獲取足夠的市場份額,實現客觀商業回報。因為當前無論是模型服務還是應用服務,最后都等價于計算資源的變現。而在中國,資源變現的商業模式相對更加成熟。
關于商業模式,還有一個有趣的現象:為什么在海外,一個標準化的軟件可以長期保持固定價格,而在國內則需要加入更多服務,甚至進行貼身化的定制開發?這其實也是認知上的差異。如果想在中國真正做好商業化變現,就必須深刻理解這一市場的普遍認知。認知的改變也有路徑依賴。如果行業認知與設計的商業模式不能匹配,形成商業文化上的差異,就會導致商業路徑不清晰。
大眾被打臉的時刻就形成了超級時刻
李根:確實很感慨,因為我們好像第一次經歷AI這樣的技術原創周期,就是完全不是一個舶來品狀態的時候,沒有配套的整體的資源,以前更多還是靠著應用為核心或應用為大頭的一個商業模式變現。我發現在 “三位一體”中提了大裝置、大模型,沒有提大應用或者是超級應用,這是有什么思考嗎?
徐立:大裝置是一種算力集約式建設,其重要性在于只有通過集約化建設,才能實現訓練和推理的彈性支持。而大模型則體現了其通用性的特點。
至于應用,本身并沒有大小之分,而是通過“小見大”的方式逐步成長。因此,單純以應用或場景來判斷其早期規模比較困難。超級應用從來不是一開始就打造出來的,而是從細分的小切入點起步,逐漸演化而成。
直到今天,中國的超級應用依然主要集中在解決國計民生中的小的垂直問題,通過這些小點的突破,逐步形成平臺化的優勢。
李根:但我也觀察到您之前提了一個“超級時刻”的概念,我們大眾來判斷的話,什么事情發生可以確認這個超級時刻到來了?
徐立:超級時刻的關鍵在于大眾對這件事情的認知發生了重大轉折。事后回看,這些時刻往往成為技術或理念發展的轉折點。
我一直認為超級時刻與應用是強綁定的關系。例如,ChatGPT之所以成為超級時刻,是因為過去很多人認為AI在自然語言處理上還很遙遠。但ChatGPT突然出現,突然超越了圖靈測試,讓大眾認知發生了劇變。同樣,AlphaGo之所以是超級時刻,是因為它真正推動了人類去探索世界的本源。
回想AlphaGo的時刻,我還有些感慨。AlphaGo對戰李世石時的第二盤第37手,當時人類包括圍棋專家普遍認為這是一步臭棋,但AlphaGo卻認為這是它整盤棋的勝負手,事實證明機器是對的。這是人類歷史上第一次有一臺機器超越所有人的認知,給出了正確的答案。
這個時刻啟發了一個問題:我們是否可以通過類似的方式去探索世界的本源?這也為后來的“AI for Science”奠定了基礎。
今天的o1就是AlphaGo方法的一種延續。我后來覺得“超級時刻”可以換個詞來形容,那就是“打臉時刻”。在人類被徹底打臉的瞬間,超級時刻就誕生了。例如,iPhone時刻:當時所有人都認為手機必須要有鍵盤,但iPhone的出現顛覆了這一認知。
這種認知上的反轉、升級,正是超級時刻的典型特征。
李根:你剛剛講這個超級時刻的時候,我是覺得非常感慨的,因為想到AlphaGo比賽的時刻,37手那一天,當時我就站在演播室,請了嘉賓而且是圍棋國家隊的總教練,37手下出來的時候,我記得非常深刻,教練說你看不會下棋吧,機器畢竟是機器。但等到后來第一局結束了之后,李世石認輸了,就結束了。當時國家隊教練因為剛從外地回來,他要打開他的打車軟件,他找不到打車軟件,他整個大腦空白了。那個時候我不懂圍棋,但我知道可能對于他們而言是一個職業性的打臉時刻,可能有點像失業時刻。
徐立:所以我在想,通用人工智能時代,不管是當前的語言模型還是垂直行業的應用,可能都只是一個前奏。隨著這些技術的發展,我們對于世界本質的理解以及基礎科學探索的突破,可能會迎來通用人工智能的“超級時刻”,或者說屬于這個時代的“37手”。那將是真正意義上的人類的“打臉時刻”。
李根:對,可能37這個數字會跟42一樣載入AI發展的時刻。徐立博士,您分享了很多非常精彩的認知,但我還有一個最后的問題,可能需要您脫下上市公司的董事長、CEO的帽子,戴上您科學家的帽子來回答這個問題。我們現在都要面向AGI,或者是我們都在談論AGI,那在您心目中,您覺得AGI是什么?它的實現可能有哪幾個階段?我們現在處于它的哪個階段?
徐立:人工智能已經發展了大約70年,至今仍未完全跳出圖靈的定義。圖靈在1950年提出了一個問題:“機器會不會思考?”在給AI下定義時,圖靈并沒有給出明確的定義,而是采用了一種判別式的方法:如果無法區分對面是人還是機器,就認為它具有智能,這就是著名的圖靈測試。
直到今天,AGI的定義邏輯仍然類似:我區分不開它到底是人干的還是機器干的,它就叫AGI。只不過,早期的圖靈測試往往針對單一任務,而現在的AGI測試擴展到了更多任務,更廣泛的應用。所以,人類在這一過程中依舊將智能的定義局限于與人的比較,有些狹隘。
有一篇著名的文章叫《大象不會下象棋》,這是1990年由MIT的一些研究者寫的。他們“嘲笑”人工智能研究過于模擬人類,比如研究下棋這種特定能力。大象很聰明,也有智能,但它不會下象棋——那你研究的究竟是智能本身,還是僅僅研究“下棋”這個具體問題?這表明我們對于智能的定義過于以人類為中心。AGI的定義也顯得self-oriented,因為我們始終將人類視為衡量智能的核心標準。