長遠布局AI,不急于爆款
日前,商湯科技聯合創始人、研究院院長王曉剛接受了騰訊《一線》的采訪,詳細解讀了商湯科技2018年在人工智能手機行業所取得的成績和下半年最新規劃:第一季度推出SenseAR平臺,第二季度在小米8探索版上推出3D人臉解鎖,第三季度推出人臉3D重建和3D虛化,第四季度還會有新的尖端技術出來。詳盡內容請閱讀以下文章。
6月初OPPO在巴黎發布的Find X是商湯科技與OPPO多年合作的最新進展之一,在Find X上運用人臉3D重建技術,實現“3D個性美顏”。在OPPO R9手機上,商湯已經提供了單目虛化功能,用一個攝像頭即可把人從背景上分割出來,而無需兩個攝像頭。接著,在R11上,繼續演化成為雙目虛化。
商湯最早實現在人臉捕捉106個關鍵點,后來形成了業內標準。接著,隨著用戶有美妝要求,商湯推出240點,能夠更精細捕捉人的細節。因為客戶OPPO要做智能美顏,根據美顏的要求,商湯又推出一套新的關鍵點。
這些都是人工智能給手機行業帶來的好處。
做“黑羊”,不急于爆款
手機廠商之間硬件同質化趨勢越來越嚴重之后,軟件算法成為差異化比拼之處。在王曉剛看來,哪個人工智能公司能把算法的價值體現出來,才能爭取到主動權。“否則你不管跟硬件怎么結合,都會存在問題。”
他注意到一些軟件算法為主的人工智能公司,有從算法開始,向固件、硬件拓展的趨勢。在中國,做算法的往往受制于客戶對于商業模式的認可。在大多數人眼中,做算法、賣軟件,本身不能像做硬件、賣硬件那樣理直氣壯。硬件實物擺在面前,總是比虛無的一行行代碼更值得付錢。
不過,王曉剛保持著一種克制,和對商業模式誘惑時的冷靜,“不要以為把算法放到硬件里面就能體現出額外的價值,手機廠商對產業鏈每一部分成本都非常清楚。”他更主張專業化分工,各司其職。
整體上,王曉剛所領導的商湯科技研究院希望將眼光放得更長遠,而不是某一個AI功能。“整個AI提供的舞臺和天地非常廣泛,根本沒有必要糾結在其中一個功能點上。”除了FaceID,商湯還有3D的人臉重建、人體重建、場景重建——“我不想把這些描繪成占領一個一個地盤,因為一個單點技術很難決定一個公司命運或者走向。”
按照這種思路,商湯科技進行多方面探索,有些看起來溫吞吞,不那么狼性。奇怪的是,商湯核心靈魂湯曉鷗對于商湯理念提出過一個黑羊文化。“羊造福人類,商湯也一樣,造福百業。羊有一個問題,趨同,導致群羊效應。商湯不做普通羊,要做黑羊,跟別人不一樣。”
人工智能基礎層面很核心的芯片技術掌握在美國手里的現實,要求中國公司要注重長期的技術積累,而不是非常急功近利地去找爆款級應用。研發、應用正確的姿勢應該是在一些核心技術上需要有耐心,做比較深厚積累。當爆款或者應用出現時,順勢推出。
小米8透明探索版是商湯AI技術另一個落地項目。它采用的商湯3D結構光人臉識別技術,應用了與iPhone X不同的結構光方案,能夠創建帶有面部深度信息的人臉模型,實現更優的解鎖速度、識別精準度及安全性。
商湯科技的這項3D結構光人臉識別技術,通過投射33000個編碼點陣,創建毫米級3D面部模型,并基于紅外人臉圖像支持進行特征提取。在此基礎上,經過大量樣本數據累積以及攻擊測試,其能夠達到百萬分之一級別精度的安全識別和活體檢測,為刷臉支付等高安全要求場景提供更加完善的安全保障。
在Find X上,商湯原創的人臉3D重建技術與3D虛化技術在業內首次落地。這項算法,透過3D編碼結構光形成的點云信息取得深度,本地操作無需連網,即可完成建模流程的復雜算法運算,能夠更快速地呈現出真實3D人臉模型。
與小米、OPPO合作之后,商湯接著又與華為合作,推出華為nova3。該款產品新加入了3D Qmoji功能,使用它,可以將拍照變成表情包。在相機模式下,3D Qmoji通過人臉關鍵點點位捕捉人物表情信息,通過3D擬合與表情分解,渲染出卡通形象的表情變化,驅動卡通形象完成相應的表情動畫。
在3D Qmoji模式下,使用者只需要做出甩頭動作,moji模型就會根據nova3的人臉識別功能,自動落在被識別的另一張臉上。
為什么高通、本田選擇與商湯合作
商湯創始團隊最早源自香港中文大學實驗室,已經有20年歷史。“湯曉鷗老師建立團隊在20年前,研究積累了20年,其他人想復制商湯模式很難。”王曉剛說。
搭建研究團隊,建立研究平臺,在實際中真正接觸到了大規模、產業化的應用需求。比如,商湯合作的一個城市項目里,布下了10萬路攝像頭進行人臉識別、人的軌跡追蹤。“首先要有系統平臺,我們在這個龐大平臺上開始做這個研究。”
正是此類優勢,吸引了高通、本田等世界級公司選擇與商湯科技合作。高通找到商湯,因為他們知道未來的AI芯片重要性。設計AI芯片,支持深度學習神經網絡,需要找到合作伙伴。
而商湯正是最早而且有大量人工智能深度學習技術落地在手機上。“我們真正知道哪些應用,會在什么時候落地到手機上,應用到高通的芯片上,我們在應用過程中遇到了哪些問題,將來芯片怎么設計會更合理,這些是高通想要的。”王曉剛說。同時,高通還是商湯的戰略投資人,在B+輪進入。
與高通的合作不是偶然,商湯自動駕駛與本田公司戰略合作,“本田2016年到中國找戰略合作伙伴,也看了很多,最終找到了商湯,那時候商湯并沒有太多的自動駕駛方面的成果。它來到我們這邊,看到首先我們有自主的AI平臺,用的并不是開源的東西。我們用的都是自主開發的深度學習引擎。”王曉剛介紹。
2016年時,商湯已經能夠訓練出超過1000層的神經網絡。有很強大的平臺在后面做支撐。1000層網絡意味著什么呢?
王曉剛說,深度越深,網絡學習能力越強,學習能力隨著層數增加呈指數增長。很深的網絡非常難訓練的,一般平臺無法支撐。2016年,商湯用這樣的網絡在ImageNet拿了三項冠軍。