商湯科技聯合創始人兼研究院院長王曉剛:AI賦能當前與未來
2018年5月23-24日,為期兩天的2018艾瑞(北京)年度高峰會議聚焦 “智能·無界·決策”,在北京國貿三期大酒店盛大召開。艾瑞峰會匯聚眾多互聯網行業領軍人物、創新者,企業決策者一起看清機遇,改變慣性,開拓認知商業新視野。
以下是商湯科技聯合創始人兼研究院院長王曉剛發表題為“AI賦能當前與未來”的演講實錄。
商湯科技聯合創始人兼研究院院長王曉剛
大家好!今天非常榮幸能有這樣的機會,分享過去三年商湯在人工智能落地應用的體會,同時也借此機會展望人工智能未來應用前景。
讓我們簡單回顧一下人工智能最近幾年發展中的重要節點:
· 過去幾年,人工智能主要驅動力來源于深度學習。在視覺領域,一個標志性的事件在2012年,深度學習第一次在ImageNet比賽中取得了冠軍。
· 2014年,商湯的人臉識別算法的準確率在人臉識別測試LFW系統下首次超過了人眼識別率,突破了大規模工業應用紅線,對人臉識別的發展具有開創性意義。
· 2015年,商湯參加ImageNet國際計算機視覺挑戰賽,獲檢測數量、檢測準確率兩項世界第一。
· 2016年,是讓更多人知道人工智能發展情況的一個標志性事件,AlphaGo擊敗了李世石,取得了冠軍。
在我們看來,人工智能分為三個層次:
基礎層。包括GPU集群,我們靠GPU去訓練模型;包括AI芯片,如果把人工智能、深度學習用在手機等前端設備上,離不開計算能力的加強。同時,還有深度學習平臺,如果說把"深度學習模型"看成一個產品,那么平臺就是生產線,有什么樣的生產線意味著有什么樣的生產能力,它起著非常基礎的作用。還有增強現實的AR平臺,與AI平臺的結合,實現虛擬與現實世界的融合。
以上這些都屬于基礎層。
在應用層,我們說人工智能有各種各樣的應用,如智慧城市、無人駕駛、智能手機等。如何將基礎能力在垂直領域落地?之前人們認為人工智能可能是一種通用能力,比如說訓練一個人臉識別模型以后,就可以在各行各業里成功應用。但實際情況是,我們需要真正深入到每一個垂直領域,在各個領域中去研究算法、重新去訓練模型。這樣就帶來一個問題:隨著垂直領域的應用越來越多,它對我們的研究員、科學家的消耗也是越來越多。
在這個里面,還有很重要的中間層。怎么樣設計出一套模塊化的算法開發工具?比如說不同領域里,用不同的網絡結構。現在,主要靠研究員積累的經驗去設計網絡結構,但我們可以設計算法自動搜索最優的網路結構。普通的工程師和開發者,就可以利用這套算法開發工具完成從基礎層到應用層的跨越。
如果看一看這三個層里面國內外競爭格局的話,發現在應用層,中國有最豐富的落地場景。它提供大量的數據和反饋用于打磨算法,這為人工智能提供非常好的條件,這是為什么人工智能在中國能快速發展。同時,我們也看到在基礎層面,中國還是比較薄弱。比如說在GPU,AI芯片領域,目前都被國外巨頭所壟斷。比如,深度學習平臺,大家經常使用的包括TensorFlow、Torch,也都是由谷歌、Facebook開發。
深度學習平臺
在基礎層,我們現在追求同時利用上千塊GPU訓練網絡模型,把AI和增強現實結合起來,虛擬世界和現實世界結合起來,云和端結合起來。而在深度學習平臺上,以上提到的TensorFlow、Torch等都是大家經常使用的一些免費開源的深度學習平臺。但是,用這些大公司提供的深度學習平臺,會有一些限制:
首先,性能上會有限制。這些平臺,更多是面向學術界小規模的應用。如果在大規模產業應用,我們需要幾百塊GPU訓練模型,這是這些開源平臺所不能很好的支持的。
其次,依賴開源的深度學習平臺,也會對技術上產生各種各樣的限制。比如說2014年,當我們參加ImageNet比賽時,開源平臺不能很好的支持多機多卡并行訓練,所以,我們需要開發自己的深度學習平臺,才能跟谷歌等巨頭競爭。另外,還有知識產權方面的問題。
商湯的深度學習平臺,它具有高效的計算能力,能支持幾百塊GPU的并行訓練,也有高度的靈活性,能很快針對垂直領域應用做開發,提高生產力,商湯深度學習平臺在很多方面都有領先性。
同時,一個很重要的應用領域是AR增強現實技術。現在AR應用已經深入到我們的生活中,比如在視頻直播里有很多特效,它背后的技術支撐實際上是人臉關鍵點和建模技術。
比如,在手機領域應用,可以建模找到關鍵點,在手機里就可以將游戲中的卡通人物,引入到真實生活當中,將來還會有實景游戲產出。在電商領域應用,比如在網上購買家具,可以把虛擬的家具模型放到自己想要的場景中,這些應用背后依靠的是商湯的SenseAR技術。
目前,OPPO已經推出以商湯科技SenseAR平臺為引擎打造的OPPO AR開發者平臺,引起了廣泛關注。而商湯在2016年時,開始建立自己的AR平臺,并進行大規模推廣。
中間層
在中間層,目前有一些代表核心的技術突破。最近,谷歌發布了AutoML工具鏈,普通開發者可以利用這樣的工具鏈,針對各種各樣不同應用,較快的訓練模型,包括去設計更好的網絡結構。
商湯也有類似的工具鏈,而且可以跟谷歌AutoML做對比,比如自動搜索網絡結構。除了分類,還有檢測、跟蹤、分割、關鍵點檢測等,后面有大量的垂直應用。
這里給大家展示自動搜索出來的網絡結構。最左邊大家所看到的是2012年深度學習應用到計算機視覺里時它的網絡結構AlexNet,后來設計了VGG, GoogleNet, ResNet。這是一些對比,左邊是我們找到的三個最優的網絡結構,右邊是性能對比。比如說靠人工研究員的經驗找網絡結構時,需要花一年時間。如果用商湯的技術,三天的時間,32片GPU就可以達到更好的識別性能。
大家知道AlphaGo最開始依賴于人類的經驗作為起點。AlphaGoZero完全拋棄人類的經驗從零開始學習下棋。我們說自動網絡結構的搜索也是一樣,它是完全拋棄研究員的經驗知識,從頭去搜索最優的網絡結構。
增量學習和無監督學習
隨著人工智能的發展,深度學習訓練出的人臉識別模型慢慢超越了人眼識別率,它在初期時,是大量依靠人類肉眼標注數據。但是,當深度學習模型的準確率超過人眼識別率時,人類標注的數據對它起的作用就很有限了,這個時候就需要更多依靠于非監督學習。
最后,簡單聊一些比較重要的應用。人臉識別幫助我們實現動態布控,當嫌疑人出現時,就可以自動在黑名單里捕捉嫌疑人。實際上,在過去幾年,利用商湯的人臉識別系統已經抓捕大量逃犯,有些是在逃十幾年的要犯。
人工智能在手機里面有更多的應用,包括人臉解鎖、AI拍照,人工智能通過手機進入到千家萬戶,給我們帶來不一樣的體驗。