核心技術: 以原創技術體系為根基，SenseCore商湯AI大裝置為核心基座，布局多領域、多方向前沿研究，
快速打通AI在各個垂直場景中的應用，向行業賦能。

EmTech China | 商湯研究院院長王曉剛：現在人臉識別相當于8位數字密碼

2018-01-31

《麻省理工科技評論》新興科技峰會EmTech China于昨日落幕。從實驗室到產業界，EmTech China為大家呈現最值得期待的科技商業頭腦風暴。商湯研究院院長王曉剛在此次活動上發表了題為“AI賦能下的當下與未來”的演講，闡述了人工智能如何通過云和端改變人們的生活和未來。

王曉剛稱，只有當人工智能的算法準確率超過人類能力紅線的時候，大家才會考慮實際的工業應用。2014年，人工智能人臉識別技術的準確率首次超過人眼準確率，到現在誤差率可以達到億分之一。換句話說，原來機器做人臉識別如果相當于一個4位密碼，現在則相當于一個8位的密碼，它的性能已經提升了4個數量級。

以下為王曉剛演講實錄：

很高興今天能與商湯科技的戰略合作伙伴英偉達和高通同臺，英偉達提供的GPU可以幫助我們實現強大的深度學習模型。商湯使用超過6000塊GPU訓練多種神經網絡，同時GPU也在支持著很多云端上的AI服務。如果人工智能想要普及，那么就要走到前端設備之中。這些前端設備都離不開芯片的支持，而高通所提供的就是人工智能的芯片。目前商湯的人臉解鎖技術已經被超過上億的手機用戶使用，都要靠高通的芯片支持。

今天我們要談論的是人工智能是如何通過云和端改變人們的生活和未來。

在過去的十年里，人工智能飛速發展最杰出的代表就是深度學習。其中有三個推動深度學習發展的因素：一是大數據，二是云和端的計算能力，里面包括了GPU和AI芯片，三是深度學習算法不斷創新。人工智能在各個垂直領域中也取得了非常多的突破，得益于三個比較重要的維度。一是準確率，二是容量，三是效率。

只有當人工智能的算法準確率超過人類能力紅線的時候，大家才會考慮實際的工業應用。而且隨著這樣的準確率不斷提升，人工智能的服務業務邊界也會不斷地拓展。為了能夠達到更高的準確率，我們需要非常強大的學習算法，同時，強大的GPU，給予了訓練強大神經網絡模型的能力。最后是效率的問題，我們的算法要走向前端設備，這就對功耗、速度提出非常高的要求。

2 - 640？wx_fmt=jpeg.jpg

首先，看一下準確率這個維度，以人臉識別為例，2014年，人工智能人臉識別技術的準確率首次超過人眼準確率。我給大家舉個例子，2014年的時候，在1:1的情況下，機器做人臉識別可以達到萬分之一的誤差率。而現在，誤差率可以達到億分之一。換句話說，原來機器做人臉識別如果相當于一個4位密碼，現在則相當于一個8位的密碼，它的性能已經提升了4個數量級。

隨著算法的提升，其應用邊界不斷擴大，從最開始1:1身份的比對，到后來動態布控，如抓捕在逃嫌疑人。一直到現在，我們可以在整個城市范圍內，從上千億的圖像中去搜索人臉，恢復人的活動軌跡。能夠達到這樣高的準確率實際上是得益于神經網絡的強大，我們通過訓練超過1200層的神經網絡，從而超過人眼識別的能力。神經網絡從2012年的5層發展到現在的1200層這樣一個過程，其網絡的復雜度、深度也在不斷的提升。

那么，增加神經網絡的層數，是否是提升學習能力的唯一方法呢？其實也不是這樣，因為人類的大腦并沒有1200層，但是我們的大腦有非常強大的學習能力，就因為我們的大腦有非常復雜的信息傳遞機制。

實際上，傳統的神經網絡的信息是由低層向高層傳遞，那么現在我們需要設計更加復雜的信息傳遞機制，在同一層這個神經元它會不停的去分組，而且在同一層神經元之間，有更加復雜的信息傳遞機制。

3 - 640？wx_fmt=jpeg.jpg

現在給大家展示的是2016年設計的一個大規模物體檢測網絡。在這個網絡里，不同的分辨率的特征信息之間可以在同一層神經網絡進行傳遞，并且互相印證。而且我們設計了不同的門來控制傳遞的信息流，如什么樣的信息可以傳遞。最開始的時候，我們用不同的神經網絡解決不同的問題，但是事實上我們人類只有一個大腦，卻可以用一個大腦解決各種各樣的復雜問題，包括三維的物體形狀的感知、文字的理解、在視頻中去識別和跟蹤物體以及對聲音的處理。神經網絡也是有這樣的一個發展趨勢，我們希望運用一個網絡去完成多種復雜的任務。

為了讓我們的網絡能夠運用在前端設備，就必須提高它的效率。在真正工業應用時，我們對網絡進行上千倍的壓縮還要保證其準確率，這樣才能夠用在各種前端的芯片里。我們需要在最普通的手機里，把深度學習的各種算法用到超實時。大概兩年以前，一個GPU在監控里只能夠處理一路視頻，而現在同樣的GPU，能夠處理16路的視頻；能夠在前端設備中實現實時人臉檢測。

大家可能會問，既然在前端應用的時候，只要用一個很小的稀疏的網絡，那為什么要訓練1200層這么大的網絡，用處在哪？原因是為了得到一個很小，但是識別率很高的網絡，你首先需要得到一個非常深、非常強的網絡進行學習。打個比喻，這個小的但是識別率高的網絡，就好比是一個小學生，我們的數據就好比是書籍，直接讓一個小學生，從大量的書籍當中提取知識，這是一件非常困難的事，首先要找到一個老師，老師有非常強的學習能力，這就是1200層的網絡。它首先能夠從海量的數據里面，把知識提取出來，然后通過知識傳播的方式去教更小的網絡，讓其達到很好的識別性能。

大家可以看到的是，我們的算法演進。一邊是高端的人臉抓拍相機，用的是傳統的算法，基于FPGA實現的，其計算能力比較強；另一邊是經過網絡壓縮以及各種優化技術，把深度學習的算法放在一個非常便宜的芯片里面，能夠保持非常好的檢測和跟蹤的準確率。城市里面有幾十萬路的攝像頭，但是不可能把這些攝像頭和視頻流直接連到后臺的平臺上，靠的是前臺的人臉抓拍相機，去檢測、跟蹤這些關鍵的人，把抓拍到的圖片傳到后臺。

4 - 640？wx_fmt=jpeg.jpg

算法的提升可以帶來非常多的應用，首先會讓我們的城市變得更加安全、更加溫暖。比如，有的犯罪嫌疑人都是十幾年以前隱姓埋名，改了身份證，最終還是被動態人臉布控系統所捕捉到。再舉個具體的例子，前幾天在朋友圈里看到的一個發生在南方城市的新聞，公安局利用人臉識別系統結合城市里幾萬個攝像頭找到了走丟的老人。

除此之外，人工智能也讓我們的生活能夠更加豐富多彩。如可以將人工智能對人臉準確快速跟蹤的技術應用到直播當中，對場景的三維結構進行分析，進而配合各種特效。因此，我們可以推動這樣的人工智能技術發展，增強現實，去設計各種各樣有意思的游戲。

利用高通最新的芯片，手機能夠實現實時在線上對視頻風格的變換，而這對算法的效率要求很高。

手機正在從智能手機變成智慧手機，這是人工智能算法走向手機的過程，里面有包括背景虛化和智能美顏等各種各樣的應用。同時人臉識別技術普及的使用不僅可以實現人臉解鎖，還可用于支付。

AI也讓我們的交通變得更加安全和方便，商湯的駕駛員監控系統，可以通過駕駛員人臉關鍵點的跟蹤和表情的分析來監控他的疲勞狀態，并適時發出警報。在車內，也可以利用手勢識別和視線跟蹤來給乘客設置各種各樣的游戲，如用手勢識別進行的游戲，根據對視線的跟蹤來寫字。自動駕駛技術中，我們可以看到隨著深度學習的發展，可以實現在復雜天氣情況下和惡劣光線條件下更加安全可靠地駕駛。

總之，商湯專注于算法，但這個算法推動是靠大數據、云端和前端以及硬件和芯片，同時人工智能在各個垂直領域的應用，也推動算法不斷的進步。我們希望在不久的將來，通過云端AI和前端AI，改變我們的生活，改變我們的未來。

您尚未完善信息

完善信息后，即可下載資料

完善信息跳過，繼續瀏覽

您尚未登錄

您還未登錄，登錄方可繼續

登錄跳過，繼續瀏覽

請選擇您認為需要改進的地方：

導航不好用，不方便找到感興趣的內容
產品介紹信息不夠全面
產品介紹信息不容易懂
頁面打開速度不快，頁面瀏覽不流暢/有卡頓
頁面不夠美觀
售后服務不好找，體驗不好

跳過下一個

您是否能夠達到本次網站的訪問目的？

是
否
仍在進行中

下一個

您對商湯官網的滿意度如何？

非常不滿意非常滿意

提交

已收到您對商湯官網的評價和建議！

感謝您的耐心反饋~

關閉