金洋:大家好,我是英偉達公司的金洋。剛才聽到了綠盟李總給大家介紹了汽車安全,我今天站在這里從人工智能角度給大家介紹一下如何去實現(xiàn)更安全的駕駛。
想問一下大家,對于一臺汽車來說,最不安全的部件是什么?或者最不可靠的部分是什么?如果大家做一些研究和搜索可以發(fā)現(xiàn),交通安全中,94%都是由于駕駛者出現(xiàn)了疏忽、出現(xiàn)了判斷錯誤、出現(xiàn)了一些不該有的問題導致的交通事故。如何讓汽車更加安全,有一種方式比人更加聰明、比人更加智能,人工智能的出現(xiàn)使得汽車的無人駕駛有了新的方向。
從人工智能發(fā)展角度和人類文明的結合來看,人工智能扮演什么樣的角色?
首先有計算、PC的出現(xiàn),隨著互聯(lián)網(wǎng)的出現(xiàn),有了移動計算,包括高性能計算中心,同時有一些云計算,包括人工智能的出現(xiàn)。人類社會的發(fā)展從開始的工業(yè)革命、蒸汽革命到電力革命,一直是在解放人的物理能力,也就是說提高人的生產(chǎn)力水平,提高人的物理界限,使得人可以獲得很大的力氣,可以獲得很大動能的釋放。在智力方面,在智能方面,人類社會的發(fā)展一直沒有達到或者超越人類本身的智能。
今日談人工智能時,主要想我們是否有一種新的方式可以創(chuàng)造一個機器,可以創(chuàng)造一臺電腦,它的智力、人工智能比人還要聰明。
之前很多科學家為了實現(xiàn)這個遠景,想了很多辦法,比如基于邊緣檢測、基于特征識別的圖象識別方式、實現(xiàn)人工智能的其他方式,其實都沒有達到好的效果。今天我們看一下AI人工智能到底迎來了一個什么樣的關鍵性階段,使得人工智能發(fā)展到一個新的高度。
NVIDIA是一家成立20多年的公司,最早大家對于NVIDIA的了解,是NVIDIA的顯卡非常不錯,買回家玩游戲。這二十年當中,NVIDIA發(fā)生很多變化,已經(jīng)從一家專注于顯卡的公司演變成了一家專注于人工智能計算的公司。
如圖,基于面向人工智能推出的服務器,DGX1,有很多家公司已經(jīng)買了,比如大家耳熟能詳?shù)奈④洝⒐雀琛acebook,國內的百度、阿里、騰訊,都在買NVIDIA服務器產(chǎn)品進行人工智能的計算。
中間還有游戲照片,游戲是NVIDIA的主要業(yè)務。機器人,是人工智能的雛形。這兩年人工智能非常火熱,大家非常熟悉的一個名字叫做Alpha Go,由谷歌研究出來跟人進行對弈的機器人,Alpha Go背后也是用NVIDIA的GPU。
人工智能發(fā)展了很多很多年,但為什么在今年出現(xiàn)了Alpha Go,為什么今年出現(xiàn)了基于人工智能的無人駕駛,今年出現(xiàn)了基于人工智能的很多機器人,發(fā)生了什么樣的變化,使它第一次達到了人的智力。
深度學習是一個理論,深度學習是科學家一直覺得非常有前途去實現(xiàn)人工智能的一種方法。深度學習有很多實現(xiàn)的途徑。如圖,這是一個比賽的結果,這個比賽叫ImageNet,這個比賽是用來識別圖象的,74%、96%是識別圖象的準確率。人對于圖象識別率基本是93%到94%的準確率。
如何算出來的?一個人去看幾千張、幾百萬張圖片,進行圖象識別,人是會犯錯的,93%、94%是人的識別率。2010、2011、2012年,用人傳統(tǒng)編寫程序的方法編出的程序進行圖象識別,準確率是74%。也就是說基于人去編寫程序的結果,對于圖象識別最高的準確率就是74%。但是通過深度學習去實現(xiàn)圖象識別的準確率從74%到了90%多,到現(xiàn)在達到了96%。也就是說電腦第一次在圖象識別領域超過了人,比人看得還準。
這是怎么實現(xiàn)的?深度學習有兩個關鍵因素:第一,大數(shù)據(jù);第二,非常高效的定型計算的能力。舉例,讓電腦去識別馬。傳統(tǒng)編程人員會給電腦編寫程序,條件1,四條腿的是馬;條件2,臉長的是馬,電腦進行識別時就會比照十個條件,如果滿足這個條件就認定是馬,這是傳統(tǒng)的方式。傳統(tǒng)的方式識別率最高達到74%,為什么?
因為真正在大自然當中,馬的照片也好、圖畫也好是非常復雜的,比如給電腦看一張水墨畫的馬,一張卡通的馬,或者在喝水的馬,或者萬馬奔騰的馬,這些照片,電腦都會識別錯誤。
深度學習怎么做?深度學習會拿出一張馬的照片,告訴電腦這個是馬。拿出第二張照片,告訴電腦這還是馬。深度學習會將幾千張、幾萬張,甚至幾百萬張馬的照片給電腦去看,讓電腦記住這都是馬,但不會告訴電腦說為什么它是馬。
電腦自己通過大量數(shù)據(jù)的訓練總結出馬是長什么樣子。這樣一個方式,如果擁有足夠多高質量的數(shù)據(jù),比如幾千張、幾萬張、幾億張、幾十億張這樣的數(shù)據(jù)庫去訓練這個電腦,最后得出的結果會非常準確。這時候再拿出一張馬的照片讓電腦識別,會準確說出是馬還不是馬。
這個理論一九五幾年就有了,但是因為這種訓練的過程時間太長了,如果一臺基于CPU的服務器,基于CPU的高性能計算中心進行幾百萬張照片的訓練,可能要十年或幾年才能訓練完成。現(xiàn)在基于GPU,基于顯卡,基于一個具有3072核心的圖形處理器進行訓練,同樣100萬張照片,2個小時可以做完。
現(xiàn)在不僅在圖象識別方面,在語音識別方面,比如科大訊飛進行語音翻譯,也是用NVIDIA的GPU,電腦對于語音的識別率也超過了人,對于圖象的識別率也超過了人,對于視頻的識別率也超過了人。基于GPU、基于深度學習,人工智能第一次達到了一個我們預期的效果,比人還要聰明。
2012年,多倫多大學基于4片NVIDIA的GPU做的一個模型,現(xiàn)在有專門深度學習作出的GPU。基于現(xiàn)在BAT、百度、微軟、谷歌,所有國際、國內大公司,只要做深度學習,都在用NVIDIA的GPU做這方面的計算。
NVIDIA的GPU和汽車有不解之緣,一開始NVIDIA的GPU就做一些仿真模擬、一些測試,使汽車廠商更方便設計他們的汽車,以及進行汽車工業(yè)設計,使汽車非常漂亮。這兩年我們將人工智能帶到了汽車。基于人工智能的運輸業(yè)產(chǎn)值非常大。
無人駕駛特別難。如圖,世界非常復雜,世界是無法預測的,同時這個世界也有由霧霾、下雨等組成的,同時有太多太多的事情要去學習,不僅對于人工智能汽車來說,對于人也是一樣的。如圖,一個林間小道沒有任何標識,如果這臺汽車是基于攝象頭標識檢測方式,需要找標線,沒有標線,怎么在林間小道走?比如中間騎自行車的同學忽然竄出來。
同樣都是汽車,優(yōu)先級不一樣,校車、救護車、警車,這些車可能不遵守交通規(guī)則,這些車有自己的規(guī)范,作為無人駕駛的汽車無法識別這些車,更不可能預測到這些車下一步動作是什么。比如標線已經(jīng)被雪掩埋住了。
如何在復雜的世界當中去實現(xiàn)基于深度學習、基于人工智能的無人駕駛?將無人駕駛分成四個部分:首先要有一個非常非常高精度的地圖(Map);需要把自己定位在這個地圖里面(Localize);(Perception)這臺汽車要認識周圍了一切,知道這是云、這是鳥、這是車、這是廣告牌,而不僅僅是將所有的一切進行圖片庫的比對。
比如前一段時間有一個知名品牌出了一個交通事故,前面出來一臺車,這臺車的特征并不符合任何一個已知圖片庫的一臺汽車,所以無法將那臺汽車看成汽車,而發(fā)生了交通事故。僅僅簡單進行比對是無法認識這個復雜世界的。最后是Drive。我們最關鍵的是第三個環(huán)節(jié)。
我們將深度學習算法放在一臺汽車里,讓這臺汽車看周圍世界時不僅僅是象素,并不僅僅是紅綠藍,可以將這些物體識別出來。將大量汽車數(shù)據(jù)庫進行訓練,使得這臺車訓練之后具有人工智能的腦子,可以識別出車、人。
如圖,在雨雪天,在最遠端黃色一閃一閃的是在行駛過程中的車,如果是人的話,可能因為看錯或看不清就忽略掉了,而出現(xiàn)交通事故。基于人工智能的無人駕駛汽車可以發(fā)現(xiàn)很復雜天氣環(huán)境背后隱藏的一些危險,包括一些自由空間的檢測、汽車3D的檢測,都是非常關鍵的事情。
如視頻,NVIDIA做的基于深度學習的無人駕駛汽車,第一天上路,第一天學開車時的樣子,很快進行了學習,很快又知道如何去開車,即使這條道上沒有任何標志,也可以像人一樣去開車。在一個建筑工地,可以自如的知道如何開出來。
在加利福尼亞進行學習的這臺車,我們第一次把它放到新澤西,它第一次來到新澤西,就已經(jīng)會在新澤西這邊開車了。
這一臺車從第一天上路,各種撞、各種發(fā)生交通事故開始,經(jīng)過了一個月,經(jīng)過了3000公里的訓練,可以非常自如應對各種復雜的狀況。在這一個月當中,編程人員什么都沒干。
我們并不是像傳統(tǒng)無人駕駛廠商一樣,每天要加更多代碼,將更多圖片放在里面,每天要修正它的錯誤,都不需要,因為這提車本身是深度學習,有12個攝象頭,每天有大量的視頻信號進來,每天可以學習其他車怎么去開,可以學習駕駛員怎么去開,每天不斷地學習,經(jīng)過一個月3000公里的訓練,可以像人一樣從不會到會。如果再經(jīng)過兩個月時間,這臺無人駕駛的車會在大街上繼續(xù)開,每天進行大量的訓練,還是不需要對它進行編程,會自我學習。
基于深度學習的無人駕駛最大的優(yōu)點是可以每天都會比前天變得更好。就像Alpha Go跟人下圍棋一樣,即使它今天輸了,沒有問題,作為谷歌,再拿出10萬個棋譜訓練,讓它學習,再拿出100萬個棋譜視頻,Alpha Go會更加聰明,遲早會打敗人類,人別不會打敗它,為什么?基于大數(shù)據(jù)訓練的模型、深度學習的方式非常適合現(xiàn)在計算行業(yè),因為現(xiàn)在計算行業(yè)有兩個東西是最富余的:1、大數(shù)據(jù)。
基本任何一加大公司都有大量的數(shù)據(jù);2、計算能力。很多國家超計算中心,很多公司服務器都是閑置的。深度學習的出現(xiàn),使得大數(shù)據(jù)迸發(fā)出人工智能。
NVIDIA為代表基于GUP的深度學習的方式目前在引領整個汽車行業(yè)無人駕駛的方向。NVIDIA汽車方面做得怎么樣?我們做得非常出色,首先目前在全球有超過1200萬輛汽車搭載了NVIDIA公司的處理器。
大家耳熟能詳?shù)挠袑汃R、奧迪、特斯拉,包括大眾高爾夫、帕薩特、邁騰,里面的顯示器、中控都是NVIDIA的,但是這件事情只是做顯示輸出,只是讓儀表盤、中控更加漂亮,對于NVIDIA來說并不是什么難事,真正厲害的在于無人駕駛。
NVIDIA在無人駕駛方面做得怎么樣?目前無人駕駛做得比較出色的公司有奧迪,奧迪測試的A7、A8都做得非常不錯,奧迪全線無人駕駛都是NVIDIA提供;沃爾沃,Drive me是著名的無人駕駛計劃,明年有100輛無人駕駛車進行測試,全都是NVIDIA無人駕駛的產(chǎn)品;特斯拉,從上上周開始,已經(jīng)宣布每一臺無人駕駛特斯拉都會搭載NVIDIA的芯片、GPU。
NVIDIA公司現(xiàn)在在傳統(tǒng)的汽車多媒體儀表盤方向的地位毋庸置疑,同時我們還和所有Top無人駕駛汽車的廠商進行合作,沃爾沃、奧迪、特斯拉,推出基于深度學習的無人駕駛解決方案。
談了很多深度學習、談了很多無人駕駛,為什么深度學習適合在GPU上?因為GPU核心數(shù)量比較多,GPU有幾千個核心。現(xiàn)在不管是高性能計算、無人駕駛,還是深度學習,還是VR、圖形,所有這些復雜的計算背后的處理器都早已經(jīng)不是CPU了,都是GPU。
NVIDIA傳統(tǒng)的產(chǎn)品已經(jīng)演變成了很多領域中的中流砥柱,比如無人駕駛的車,無人機,包括一些智能設備,有針對特斯拉推出的一些并行計算產(chǎn)品。整個這樣的布局基于GPU人工智能的并行計算時代已經(jīng)到來。
謝謝大家!