一個月前,Coursera的聯(lián)合創(chuàng)始人、斯坦福大學(xué)人工智能實驗室的主管
Andrew Ng宣布加入百度位于硅谷的深度學(xué)習(xí)研究院(IDL),他說:“我決定將我接下來的這段時間投入到建造更先進(jìn)的深度學(xué)習(xí)系統(tǒng)中去。而我認(rèn)為,百度將是合適的地方。”
上周,Andrew在加入百度后首次發(fā)表關(guān)于深度學(xué)習(xí)和商業(yè)應(yīng)用的公開演講,在
PingWest舉辦的SYNC 2014舊金山大會上,他分享了他對下一代深度學(xué)習(xí)系統(tǒng)的期待,和他將在百度要做的事情。
深度學(xué)習(xí)并不只是一個學(xué)術(shù)概念,它是許多現(xiàn)代科技產(chǎn)品背后的“引擎”,作為核心技術(shù)支撐著商業(yè)上的應(yīng)用,比如網(wǎng)絡(luò)搜索、機(jī)器翻譯、產(chǎn)品推薦和醫(yī)學(xué)圖像等,帶來了相當(dāng)可觀的經(jīng)濟(jì)價值。
一些手機(jī)里,也可以看到“深度學(xué)習(xí)”的基因。比如每部Android手機(jī)上的語音識別功能。上周剛剛發(fā)行的
Amazon Fire Phone,其所配備的6個攝像頭和商品推薦等功能,也是基于機(jī)器學(xué)習(xí)和深度學(xué)習(xí)來實現(xiàn)的。
Andrew說:“許多你聽過的,像我這樣的家伙分享的和深度學(xué)習(xí)有關(guān)的演講里,有兩個概念都會被混淆在一起。今天,我要把這兩個大的概念分開來解釋清楚。”
這兩個大的概念指的是,
在已標(biāo)記數(shù)據(jù)上進(jìn)行的深度學(xué)習(xí)(也被稱之為在監(jiān)管下進(jìn)行的深度學(xué)習(xí),supervised learning),和在未標(biāo)記的數(shù)據(jù)上進(jìn)行的深度學(xué)習(xí)(unsupervised learning)。
Andrew和他的團(tuán)隊在斯坦福實驗室做的實驗,可以清楚地解釋這兩者的區(qū)別:早前,他們造了一些機(jī)器人,試圖讓機(jī)器人找出一個辦公空間內(nèi)的馬克杯。他們跑遍了舊金山灣區(qū),買來所有他們可以買到的馬克杯,并從各個維度給這些杯子都拍了照片,總共獲得了5萬張馬克杯的照片,并將這些照片都展示給這個機(jī)器人訓(xùn)練它。經(jīng)過這個實驗后,機(jī)器人最終可以在一個辦公空間內(nèi),找到所有的馬克杯。
“之所以深度學(xué)習(xí)可以奏效,是因為在學(xué)習(xí)被標(biāo)記的數(shù)據(jù)上,它的表現(xiàn)很好。”但Andrew馬上說:“我們發(fā)現(xiàn),這和動物及人類學(xué)習(xí)的還是不同。我相信,即使是最最深沉地愛著自己孩子的父母,也不會跑遍舊金山灣區(qū),找出5萬個馬克杯的照片指認(rèn)給自己的孩子看,來讓他認(rèn)識什么是馬克杯的。人類和動物的學(xué)習(xí)方式是,進(jìn)入環(huán)境,由我們自己去感受這個環(huán)境并學(xué)習(xí)。”
“跑遍整個舊金山灣區(qū)找出的所有馬克杯照片”就是標(biāo)記數(shù)據(jù),而“進(jìn)入環(huán)境,由自己去感受環(huán)境”指的則是在未標(biāo)記數(shù)據(jù)中進(jìn)行的學(xué)習(xí)。
“深度學(xué)習(xí)”的研究者們又重新回頭借助神經(jīng)科學(xué)審視人類大腦學(xué)習(xí)的過程。
他們發(fā)現(xiàn)——人類大腦在看到實物的第一個步驟,是尋找實物的邊緣。幸運(yùn)的是,來自伯克利的研究者的實驗表明,復(fù)制這個人腦處理視覺早期步驟的過程,是可以被模擬神經(jīng)網(wǎng)絡(luò)所實現(xiàn)的,而且這個“神經(jīng)網(wǎng)絡(luò)”不僅對于圖像識別奏效,對于音頻識別也可以產(chǎn)生相同的結(jié)果。現(xiàn)在,Andrew和他的團(tuán)隊正在對這一部分的“深度學(xué)習(xí)算法”進(jìn)行解析。
從非標(biāo)記數(shù)據(jù)中學(xué)習(xí)——這是現(xiàn)在讓Andrew感到非常興奮的點(diǎn),因為這能讓深度學(xué)習(xí)普及到更多的應(yīng)用領(lǐng)域,他解釋說:“因為對于許多應(yīng)用方向而言,我們沒有那么多標(biāo)記數(shù)據(jù)。其二,這更接近人類學(xué)習(xí)的過程。”
但要完成這部分的工作,單靠學(xué)校或是研究機(jī)構(gòu)很難實現(xiàn),必須要借助外部的力量,因為所有的實驗結(jié)果都指向了這樣一個趨勢:
模擬出的神經(jīng)系統(tǒng)越大,實驗效果越好。2010年,Andrew加入Google,按他自己的話說,“我上下求索,到處去找誰有最多的電腦、并且還愿意讓我使用的?”Google幫助Andrew開發(fā)出了擁有十億個連接單元的“深度學(xué)習(xí)”系統(tǒng),Andrew說:“有了Google我才能造出比原先大百倍的系統(tǒng)。” 他所帶來的研究成果也幫助Google開發(fā)出了不少商業(yè)產(chǎn)品。
但這些算法的應(yīng)用范圍仍然十分局限,只有像Google這樣的科技巨頭,才擁有這樣的資源,進(jìn)而擁有這樣的技術(shù)。創(chuàng)業(yè)公司或者是普通研究學(xué)者,并沒有機(jī)會在這么大的模擬神經(jīng)網(wǎng)絡(luò)上,去試驗自己的想法和算法。
“我們真正感興趣的是,如何讓深度學(xué)習(xí)更加的民主化?”Andrew說。對此,他和他的學(xué)生Adam Coates決定用GPU替代CPU,降低造價——GPU是Graphics Processing Unit的縮寫,是用來進(jìn)行視覺圖像處理的,在每個人的電腦里都有。
但今天的人工智能,仍然是一個對資本要求很高的生意,而只有像Google、Baidu這樣以搜索起家的公司,才能提供盡可能多的實驗數(shù)據(jù)和計算力——這是他選擇加入百度的一個原因。
Andrew說:“這有點(diǎn)悲哀。你需要大量的數(shù)據(jù)和電腦,幸運(yùn)的是,百度有這些東西。其次,百度是一個敏捷的機(jī)構(gòu),能快速地調(diào)配資源去需要的地方。同時,我被我所遇到的人所折服,比如百度美國的總經(jīng)理Alex Cheng,我的好朋友余凱和張潼,他們多么的友好、聰明、努力和謙遜。他們愿意讓我加入他們和他們合作,我覺得這是我的榮幸。”
加入百度后,現(xiàn)在Andrew正在著手為下一代的“深度學(xué)習(xí)系統(tǒng)”搭建基礎(chǔ)設(shè)施和準(zhǔn)備工具——這也是他讓深度學(xué)習(xí)民主化的重要一步,他要讓在該領(lǐng)域做研究和想要應(yīng)用深度學(xué)習(xí)概念的人們,有一個可使用的系統(tǒng)測試自己的點(diǎn)子。他說:“
我知道下一代的百度深度學(xué)習(xí)系統(tǒng)不會來自于我個人,我們現(xiàn)在在建造為下一代深度學(xué)習(xí)系統(tǒng)而準(zhǔn)備的工具和基礎(chǔ)設(shè)施,來讓研究人員和我們合作,測試點(diǎn)子和進(jìn)行學(xué)習(xí)。
我想做的是,建立起來基礎(chǔ)設(shè)施,讓別人來和我們合作,讓他們成為下一代深度學(xué)習(xí)領(lǐng)域內(nèi)的英雄。”