百度大腦李彥巨集演講視訊
百度大腦震撼釋出的重播視訊分享給大家,大家來學習觀看吧,學習偉大人物演講技巧,百度大腦李彥巨集演講的全文,希望可以幫助大家!
李彥巨集在百度世界大會的演講全文:
歡迎來到2016百度世界!
大家知道,百度世界是我們每年舉辦一次的百度技術創新大會。今年的主題我們聚焦在人工智慧,大家在之前收到的請柬上已經看到這個主題了。剛才開場視訊是以人工智慧為主題的,今天我的主題演講也將圍繞著人工智慧來展開。
今年6月份,我在百度聯盟峰會上講了一個概念,叫做網際網路的下一幕。下一幕是什麼意思呢?就是說,網際網路的發展在此之前已經經過了兩個非常重要的階段,第一個階段大概持續了十幾年的時間,就是我們講的PC網際網路階段。第二個階段是在最近四五年,我們把它叫做移動網際網路的階段。對於中國市場來說,隨著上網人數越來越多,上網人口的滲透率越來越高,現在已經達到了七億多,就是說已經超過了50%的滲透率,同時,每一個上網的人現在也基本都用上了智慧手機。
這意味著什麼呢?這意味著,未來網際網路的增長不能再靠人口紅利來驅動了,也就是說,移動網際網路的時代其實正在離開我們。這可能是很多人覺得難以接受的。我們國家現在進入了所謂的新常態,經濟的增長需要靠“網際網路+”行動計劃來推動,所謂“網際網路+”就是希望用網際網路的思維方式、網際網路的效率來推動各個行業、產業的繼續發展。但是,我們網際網路的從業者其實又深深地感受到了這其中的危機,這個危機就是因為過去的粗放增長階段已經結束了。
移動網際網路之後的下一幕是什麼?其實現在已經很清楚了,就是我們所說的人工智慧。人工智慧對於百度來說是核心當中的核心,我們也很幸運,在過去的五六年當中,百度花了很大很大的精力投入到人工智慧的研發當中。人工智慧對於百度來說意味著什麼呢?我可以用簡單的四個字來描述,就是百度大腦。百度大腦的概念我們其實在大約三年前就對外講過。那個時候我們講,百度大腦已經具備了大概兩三歲孩子的智力水平了。自此以後,不斷的有人來問我,尤其是今年人工智慧突然火起來了之後,很多人來問我說,你們這個百度大腦現在相當於多少歲人的智力水平了。
要回答這個問題其實還蠻難的,我也不知道它現在是多少歲了,因為畢竟人腦和電腦它還是有很大的區別,百度大腦雖然是一個人工智慧的大腦,但是它和人正常的發育的過程還是很不一樣的。
百度大腦到底由什麼構成的呢?它基本上是由三個大的部分組成的。第一個組成部分,就是人工智慧的演算法。我們有超大規模的神經網路,這是模擬人的神經元組成的網路,但其實我們也不知道真正人腦工作的原理是什麼,只是想象當中應該是這個樣子。我們還使用了萬億級的引數,人腦的神經源大概是千億級的,我們也有千億的樣本和千億的特徵進行訓練。整個這些東西組成了百度大腦當中演算法的部分。
百度大腦的第二個組成部分是我們計算能力。現在我們已經使用了數十萬臺的伺服器來進行計算,而這當中很多的伺服器不是傳統基於CPU的伺服器,而是基於GPU。早年的時候,GPU主要在遊戲等領域使用得比較廣泛,在人工智慧、尤其是深度學習起來以後,我們發現,其實GPU特別適合人工智慧的計算,尤其是深度學習的計算,一塊GPU可以頂100個CPU的計算能力。有關GPU的事情,我之後會請一位外部的嘉賓,就是NVIDIA的創始人和CEO黃仁勳先生,讓他給大家介紹更多有關GPU的,尤其是在人工智慧領域應用的情況。
百度大腦的第三部分是資料。資料也非常非常重要,而且這個資料量也是非常大的。比如說,我們已經收集了全網上萬億的網際網路網頁內容,這其中包括了很多視訊、音訊、影象,這些資料也是數以百億級的。我們還有每天數十億次網民的搜尋請求,而且還有每天數百億次的網民定位請求,就是說這個人在什麼地方,這樣的請求也比大家想象得多,每天都有好幾百億次這樣的定位請求。
有了演算法,有了計算能力,有了資料,百度大腦就可以開始工作了。百度大腦又到底有什麼樣的功能?讓我們來看一看。
我們今天想重點介紹的四個功能:一個是語音的能力,一個是影象的能力,一個是自然語言理解的能力,還有一個就是使用者畫像的能力。這幾個能力雖然都是屬於人工智慧中比較典型的應用,但是它的發展階段也是很不一樣的。比如說語音,現在就已經進入了相對比較成熟的階段,在很多很多領域中都開始進入實用階段,識別的準確率也已經很高了。影象最近幾年也有了長足的進展。這兩者都屬於人工智慧當中認知的部分,所以深度學習的演算法非常適合處理這些形式。
相對來說,自然語言的理解、或處理能力就更加難一些,並處在一個更加早期的階段,因為它除了認知方面的能力之外,還要求有推理、規劃等等能力,才能夠真正地理解自然語言。使用者畫像的能力,其實從傳統意義上來講並不是人工智慧的領域,但是由於近年來大資料的發展,尤其是大型網際網路公司有能力蒐集很多使用者的資料之後,再用人工智慧的方法、用機器學習的方法,就可以把一個人的特徵描繪得非常非常清楚。所以今天,使用者畫像也變成了人工智慧、或者說變成了百度大腦的一個重要功能。
下面我就分別來講一下這幾個功能,這幾個百度大腦的功能。
我們先看一下語音,剛才也講了應該說今天人工智慧發展的最成熟的一部分能力,而語音又分成兩個方向,一個是語音的合成,一個是語音的識別。
我們先看看語音識別。今年MIT Technology Review***《MIT科技評論》***雜誌,把百度的Deep Speech 2評為“2016改變世界十大突破技術”,這就是百度的語音識別引擎,它已經到了第二代,主要就是使用了深度學習的能力。這樣的一個技術已經可以把語音識別的準確度做到多少呢?大概可以做到97%的準確率,這樣的準確率已經達到、甚至有時已經超過了人對語音的識別能力。當然,我們講這些能力不是為了簡單地去炫耀這個數字有多好,我更感興趣的是,當你有了這些能力時,它可以在什麼領域應用,又可以在哪些方面幫助到我們,這其實才是最最讓我們覺得興奮的地方。我個人的想象力很有限,整個百度幾萬人的想象力也是有限的,但是這些能力如果賦予到很多很多人,賦予給幾億人、幾十億人,這個可能性幾乎是無限的。先用我們比較有限的想象力來給大家舉一個例子。
這是一個銷售、電話銷售的例子,是一個 2B***To B***的應用。這個應用是什麼意思呢?很多的公司其實都有電話銷售這樣的一個部門,都需要這樣做。但是銷售,尤其是電話銷售這個行業,大家知道流動性是比較大的,很多銷售都是新人,新人的話就會經過一定的時間培訓才能夠上崗,但即使是經過培訓的話,也不一定有那些有經驗的銷售那麼出活兒、出單。其實有經驗、最優秀的銷售和一般、較差的銷售相比,在效率上有非常大的差別。我們怎麼才能夠讓新手、讓沒有經驗的銷售,能夠具備最優秀銷售的銷售能力?過去的做法是,把優秀的銷售經驗總結成冊子讓大家去學習,讓這些銷售去背,但是怎麼活學活用還是需要一個過程的。而有了這麼高精度的語音識別能力之後,我們就可以徹底改變這樣一個狀況了,甚至可以讓一個剛剛上崗一個月的銷售就具備最優秀銷售的能力,也就是說,我們可以通過實時的語音識別甄別出使用者或客戶在問什麼問題,然後我們再實時地在螢幕上告訴新的銷售,最優秀的銷售是怎麼回答這個問題的。過去沒有實時的語音識別的時候,你需要線下學,學完了之後上去用、很容易就忘了,但是有了這個系統之後,我們就可以解決這樣的問題。
我們來看一下這個案例。
【播放語音識別技術演示視訊】
大家看到,在剛才的過程中,百度大腦一直在實時地識別雙方的對話,尤其是從電話裡面傳出來的聲音,有的時候並不是那麼清晰,對於人來說要完全聽清楚每一個字其實都是有一定難度的,但百度大腦的語音識別能力已經可以做到非常精準,並且可以根據使用者的問題、實時推薦下一步的工作要怎樣應對,這是一個語音識別應用在企業日常運作中的一個例子,就像我剛才講的,應該還有很多很多應用場景,大家可以根據自己的背景去想象。
語音識別是一方面,語音合成又是另外一個方面。語音合成是什麼意思呢?就是機器可以把文字轉換成語音,把它念出來、讀出來。今天的語音合成也有了和過去非常不一樣的體驗,最主要的就是,它可以用比較自然的人的聲音讀出來,而不是像過去機器一樣,每一個字之間的停頓都是一樣長,是勻速的、沒有表情的。這樣的自然體驗,當然對於使用者的黏性來說也是有很大的作用。
現在,百度每天要響應2.5億次的語音合成請求,這些請求用來幹什麼呢?比如說,過去人們看小說,今天可以在手機百度裡面聽小說。慢慢的人們聽小說的時間也更長了,過去每個人平均在小說頻道會花大概四十分鐘左右的時間,現在要花將近兩個半小時,就是因為把計算機合成出來的語音讀出來給我們聽,確實是一個很不錯的體驗,甚至是一種享受。那麼這種讀出來的小說,和我們平時聽到的廣播有什麼本質上的不一樣?其實非常不一樣。廣播是每一個人聽到的東西是一模一樣的,而今天的語音合成,它可以做到每一個人聽到的東西都是不一樣的,完全根據你個人的需求進行定製,這就是為什麼它的***使用者***黏性會很高,它能夠具備自然發聲的能力。不僅如此,其實我們可以想象一下,它如果能夠模擬一個自然人的表達方式或發聲能力,它就可以模擬任何一個你喜歡的人的說話方式。
不知道有沒有人注意到,百度地圖裡導航功能就是用語音來進行的,其中有一個選項可以用我的聲音進行導航。其實導航的那些話我並沒有說過,機器只是根據我平時說話的情況合成了一個李彥巨集的聲音。這樣的聲音不僅在我身上可以做到,在很多其他人身上也可以做到。
我們現在來給大家展示一個合成的聲音。我們合成了一下13年前已經去世的張國榮的聲音,我們來放一段video。
【播放情感語音合成視訊】
為什麼給大家展示這個呢?一方面我知道,很多人是張國榮的粉絲,另一方面,其實合成張國榮的聲音比合成一般人的聲音要更難。為什麼呢?因為他的國語語料相對來說比較少,所以,我們能夠合成他的聲音,就一定能合成很多很多人的聲音。
對於百度來說,百度大腦的語音合成能力可以讓每個人都有自己的聲音模型,你只要按照我們的要求說50句話,我就學會了你說話的方式。當你擁有自己的合成聲音之後,比如說家裡的老人想經常聽你說一說,你把這個聲音合成出來讓他聽就好了。或者說你平時要加班,小孩睡覺之前想聽個故事,你合成自己的聲音給孩子講一遍這個故事,聽起來也會很親切。所以大家可以看到,這些語音的能力會帶來各種各樣新的可能性。
下面我給大家講一下影象。用一個比較專業的術語來講,我們叫做計算機視覺。這也是現在廣義的人工智慧中非常重要的領域。說到影象的識別,我想大家自然而然會反應出來一個什麼應用呢?應該就是我們通常講的人臉識別的應用。人臉識別的準確率今天已經達到了99.7%,已經非常非常準確了。現場的螢幕能夠識別出來我們一些嘉賓,根據他們的人臉,我們知道這個人是誰,這個準確率已經比較高了。剛才進來的時候,大家也可以看到一些人臉識別的展臺,我們是可以識別很多很多人的面孔的。
那麼,人臉識別這個技術是怎麼實現的?我們要對人臉的特徵提取它的關鍵點,把這些點打出來之後要做一些處理,把它連成一個面部表情,據此來識別這樣一個人。這就使得當一個人的表情發生變化的時候,我們仍然能夠識別出來這個特點是沒有發生變化的,比如他在哭,他在笑,他在憤怒,他在迷茫,他的表情是不一樣的,但是他的表情特徵是不變的,所以我們仍然可以很準確地識別出這樣一個人。
除了面部識別之外,影象識別還在很多領域也有應用。我們再看一個,這是上海的一個全景圖,大家使用百度地圖有時候需要看這樣一個景,到一個陌生的地方之前,想看看到那看到的樣子是什麼。當然,這個圖不是一個簡單的影象的採集,我們採集了影象之後要對影象中各種各樣的目標進行識別,這個大樓是什麼樣的大樓,那個路牌上面寫的什麼字,對寫的這個字識別的話,跟人臉識別還不太一樣,這裡面有一個特殊的影象識別的技術就是OCR,這個是二十多年前我們的一個專利,到今天它的準確率已經非常高了,下面我們也是用一段視訊給大家看一下百度地圖是如何利用影象識別的。
【播放百度地圖視訊】
這是百度地圖利用影象識別的情況,其實還有一個很重要的領域也是非常需要影象識別的技術,這個領域是什麼呢?這就是我們過去一年來講得比較多的無人駕駛汽車。無人駕駛汽車涉及到很多很多的技術,比如說我們需要計算機視覺的技術,需要高精度地圖,需要對環境的感知,需要定位,甚至需要語音的通話。但應該說,計算機視覺或者是影象識別的技術是“最後一公里”,無人駕駛汽車真的要變成沒有人,真的要能夠解決99.999%、甚至100%的情況,最終還是要依靠計算機視覺的能力,要識別各種各樣的極端的情況。
去年年底開始,我們給大家展示過百度的無人車在五環上跑,在高速上跑的情況,過去一年左右的時間我們也花了不少精力去提升我們在城市道路上運營的水平,下面我們也放一段視訊給大家看一下。
【播放無人車視訊】
大家看到左下角這是人能夠看到的視野,這個視野其實是比較窄的,主螢幕是無人車能夠看到的路面情況,大家可以感受到,它感知的範圍其實比人要寬了很多,很多比較遠的目標都可以感知到,每個目標都給出它唯一的編號進行識別。對面有什麼車過來了,遇到紅綠燈,遇到障礙怎麼辦,行人怎麼能識別出來,或者是樹木,周邊的汽車等等,每一個目標我們都進行了識別和編號,這就是實際的、一個百度無人駕駛汽車在城市道路中行駛的情況,上面的45是限速。
這是大致的一個車看到的世界是什麼樣的。這裡面涉及了很多計算機視覺或者是影象識別的技術,尤其是這兩個技術:一個是我們叫做車輛的檢測,你行駛過程中怎麼能夠知道旁邊有車輛,這個車輛在哪?這個車輛的檢測我們現在按照國際權威的評測來看,車輛檢測的能力,百度無人車已經排名第一了。還有一個很重要的能力是車輛跟蹤的能力。這個不僅是全自動的無人車,即使是對半自動的、高度自動駕駛來說,也是一個很基本的能力。你怎樣能夠準確地跟著前面的車走,這個技術在包括準確性、全面性、連續性等六項指標中,我們已經有四項拿到了第一。
這是無人車對於影象識別依賴的情況。我們再給大家展示一個領域,就是增強現實AR,AR其實也是非常依賴***影象識別***。拿著手機拍一下現實的情況,我們要能夠識別出來這是哪,這裡面有什麼,然後才能跟使用者進行互動,才能產生真實世界和一些虛擬世界的完美的結合。那麼這個東西有什麼應用呢?我們也覺得很高興我們的周總、我們的廣告主非常敏銳地把握到了這麼一個機會,他說OK,我可以把現實世界中我的產品和虛擬世界中我希望使用者感知的東西結合在一起,這樣的一個做法也可以說是一種新型的廣告形式,下面我們就來看一個具體的例子。這是我們跟歐萊雅中國合作的一個例子。我們放視訊。
【播放歐萊雅視訊】
所以大家看到無論你拿手機拍一張明信片,還是拍一個實物的洗髮水,它都可以準確地識別出來這個東西,和使用者進行互動,這裡面不僅有影象識別的技術,也很大程度上取決於廣告主的創意,如果創意和這個技術結合,對消費者的吸引力也非常大,所以我們也期待將來的時間和客戶很好地合作,把這個創意,把最優秀的想法和最優秀的技術結合起來,給消費者帶來實惠。
這是有關影象識別方面的幾個例子。下面我們再看自然語言處理。自然語言處理其實我剛才也講了,它的成熟程度應該不如語音,甚至不如影象識別,但是即使在目前的狀態下,它也能夠給大家帶來很多很多不一樣的體驗。最直接的例子應該是我們去年在百度世界大會上講的一個例子,就是度祕。度祕是一個個人智慧的助理。這個個人智慧助理今天我們可以在手機百度裡面找到,度祕跟使用者進行互動,現在已經有超過一半的互動是通過語音和影象來完成的,去年我們也講了,語音和影象將來會變成一個主流。
度祕除了它能夠識別語音和影象之外,其實它更關鍵、更核心的技術,是能夠用人的語言來與人進行交流,並且能夠理解人的很多意思和意圖,儘管不是每一次都能理解。
過去這段時間我們也利用度祕的自然語言的能力做了一個比較有意思的應用,用度祕來解說奧運籃球,下面我們看一下視訊。
【播放度祕與楊毅合作解說視訊】
這個不是度祕單獨完成的一次解說,是他和著名籃球評論員楊毅先生一起合作做的一次奧運籃球比賽的解說。今天我們也很高興把楊毅先生請到了現場,現在請他上臺。
【嘉賓楊毅登臺】
楊毅:大家上午好,我是楊毅。
Robin:剛才我們看到很有意思。你跟度祕一起解說了一場籃球的比賽,而且我也注意到你的風格和度祕的風格還是很不一樣的,我想問你一下,作為一個籃球評論員,你覺得一個好的解說員應該具備什麼樣的能力?
楊毅:首先我覺得很難說我有資格來講一個好的評論員要具備什麼樣的能力,我相信很多行業都在不斷地前進和發展。而且對一個解說員,即使他解說了一萬場比賽,但他下面面臨的一場比賽也是新的。但我想,總的來說,一個解說要想很好地工作,首先你要對這個專案有非常深刻的瞭解,無論對它的專案特點還是歷史背景,第二個要有非常快速的現場反應能力,第三個我覺得要有出眾的語言表達能力,把你看到的、聽到的,能夠儘快地呈現給觀眾或者是聽眾。
Robin:對,這些能力度祕都在不斷地學習過程中,還有很多不完美的地方,我也希望度祕能夠從你的身上學到很多很多東西。剛才我們看到你和度祕合作的這樣一次解說,它跟你學習了一次之後,我們想讓它單獨做一次籃球比賽的解說,現在我們看一下度祕解說籃球奧運決賽的情況。
【播放度祕解說奧運籃球決賽視訊】
Robin:ok,這是度祕單獨的解說,也想請楊毅先生評論一下你的學生表現怎麼樣?
楊毅:顯然度祕比之前和它一起說的時候完成得更好了。其實我跟它說的時候,它的表現就是出乎我的預料的,我也聽說它學習過上百場甚至上千場的比賽,它對比賽的基本知識儲備是沒問題的,在這個行業裡面,它可能比我知道得還多,因為幾年前的比賽我可能已經忘了,但是仍然裝在它的電腦裡。上知天文,下知地理,什麼都明白,它的表達也是比較清楚的,在我跟它說的時候,我覺得只有一個小小的問題,我覺得它說話的速度確實是好慢。但是大家剛才看到,它說決賽的時候能明顯感到語速加快了,更符合體育競技的特點,更快速地將現場的情緒傳達給觀眾。
Robin:對,我其實非常同意。剛才聽的時候我也有點著急,它說的語速是比較慢的。但是像你剛才講的,度祕也有它的優勢,比如它的記憶能力是比人強的,它學習了幾百場的奧運籃球比賽,每個運動員的個人資料它都記得非常清楚,遇到這些知識型的問題,它可以非常迅速地、方便地回答。另外我們看解說本身,使用者是可以跟度祕進行互動的,你點一下“雙方三分球的對比”,馬上就出來各種各樣的資料了,這是度祕的優勢。但是度祕的劣勢就是它對人的語言的理解和人的語言的創造能力還有很多需要學習的地方,我們也非常希望楊毅先生能夠多給我們度祕提一些建議和提升的地方,也希望我們下次再有機會合作時,它說話至少快一點。
楊毅:我覺得它下面的這些功能是非常好的。你可以想象一下,如果它成為一個成熟的產品,在每個球迷收看比賽的時候在家裡身邊沙發上都能擺一個小機器人,一邊看著電視裡的比賽,聽著電視裡的解說,當然它可能在電視裡解說;同時他身邊也有個度祕,可以不斷地就他所關心的問題問身邊這個小機器人,能夠隨時給他進行解答,就真正成為了球迷在收看比賽時候的好朋友。
Robin:我相信這一天一定會到來的!而且對於度祕來說,籃球和其他的比賽沒有任何區別,都是學習知識,它主要的能力還是不斷地學習人的思維方式和表達方式。
楊毅:我相信它肯定會越來越好。
Robin:謝謝楊毅。
【嘉賓楊毅下場】
Robin:這是有關自然語言理解的一些介紹,下面再給大家展示一個自然語言理解的應用。這個應用的領域其實也不是特別新,就是自動翻譯。你要想把一種語言轉換成另外一種語言,你必須得理解這種語言在說什麼。它不是簡單的把語音轉成文字,更多的是需要你知道它是什麼意思。今天的百度翻譯已經可以支援27種語言、數百種不同方向的對譯了。現在我們來看一下百度翻譯有多大程度上能夠理解人的自然語言。
【播放百度翻譯演示視訊】
Robin:這其實不是一個演示,這是一個實際的例子。今天當大家開啟百度翻譯,它已經具備了這樣的能力。所以我們看到對於自然語言的理解一旦能夠達到一定程度,它就又打開了很多新的可能性。
下面我們講百度大腦的第四個能力,就是使用者畫像的能力。使用者畫像也是基於百度的大資料以及機器學習的方式所獲得的一個能力。現在我們已經有接近10億的使用者畫像,其中對於他們的識別我們已經用到了千萬級的細分標籤。這些標籤主要在兩個維度上體現,一個是通用的維度,它的人口學特徵、短期的意圖、位置屬性;也有一些垂直行業的特徵,他在金融領域是什麼樣的情況,它在保險、醫療、旅遊、健康等領域都有什麼樣的愛好、習慣,這些東西都共同構成了我們的使用者畫像。
使用者畫像有什麼用途?首先給大家舉一個百度的例子。
最近幾個月大家可能注意到了手機百度,除了上面的搜尋框之外,下面增加了各種各樣的文章。這些文章有時候是新聞,有時候不見得是新聞,但是確實是你感興趣的東西。之所以它能夠把你感興趣的東西推薦出來,就是因為我們利用了百度的使用者畫像。我知道你是一個什麼人,你喜歡看什麼樣的東西。有了這樣的個性化推薦,過去兩個月手機百度推薦的文章的閱讀量增長了10倍,這種能力就是靠百度給使用者打了60多萬個標籤,而每個使用者都是這其中某些標籤組合後描畫出來的,所以它可以做到千人千面,準確地講,不是千人千面,而是萬人萬面,億人億面,每個人對於百度來說都是不一樣的個體。所以,每個人看到的資訊和文章都是不一樣的。
這是一個百度內部使用的例子,我們也認為使用者畫像可以在很多其他領域使用。我們再給大家展示一個外部的例子。這是6月份上映的電影《魔獸》,它的出品人是傳奇影業,他們就是利用了百度大腦的使用者畫像功能來提升它的票房。那麼它是怎麼做到的呢?我們也來看一個視訊。
【播放傳奇影業視訊】
這個做法很聰明,它把人群分成三類,一類人是不管怎麼樣都要看的,另外一類是不管怎麼樣都不會看的,這兩種人他們都不太關心。它關心的是它可以影響的人群,再通過使用者畫像把這些人從搖擺的轉換成真正去電影院看的。***原來***他認為如果有5%的票房提升就很滿意了,最後實際上提升超過了200%。當然這不是簡單的說百度你給我使用者畫像,它一用就實現了提升,他們也下了很大的功夫去設計整體的推廣過程。原版的video是比這個長很多的,大家有興趣可以***的工作人員,看它完整的做法是什麼樣的。
講到這裡,我基本上把百度大腦幾個主要的大功能都已經呈現出來了。
字清楚的環保手抄報格式樣板