時間:2021-10-09
2021世界機器人大會第一天線下主論壇——“領航峰會”群星璀璨,產(chǎn)、學、研各領域大咖齊聚首,共話巔峰,為機器人未來發(fā)展領航。
峰會現(xiàn)場,中國科學院院士、清華大學人工智能研究院院長張鈸上臺發(fā)言,演講主題為《人工智能與機器人》。以下為張鈸院長演講內(nèi)容全文整理。
大家好,我主要是搞人工智能的,二十多年前也搞過機器人,所以今天是從人工智能的角度談機器人的問題,主要包括幾個方面:機器人和人工智能的關系,也就是機器人應該如何定位,如何擴大機器人的應用場景,現(xiàn)在機器人要發(fā)展和產(chǎn)業(yè)化,最關鍵的問題就是如何擴大應用場景,最后就是如何從結(jié)構(gòu)化環(huán)境走向非結(jié)構(gòu)化環(huán)境,人工智能會在其中起到什么作用。
可能大家對人工智能都比較感興趣,但大多數(shù)人對人工智能有很多誤解。人工智能究竟是干什么的?很多人都以為人工智能是用來模擬人類的智能,這個理解是錯的,因為我們對什么叫做人類的智能是說不清楚的,我們連智能都定義都不清楚,怎么可能利用智能定義人工智能?所以人工智能不是用機器模擬人類的智能,而是用機器來模擬人類的智能行為。
大家注意這里多了兩個字,模擬智能和模擬智能行為是完全不同的。舉個例子,我們沒法模擬人類的情感,因為我們不知道怎么定義,什么叫做快樂、什么叫做痛苦,快樂和痛苦在人類大腦和心理發(fā)生什么變化,到今天為止我們還不是很清楚,在這種情況下,我們不可能用機器模擬人類的痛苦和快樂,那我們用機器模擬人類的感情,模擬什么呢?模擬感情的表現(xiàn),痛苦和高興地表現(xiàn)自己的行為。大家知道情感主要是從三個方面表現(xiàn):臉部表情,你高興得眉開眼笑,還有語言和聲音,高興得哈哈大笑,肢體動作,高興得手舞足蹈。
我們從人類的面部表情、語言、發(fā)表的言論和動作判定你對這個事情的態(tài)度,這是情感分析,究竟是贊成還是反對,所以應該說人工智能是用機器模擬人類的以下四個方面的智能行為,理性行為包括感知和動作,此外還有情感和靈感等等。人工智能就是要模擬人類的這樣四個智能行為,那么大家肯定知道機器人和這個很相似。我們要做出一個機器,它的表現(xiàn)跟人相似,至于機器腦子里是不是這么想的,這不是人工智能現(xiàn)在要回答的問題,而是由心理學家和腦科學家逐步回答的問題。
但在這里有一個區(qū)別,機器人做的是機器,人工智能做的是智能體,就是用Agent來描述它,而不是智能機器,為什么?因為人工智能不光要做機器,還要做軟件、做器件,包括智能芯片,所以用智能體概括人工智能不僅要做硬件、做機器,還要做軟件、做系統(tǒng)、做元器件,這一點是和機器人有所區(qū)別的。
應該怎么定義機器人?我專門找了網(wǎng)上的定義,這里有非常不同的層次,最低的層次就是看成一個數(shù)字化設備,操作手可以通過程序控制,這是最低的層次,最高的層次幾乎跟人工智能一樣定義,具有認知、感知和情感的機器。實際上對機器人的理解寬度很大,最底層就是可編程的機器,最高層就是有各種各樣的智能的機器,我們在現(xiàn)階段應該怎樣看待機器人?我的看法是對機器人的認識是逐步的,也有一個發(fā)展的過程,大多數(shù)人認為機器人應該這樣定義,包括三大部分:感覺或者感知,可能通常做不到感知,只能做到感覺,后面就是操作器、消音器等等,中間的部分目前主要還是集中在控制、編程這些領域,智能的成分要逐步增加。
之前參加前幾屆的時候提出的是智能機器人,所以我們設計了五個部分:機構(gòu)、控制、傳感器、視覺和人工智能,我是負責人工智能的,那個時候最主要的任務是在機構(gòu)和控制,雖然我負責人工智能,但我?guī)缀鯖]法布置人工智能項目,當時我布置的人工智能項目主要是兩個內(nèi)容:機器人的運動規(guī)劃和任務規(guī)劃,所以當時只是一個參與研究,根本入不了機器人主題的主要部分,但前年我到以色列碰到以色列的教授辦的一個公司,專門做機器人的任意規(guī)劃和運動,所以我們可以認識人工智能是不斷地、逐漸地深入到機器人,不是一步到位的。
人工智能怎么介入機器人的發(fā)展過程?機器人和人工智能有很多重疊的地方,但我覺得機器人更要面向任務、面向應用。我們來看機器人和人的整個發(fā)展過程,可以看到中間有沒有交集,現(xiàn)代機器人的發(fā)展差不多也是上個世紀五十年代,跟人工智能差不多的時候,人工智能是1956年,機器人大致也是這樣,但我們可以看一看兩個發(fā)展的進程非常不一樣。機器人基本上是平穩(wěn)發(fā)展,起伏不大,人工智能是起伏極大,一會兒高興一會兒低潮,那么人工智能在機器人今后的發(fā)展中會起到什么作用?
最初開始機器人是在美國實驗室做的,六十年代主要是這兩個體系:比如斯坦福的機器人機械臂,工業(yè)機器人還沒有出來,就是叫做Manipulator操作手,另外就是這樣一個車,差不多六十年代的時候就是這兩個實驗,這是現(xiàn)代機器人的兩個雛形,一個就是機械臂的發(fā)展,一個就是移動機器人的發(fā)展。
機器人產(chǎn)業(yè)派出了兩個分支:一個是以多關節(jié)機械手為代表,最早用于制造業(yè),后來就是千方百計地希望用到其它領域,有的是建筑用的,有的是電線用的,就是機器人巡檢和建筑,大家應該認識到,那個時候叫做特種機器人,這是一條發(fā)展的路徑,大家可以看出走得還是很艱難的,不是機械臂那樣一下子形成大市場,那么問題在哪里?
首先是安全性,我們?nèi)绻饕性诳刂频脑?,比如醫(yī)療機器人、手術機器人,也是類似機械臂那樣,但對安全性的要求有多高?國內(nèi)也有很多大型醫(yī)院購買達芬奇機器人,最早的時候是1000萬美金,現(xiàn)在變成1000-2000萬人民幣,已經(jīng)做了兩三百萬次手術,因為機器人故障死了80個人,今后還會死人的,主要就是因為控制出毛病,或者漏電或者控制系統(tǒng)有問題,我們要將機器人變成產(chǎn)業(yè),而且還要求既廉價又可靠,這對產(chǎn)業(yè)來講是最大的困難,要是高質(zhì)量廉價我們會干,但又廉價又可靠很難,需要大家下功夫。故障的主要原因還是機構(gòu)和控制,這跟人工智能沒關系。
剛才講到可靠性,另外就是應用場景,我們要為機器人選擇一個好的應用場景不是很容易的,最近做的機器人主要就是教育、小型裝備這些領域,基本上可以做到年產(chǎn)量1萬臺,這在中國還算是不小的了,而且大部分是出口,其實是改變了應用場景,因為原來一個傳統(tǒng)的制造業(yè),特別是大型高精度高速,我們肯定不如國外,改變應用場景以后完全可以自主生產(chǎn),所以這也是一個非常好的例子,國家也很重視,目前出口還是占了很大比例,所以我們要做傳統(tǒng)機器人,擴大應用場景,這本身就是一個非常大的創(chuàng)新。
現(xiàn)代工業(yè)機器人是美國人發(fā)明的,日本人買去專利,把它發(fā)展成為產(chǎn)業(yè),這是非常了不起的,特別是和汽車制造業(yè)結(jié)合起來,才能使得機械臂變成一個產(chǎn)業(yè),美國人沒有把它變成產(chǎn)業(yè)。
另外一條路就和移動機器人類似,現(xiàn)在用的比較多的就是倉庫里面,包括無人機、水下機器人,為什么機器人在這些領域得到應用,其它領域卻比較困難?就是我們下面要講的最重要的問題,如何突破從結(jié)構(gòu)化到非結(jié)構(gòu)化的環(huán)境?這就需要人工智能,下面我用幾個例子說明。
機械臂最早的PUMA就是多關節(jié),之后變成工業(yè)機器人,七十年代到八十年代就是這些,現(xiàn)在要把它推廣到一個相對非結(jié)構(gòu)化的環(huán)境,所謂機械臂的非結(jié)構(gòu)化環(huán)境就是有人參與,最近提出了協(xié)作機器人這個概念,意思就是過去機器人肯定可以分開,大的機械臂在那里必須用鐵柵欄圍起來,否則不安全,現(xiàn)在能夠和人交互,環(huán)境就已經(jīng)變成非結(jié)構(gòu)化了。
要想解決非結(jié)構(gòu)化環(huán)境的問題,必須把感知和動作結(jié)合起來,你們要做的動作是把感知和動作連接起來,因為搞機器人的人對反饋的概念非常清楚,因為這里必須要用反饋,但人工智能缺少反饋的概念,所有搞計算機的人都缺少這個概念,因為研究的東西都是開放的算法,所以我覺得可以是人工智能和機器人結(jié)合是非常重要的點,而且你們可以做好。
協(xié)作機器人原來是美國Brook教授做的,可以柔順控制,不會碰到周圍的事物,如果碰到的話馬上速度就會降下來,但始終形不成產(chǎn)業(yè)。最近我們國家把這項專利買下來了,就是我們有沒有可能把它發(fā)展成為一個產(chǎn)業(yè),因為可以用在非結(jié)構(gòu)化的環(huán)境下,所以對我們來講這也是一個考驗。我國有沒有可能干成這件事?我覺得有可能,因為有很大的需求,只有在有需求的情況下才能找到應用場景。
過去我們也做過不少移動機器人,基本上從美國開始,中國早期也是集中在搞越野的,慢慢地越野的任務就轉(zhuǎn)向軍方和自動駕駛車輛,目前來講全世界都非常重視,就是走向自動駕駛是必然的道路,大家可能也知道這一點。
自動駕駛最重要的就是感知部分,也就是說汽車必須可以感知周圍的環(huán)境,這里涉及的問題就比較多了,傳感技術的問題,這些當然還是屬于機械手,移動機器人主要是視覺傳感器,包括多模態(tài),我們用攝像機或者其它標志感知周圍環(huán)境,這在人工智能看來就是深度學習,我們現(xiàn)在就要說這個技術可不可靠。我們用攝像機識別周圍的行人車輛,人工智能基本上可以做到這些,無論是圖像、語音還是文本都是用所謂的深度神經(jīng)網(wǎng)絡來學習。
大家都知道深度學習采用模式識別、人臉識別、圖像識別,原來誤識別率是50%,現(xiàn)在深度學習一下子降到3.57%,但我可以告訴大家,這個算法是非常有問題的,存在事故,不安全、不可靠、不可信、不宜推廣,這是信息時代我們沒有遇到過的問題,往往是設計大型軟件時的漏洞造成的,我在很多場合下都說無人駕駛一定要非常慎重,可能在倉庫人少的地方可以,但人流復雜的情況下要非常慎重。
圖中的廣告是噪聲,把這種廣告放在車的后艙,廣告只是噪聲不同,人看起來是一樣的,但上面的那個車計算機識別系統(tǒng)可以看到,以下的車計算機看不見,或者完全看錯了,這是計算機視覺的脆弱性,也可以說是計算機視覺算法的不安全性。
如果這種不安全性不消除,大家想一想會出多大的事故?為什么人工智能會出現(xiàn)這種波動?就是由于產(chǎn)生方法以后,這種方法本身往往帶來另外的問題。
人工智能現(xiàn)有的方法只能處理結(jié)構(gòu)化環(huán)境下的問題,非結(jié)構(gòu)化環(huán)境下的問題,人工智能有待提高,所以我們提出第三代人工智能就是要解決非結(jié)構(gòu)環(huán)境下的感知問題。怎么解決這些問題?過去我們做人工智能的時候主要是靠知識、算法和算力,進入數(shù)據(jù)驅(qū)動時代以后主要靠的是數(shù)據(jù)、算法和算力,光是指定數(shù)據(jù)、算法和算力做出來的系統(tǒng)肯定是不安全的,怎么解決安全問題?我們的辦法就是充分地利用知識和數(shù)據(jù)、算法和算力。
大家可以看到自動駕駛從L3、L4走到L5,我們必須要解決計算機視覺不安全性的問題,現(xiàn)在世界各國都在這樣做,因為自動駕駛肯定要做未來汽車四個輪子上的超級計算機,換句話說就是用很少的錢買它的車,用大量的錢買上面的計算機設備,傳感器、攝像頭和激光掃描儀,所以很多公司都在做這些,包括特斯拉、Google和通用汽車。
我們現(xiàn)在是用大數(shù)據(jù)的方法對圖像進行分割和識別,然后建模規(guī)劃,現(xiàn)在完全可以做到實時,比如地平線上做的芯片是把算法做到芯片里面,識別和劃分都沒有問題,這樣的話車還能不能開?我們說不能開,主要是兩個原因:視覺是不可靠的,有的東西是看不清楚的,最大的問題就是如果這個系統(tǒng)有人的話就會變成非常復雜的系統(tǒng),大家知道交通的人有兩種:一種是駕駛員,一種是行人,這兩種人都在有意無意地破壞交通規(guī)則,不光是中國人會破壞交通規(guī)則,外國人一樣會破壞交通規(guī)則,大家開車的時候有沒有違反過交通規(guī)則?我自己就違反過,慢速的情況下兩個車的車距應該是多少?15米,你在北京試試看,兩個車距離15米,你這個車還能開得動嗎?假設稍微有點空就被加塞,根本沒有辦法往前開,所以必須考慮實際,在這種情況下不可能所有人都按照規(guī)則來走,而且還會出現(xiàn)更多更復雜的情況,這種情況計算機就沒法處理。
怎么解決這些問題?實際上非常簡單,人工智能里面有與環(huán)境交互的學習,現(xiàn)在的做法是所有車都在那里做實驗,大家經(jīng)常說美國人已經(jīng)給自動駕駛發(fā)執(zhí)照了,可以上路去開了,其實這是錯誤的,只是可以上路去試,美國人是在什么地方試?是在恭凡城的郊區(qū),中國是在開發(fā)區(qū),所以大家不要以為這個問題已經(jīng)完全解決了,那么請大家注意,如果我們開幾十萬邁就會積累大量的經(jīng)驗,就會暴露很多計算機看不到的錯誤的地方,加上知識和經(jīng)驗完全自動駕駛是可以做到的。
我想給大家傳達的就是這條信息,機器人往前發(fā)展的時候,人工智能會在某個地方和你有交集,我們可以和人工智能共同合作研究做到這一點。