在大會(huì)上,南京大學(xué)計(jì)算機(jī)系教授、歐洲科學(xué)院外籍院士周志華回顧了人工智能的發(fā)展以及機(jī)器學(xué)習(xí)興起的由來,并介紹了“學(xué)件”的思路。周志華教授稱,經(jīng)過人工智能發(fā)展的第一個(gè)階段即上世紀(jì)六十年代,機(jī)器所具有的推理能力就已經(jīng)達(dá)到了人類的巔峰水平,之后人工智能相繼進(jìn)入知識(shí)工程和機(jī)器學(xué)習(xí)階段。在大數(shù)據(jù)時(shí)代,機(jī)器學(xué)習(xí)得到了長足的發(fā)展,直接導(dǎo)致了今天的人工智能熱潮。但技術(shù)上仍存在諸多局限,為此,周志華教授提出了“學(xué)件”(Learnware)的概念,期望經(jīng)過10到15年的探索以后進(jìn)入一個(gè)新局面。
周志華教授在現(xiàn)場還列舉了一組數(shù)據(jù),在今年的IJCAI大會(huì)上,中國本土相關(guān)研究論文數(shù)錄用數(shù)量首次超過了美國,占到了差不多全世界三分之一,其中北京占約30%,江蘇省占14%,居全國前兩位。周志華教授認(rèn)為,江蘇有國內(nèi)前列的人工智能研究實(shí)力,同時(shí)有國內(nèi)前列的人工智能產(chǎn)業(yè)基礎(chǔ)。“在國內(nèi)的各個(gè)省份里面,同時(shí)具有這兩個(gè)條件的地方并不是很多。”
我本人是從事人工智能方面研究的。經(jīng)常有人問,“比人類更聰明的人工智能什么時(shí)候能夠出現(xiàn)?”,這樣的問題對我們來說非常難回答,這是為什么呢?因?yàn)檎劦饺斯ぶ悄埽鋵?shí)可以說有兩種完全不同的觀點(diǎn),或者說差別非常大的觀點(diǎn)。
第一種我們把它叫做“強(qiáng)人工智能”。目的是希望研制出和人一樣聰明、甚至比人更聰明的機(jī)器;另外一種是“弱人工智能”,主要目的是覺得我們?nèi)俗鍪碌臅r(shí)候很聰明,那么能不能向人借鑒一下,讓機(jī)器做事的時(shí)候更聰明。實(shí)際上在人工智能科學(xué)界,大家探索的主要是在第二個(gè)方面。
有一個(gè)或許更容易理解的類比:一百多年前,人們看到天上鳥在飛,然后大家就想那我們能不能做一個(gè)東西飛起來。后來經(jīng)過空氣動(dòng)力學(xué)研究,現(xiàn)在我們有了很好的飛機(jī)。但是如果現(xiàn)在問:這個(gè)飛機(jī)到底有沒有比鳥飛得更好?這個(gè)問題可能就很難說了,因?yàn)轱w機(jī)雖然飛得比鳥更遠(yuǎn)更高,但是未必有鳥飛得靈活。但不管怎么樣,我們原來的目的已經(jīng)達(dá)到了,我們已經(jīng)有能夠幫我們飛起來的工具。
人工智能做的事情和這件事情非常的相似,就是我們看到有很多智能行為,希望借鑒這些東西做出一些工具,能夠幫助我們做更強(qiáng)大的事情,實(shí)際上這就是我們真正在研究人工智能的時(shí)候所主要考慮的內(nèi)容。所以人工智能研究的主要目的并不是“人造智能”,而是“intelligence-inspired computing”,智能啟發(fā)的計(jì)算。
搞人工智能的人到底在做什么呢?今天我們一般說人工智能作為一門學(xué)科誕生在1956年,那時(shí)候計(jì)算機(jī)的能力還非常弱,但已經(jīng)有很多的學(xué)者在想,那么這樣計(jì)算能力發(fā)展下去,我們是不是可以做一些更復(fù)雜的事情,那么這些事情到底是什么呢?在那年夏天在達(dá)特茅斯學(xué)院開了這么一個(gè)會(huì)議,在這個(gè)會(huì)議上后來被稱為人工智能之父的約翰·麥卡錫,為這個(gè)學(xué)科就起了一個(gè)名字叫做人工智能。
經(jīng)過了60多年歷史,如果從主流研究內(nèi)容來看,人工智能的發(fā)展大概經(jīng)歷這么三個(gè)階段:
第一個(gè)階段大概是在50年代中期到60年代,這個(gè)階段主要是在做邏輯推理。這是為什么呢?大概因?yàn)槲覀兝砉た频亩紝?shù)學(xué)家有一種自然的崇拜,覺得數(shù)學(xué)家非常聰明,能夠證明一些非常復(fù)雜的定理,那這個(gè)背后的能力就是邏輯推理能力。所以在那個(gè)時(shí)候大家就想,如果我們能夠把邏輯推理能力賦予計(jì)算機(jī)系統(tǒng),那么這個(gè)機(jī)器做事情就會(huì)聰明起來,所以那個(gè)時(shí)候有很多很重要的研究結(jié)果,例如圖靈獎(jiǎng)得主西蒙和紐厄爾研制出來的“邏輯理論家”程序就是一個(gè)典型代表。
那么這樣的研究成果達(dá)到了什么樣的水平呢?在上個(gè)世紀(jì)有兩位偉大的邏輯學(xué)家羅素和懷特海,他們寫了一本書叫做《數(shù)學(xué)原理》,用邏輯把整個(gè)數(shù)學(xué)系統(tǒng)建構(gòu)起來。為了證明這本書里面的定理,他們花了十年時(shí)間,而這個(gè)程序證明這所有的定理只用了不到兩個(gè)月的時(shí)間,而且其中有一條定理的證明比這兩位偉大的邏輯學(xué)家證明出來的還要巧妙,更加簡短、更加容易讀懂。所以我們可以看到,在上個(gè)世紀(jì)60年代,機(jī)器所具有的推理能力就已經(jīng)達(dá)到了人類的巔峰水平。
但那個(gè)時(shí)候機(jī)器做事情并沒有真的變得很聰明,所以大家慢慢地就意識(shí)到其實(shí)光有邏輯推理能力是不夠的,即便是數(shù)學(xué)家,為了證明數(shù)學(xué)定理除了要有邏輯推理能力,還要有數(shù)學(xué)知識(shí)。所以人工智能的研究很自然的就進(jìn)入了第二個(gè)階段,在這個(gè)階段大家就想的是我們能不能把知識(shí)總結(jié)出來教給計(jì)算機(jī)系統(tǒng),所以這就進(jìn)入了我們所謂的一個(gè)“知識(shí)工程”時(shí)期,這里面的代表人物例如后來的圖靈獎(jiǎng)得主,被稱為知識(shí)工程之父的愛德華·費(fèi)根鮑姆。在這個(gè)階段大家主要做的事情就是希望把人類專家解決問題的知識(shí)總結(jié)出來,比如說,“如果看到巖石里面滲出紅色,那么這個(gè)里面很可能是鐵礦”,把這樣的知識(shí)總結(jié)出來,然后編程放到計(jì)算機(jī)系統(tǒng)里面,由此就產(chǎn)生出很多“專家系統(tǒng)”,確實(shí)解決了很多應(yīng)用問題。
但是后來慢慢的大家就發(fā)現(xiàn),要把知識(shí)總結(jié)出來再交給系統(tǒng)非常的困難。一方面有時(shí)候我們?nèi)祟悓<夷軌蚪鉀Q一些問題,但是這個(gè)知識(shí)是什么可能說不清楚。有的人類專家可能還不太愿意分享他的知識(shí)。然后大家就想那么這時(shí)候我們該怎么辦?因?yàn)槲覀兊娜说闹R(shí)其實(shí)主要是靠學(xué)來的,所以先驅(qū)們很自然地就想到那么我們能不能讓機(jī)器自動(dòng)的去學(xué)知識(shí),所以從20世紀(jì)90年代開始,人工智能的主流研究就進(jìn)入到第三個(gè)階段,這個(gè)階段一直持續(xù)到今天,就是我們的機(jī)器學(xué)習(xí)階段。
所以我們可以看到機(jī)器學(xué)習(xí)最早誕生出來,它是為了解決知識(shí)獲取這么一個(gè)瓶頸而出現(xiàn)的。機(jī)器學(xué)習(xí)的經(jīng)典定義是“利用經(jīng)驗(yàn)改善系統(tǒng)自身的能力”。不論什么樣的經(jīng)驗(yàn),一旦放在計(jì)算機(jī)系統(tǒng)中,它必然是以數(shù)據(jù)的形式存在的,所以機(jī)器學(xué)習(xí)要研究怎么去利用經(jīng)驗(yàn),他就必須要對數(shù)據(jù)進(jìn)行分析,所以這個(gè)領(lǐng)域發(fā)展到今天,實(shí)際上主要研究的是怎么樣利用計(jì)算機(jī)來對數(shù)據(jù)進(jìn)行分析的理論和方法。
我們可以看到,其實(shí)機(jī)器學(xué)習(xí)走上歷史舞臺(tái)是因?yàn)橐鉀Q知識(shí)獲取的瓶頸,但恰恰在20世紀(jì)末,我們?nèi)祟惏l(fā)現(xiàn)自己淹沒在一個(gè)數(shù)據(jù)的海洋里面,我們需要對數(shù)據(jù)分析,我們需要這樣的技術(shù),而機(jī)器學(xué)習(xí)恰恰在這個(gè)時(shí)候走上舞臺(tái)了,所以給我們提供了這個(gè)機(jī)會(huì),我們對他的需求就迫切的高漲。
今天我們都說是在“大數(shù)據(jù)時(shí)代”,但其實(shí)光有大數(shù)據(jù)并不意味著得到了價(jià)值。大數(shù)據(jù)就好比是一個(gè)礦山,我們擁有了礦山,如果要得到里面的價(jià)值,必須要有很強(qiáng)大的數(shù)據(jù)分析技術(shù),而這個(gè)數(shù)據(jù)分析技術(shù)是什么呢?今天我們主要就是要靠機(jī)器學(xué)習(xí)。所以在大數(shù)據(jù)時(shí)代要讓數(shù)據(jù)發(fā)揮作用,就離不開機(jī)器學(xué)習(xí)技術(shù)。所以可以看到,機(jī)器學(xué)習(xí)已經(jīng)可以說是無處不在了,不管是互聯(lián)網(wǎng)搜索還是人臉識(shí)別,還是汽車自動(dòng)駕駛,還是火星機(jī)器人包括美國總統(tǒng)大選甚至軍隊(duì)的戰(zhàn)場數(shù)據(jù)情況分析,任何地方只要你有數(shù)據(jù)只要你希望用計(jì)算機(jī)來幫助你做數(shù)據(jù)的分析,你就可能使用機(jī)器學(xué)習(xí)技術(shù)。可以說今天我們在這里有這個(gè)論壇,是因?yàn)槿斯ぶ悄墁F(xiàn)在很熱,而人工智能有這個(gè)熱潮,其實(shí)恰恰就是因?yàn)闄C(jī)器學(xué)習(xí),尤其是里面的深度學(xué)習(xí)技術(shù)在過去十來年里面取得了巨大的發(fā)展,在大數(shù)據(jù)時(shí)代發(fā)揮了巨大的作用。
我們現(xiàn)在有很多的問題,有很多的企業(yè)是基于深度學(xué)習(xí)技術(shù)來做的,它可以解決很多問題,但是大家要注意到深度學(xué)習(xí)、機(jī)器學(xué)習(xí)、人工智能這三者之間的關(guān)系:深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的一個(gè)分支,而機(jī)器學(xué)習(xí)又是人工智能的核心領(lǐng)域,但它并非人工智能技術(shù)的全部。深度學(xué)習(xí)雖然取得了巨大成功,但并不能夠包打天下,還有很多其他的機(jī)器學(xué)習(xí)技術(shù)在很多方面在發(fā)揮作用。
關(guān)于機(jī)器學(xué)習(xí)下一步發(fā)展的看法,下面談?wù)勎覀€(gè)人的一些粗淺的思考,這些看法很可能是錯(cuò)的,僅供大家批評參考。
我們今天談到機(jī)器學(xué)習(xí)的時(shí)候,很多對機(jī)器學(xué)習(xí)熟悉的人會(huì)想到什么呢?可能有些人想到的是算法,有些人想到的是數(shù)據(jù)。我們可以說,今天的機(jī)器學(xué)習(xí)就是以“算法加數(shù)據(jù)”這么一種形態(tài)存在的。在這種形態(tài)下,我們的技術(shù)上存在哪些技術(shù)局限?我來列舉一些。
首先,我們可能需要大量的訓(xùn)練樣本。大家可能說今天我們是大數(shù)據(jù)時(shí)代,那么大量的訓(xùn)練樣本這件事情可能已經(jīng)不再是問題,其實(shí)這里面有幾個(gè)典型的情況能夠告訴我們,這其實(shí)還是一個(gè)很大的問題。
首先在有些應(yīng)用里邊,可能我們的樣本總量很少,比如說我們在做油田定位的時(shí)候,那這個(gè)數(shù)據(jù)必須通過人工誘發(fā)地震才能獲得,所以你要獲得這樣的數(shù)據(jù)成本是非常高的,不可能有大量的數(shù)據(jù)去用;
第二種情況是數(shù)據(jù)可能很多,但是我們真正關(guān)心的很少,比如說我們在做銀行的這種欺詐檢測的時(shí)候,每天一個(gè)銀行的信用卡交易數(shù)據(jù)可能有幾百萬上千萬,但是其中真正的信用卡欺詐的數(shù)據(jù)可能很少;
還有一種情況,我們數(shù)據(jù)的總量很多,但是我們已經(jīng)標(biāo)注了結(jié)果的東西很少,比如說我們要做軟件的缺陷檢測,我們有大量的程序代碼,但是程序代碼里面真正把缺陷標(biāo)記出來的,這樣的數(shù)據(jù)是非常少的;
第二,我們今天訓(xùn)練好了一個(gè)機(jī)器學(xué)習(xí)模型,之后環(huán)境如果稍微發(fā)生變化,就可能導(dǎo)致這個(gè)模型失效,至少是大幅度降低它的性能。比如說在我們一個(gè)傳感器的世界里面,我們放出去一百個(gè)傳感器,一個(gè)月之后有60個(gè)傳感器失效了,這時(shí)候我新部署60個(gè)傳感器,那你說我還是一百個(gè),那我原來的模型能不能用呢?很抱歉,這時(shí)候模型的性能會(huì)大幅度衰減,因?yàn)槟愫茈y把新的傳感器放到原來的位置,它發(fā)出來的信號(hào)質(zhì)量和強(qiáng)度和原來也會(huì)有很大的變化,這時(shí)候我們的模型可能就已經(jīng)很難適應(yīng)了,所以這又是一個(gè)很重要的問題。
第三個(gè)問題很多人都知道,今天的機(jī)器學(xué)習(xí)系統(tǒng)絕大多數(shù)都是黑箱,我們能做出預(yù)測,甚至是非常精確的預(yù)測,但是我們很難解釋為什么做出這樣的預(yù)測,這就會(huì)導(dǎo)致這樣的系統(tǒng)在一些高風(fēng)險(xiǎn)應(yīng)用里面很難使用,比如說我們要做地震預(yù)報(bào),我們說明天要地震,請大家撤離。領(lǐng)導(dǎo)肯定會(huì)問那你憑什么做出這樣的決策?如果這個(gè)模型是黑箱,他只能告訴你,我就告訴你肯定是這樣,具體什么理由我也不知道,如果是這樣的話,誰也不知道是不是瞎蒙的,那這件事情肯定不太容易采納這個(gè)建議。
這其實(shí)還有很多別的問題,比如說今天我們在使用機(jī)器學(xué)習(xí)技術(shù)的時(shí)候,即使對同樣的數(shù)據(jù),普通用戶所能得到的結(jié)果和專家所能得到的結(jié)果,這中間的差別可能非常的大,怎么樣使用這個(gè)數(shù)據(jù)怎么樣使用這個(gè)模型,大家的知識(shí)和經(jīng)驗(yàn)的差別會(huì)導(dǎo)致結(jié)果模型巨大的差異。
此外還有一個(gè)問題可能提到的人比較少,我舉一個(gè)例子,比如說我們現(xiàn)在有大醫(yī)院,他有很多的病例數(shù)據(jù),如果我們現(xiàn)在要做智慧醫(yī)療,那他基于這些數(shù)據(jù)可能做出非常好的診斷系統(tǒng)。而我們的社區(qū)醫(yī)院的病例數(shù)據(jù)可能比較少,直接基于它的數(shù)據(jù)很難做出這樣好的模型,現(xiàn)在社區(qū)醫(yī)院說你這個(gè)大醫(yī)院能不能幫幫我?大醫(yī)院說我很愿意幫你,但是這件事情就算它愿意幫這個(gè)忙,可能也很難幫得上,因?yàn)橐坏┧窒硭牟±龜?shù)據(jù),馬上就會(huì)涉及到數(shù)據(jù)隱私、數(shù)據(jù)所有權(quán)、數(shù)據(jù)保護(hù)等等的問題,所以這里面有一個(gè)數(shù)據(jù)分享的墻。
還有很多其他問題。對于幾個(gè)每個(gè)方面,今天我們都有研究者在做相關(guān)的探索,但是如果把所有這些方面割裂的一個(gè)一個(gè)的去解決,可能就很難擺脫頭疼醫(yī)頭、腳疼醫(yī)腳這樣的一種現(xiàn)狀。所以我們就想,有沒有可能在一個(gè)整體性的框架之下全面的去考慮這些問題。最近我們提出了一個(gè)想法,我們它叫做學(xué)件(Learnware)。這是個(gè)什么樣的想法呢?很多人可能在自己的機(jī)器學(xué)習(xí)的應(yīng)用中已經(jīng)建立了很好的模型,他們也很愿意把這些模型分享出去。那假設(shè)我們有一個(gè)市場讓大家來分享這些模型,以后一個(gè)新用戶想要做他自己的機(jī)器學(xué)習(xí)應(yīng)用時(shí),就不用自己從頭去建模型,而是可以先到“學(xué)件”市場上找一找有沒有合適的,可以拿來用做基礎(chǔ)。
比如說,用戶要找一把切肉刀,那他肯定不會(huì)自己從采礦打鐵開始重新造一把刀,而是先看看市場上有沒有這樣的刀,如果有合適的更好,即便沒有合適的,比如說找到一把西瓜刀,那他就可以拿回去然后用自己的數(shù)據(jù)重新“打磨”一下,可能這就成為很適用的工具了。所以,這個(gè)想法的關(guān)鍵是希望能夠部分重用他人的結(jié)果,而不必“從頭開始”。
為了達(dá)到這個(gè)目的,我們設(shè)想的學(xué)件是由兩部分組成,一部分是模型(Model),另一部分是用于描述這個(gè)模型的規(guī)約(Specification)。模型需要有滿足三個(gè)重要的要求:可重用性、可演進(jìn)性、可了解性,規(guī)約要能夠給模型提供足夠的描述。這些在技術(shù)上現(xiàn)在大概都有一些初步的想法和探索,今天就不展開了。如果學(xué)件真能成為現(xiàn)實(shí)的話,可能我們剛才提到的這些問題都可以得到全面的解決。我們期望也許經(jīng)過10到15年的探索以后,也許我們機(jī)器學(xué)習(xí)可以從“算法加數(shù)據(jù)”這種形態(tài)過渡到未來的這么一種學(xué)件的形態(tài)。
最后,因?yàn)槲医裉焓谴斫K省人工智能學(xué)會(huì),用兩分鐘談?wù)勎覀兘K省的人工智能事業(yè)。我們可以做兩個(gè)判斷,江蘇省有國內(nèi)前列的人工智能研究實(shí)力,還有國內(nèi)前列的人工智能產(chǎn)業(yè)基礎(chǔ)。在國內(nèi)的各個(gè)省市里面,同時(shí)具備這兩個(gè)條件的地方并不多。
下面給大家看幾個(gè)數(shù)據(jù),是關(guān)于人工智能研究力方面的一點(diǎn)反映。在2017年的國際人工智能領(lǐng)域的頂級會(huì)議IJCAI上,我們中國本土單位的錄用論文數(shù)首次超過了美國,這個(gè)里面各個(gè)省區(qū)的分布,北京大概占30%。江蘇省14%,居第一和第二位。我們再看看過去這幾年發(fā)展增長的速度,中國計(jì)算機(jī)學(xué)會(huì)人工智能大會(huì)在2013年的時(shí)候,北京錄用論文是江蘇省的兩倍多,2017年江蘇是北京的兩倍,這在一定程度上反映出過去這么幾年的時(shí)間里面,江蘇的人工智能基礎(chǔ)人才發(fā)展可能有一個(gè)快速的增長。江蘇省人工智能學(xué)會(huì)8月28號(hào)在省科協(xié)指導(dǎo)下成立,得到了省科技廳、經(jīng)信委、民政廳等很多單位以及高校科研院所和企業(yè)的支持,也反映出各方面對人工智能事業(yè)的發(fā)展非常重視。
在人工智能時(shí)代什么東西最貴?什么最缺?答案大家都很清楚,那就是人工智能人才。可以說,有多好的“智能人工”,才可能有多好的“人工智能”。江蘇省在這方面有很好的基礎(chǔ),所以我相信江蘇的人工智能事業(yè)前途應(yīng)該一片光明。謝謝大家。