機器學(xué)習(xí)和機器發(fā)現(xiàn)區(qū)別在哪?
機器學(xué)習(xí)現(xiàn)在可謂是炙手可熱。只要應(yīng)用機器學(xué)習(xí),就可以有效豐富數(shù)據(jù)和知識,促進(jìn)有價值的任務(wù)自動化,包括感知、分類和數(shù)值預(yù)測等。而它的“兄弟”——機器發(fā)現(xiàn),可用于發(fā)現(xiàn)照亮和引導(dǎo)人類的新知識。讓我們來探討一下機器學(xué)習(xí)或者機器發(fā)現(xiàn)的最佳應(yīng)用場景,以及其對商業(yè)很重要的原因。
多年以前我是一名機器發(fā)現(xiàn)的研究人員,在《機器學(xué)習(xí)》雜志上發(fā)表過學(xué)術(shù)論文,也參加過機器學(xué)習(xí)的相關(guān)會議并做過報告,因為機器學(xué)習(xí)和機器發(fā)現(xiàn)與人類活動類似。作為一名(有經(jīng)驗的)企業(yè)家,經(jīng)常有人問我,對于自動處理某些任務(wù)來說,學(xué)習(xí)方法是否非常重要,這也是促使我寫這篇文章的原因。首先讓我們回顧一些基本概念。
人工智能領(lǐng)域的一個重要想法就是,智力工作可以看作是在“問題空間”內(nèi)的啟發(fā)式搜索,可以幫助找到問題的解決方法。
讓我們想象這樣一個電視里常見的任務(wù)場景:重案組探員到達(dá)案發(fā)現(xiàn)場,尸體躺在地板上。一個糟糕的偵探拿起電話簿,從第一頁開始依次打電話進(jìn)行審訊。一個非常糟糕的偵探甚至?xí)J(rèn)為是太空入侵或逃走的狒狒干了這事,并要求NASA和當(dāng)?shù)貏游飯@去追尋這些線索。他們這樣的行為就是采用了錯誤的啟發(fā)方法。
一個好的偵探會善于利用正確的啟發(fā)方法,從已存在的問題開始,例如:死亡原因是什么?受害者最后見的人是誰?有仇人嗎?有沒有秘密戀情?欠過債?好的偵探也會從上述答案入手,來更加有效地在大范圍內(nèi)搜索嫌疑犯。偉大的偵探甚至可能想出更加有啟發(fā)性的想法。
“機器發(fā)現(xiàn)”的關(guān)鍵點在于發(fā)現(xiàn)就像是另外的智力任務(wù),因此在問題空間中應(yīng)用的人工智能關(guān)鍵啟發(fā)式發(fā)現(xiàn)搜索方法也可應(yīng)用于機器發(fā)現(xiàn)任務(wù)中。
另一方面,“機器學(xué)習(xí)”的關(guān)鍵點在于給予足夠的數(shù)據(jù)和相關(guān)結(jié)果,以及一些概念(例如哪些數(shù)據(jù)特征和預(yù)測結(jié)果有關(guān)系),然后軟件經(jīng)過訓(xùn)練后也能夠?qū)崿F(xiàn)這種關(guān)聯(lián)。經(jīng)典的例子包括使用歷史數(shù)據(jù)來學(xué)習(xí)如何根據(jù)信用風(fēng)險對貸款申請進(jìn)行分類,或者預(yù)測顧客的流失。
何為機器學(xué)習(xí)或機器發(fā)現(xiàn)的最佳應(yīng)用?
帶著這些關(guān)鍵點,我們來考慮具體應(yīng)用中,哪種設(shè)計(發(fā)現(xiàn)或?qū)W習(xí))更好?例如:為大型派對或活動引入客流量。一個好的派對主辦方需要了解客人之間的共同興趣,并努力向他們介紹彼此,解釋他們的共同點,以促進(jìn)他們之間的交流。這是一項艱巨的任務(wù),因此主辦方都非常忙。憑借一份參與者名單,這種情況能夠自動化嗎?
人工智能或者發(fā)現(xiàn)方法會這樣處理事情:研究或者找出什么可以促成良好的相互介紹。什么決定了(引薦的)質(zhì)量?這是為了核心目的而做出的有創(chuàng)新的介紹方法嗎?哪些數(shù)據(jù)源可以加強這種自動推介(比如LinkedIn簡介或者其他自我介紹)?
然后,就可以生成一些自動介紹,例如:你們?nèi)粠缀踉谕粫r間從同一所大學(xué)畢業(yè);或者你們都曾為非洲和平組織服務(wù)過;甚至你們兩位是這里唯一知道機器學(xué)習(xí)的人。
壞的啟發(fā)方法可能會導(dǎo)致:你們都離婚了四次以上(尷尬);或者你們都來自中西部(重點模糊);或者你們的生日都在冬天(不相關(guān))。
我們已經(jīng)討論了機器學(xué)習(xí)和機器發(fā)現(xiàn)的關(guān)鍵點,以及如何實現(xiàn)具體應(yīng)用。那么我們概括一下:何為機器學(xué)習(xí)或機器發(fā)現(xiàn)的最佳應(yīng)用?
機器發(fā)現(xiàn)需要研究任務(wù)的邏輯,需要相應(yīng)的知識,包括該范圍內(nèi)的優(yōu)先路徑,以及使其符合實際的算法設(shè)計。這有利于正在搜索的空間和使用的啟發(fā)方法的創(chuàng)新。但是最大的創(chuàng)新或許來源于基于具體輸入而獲得的新穎、有創(chuàng)造性的輸出,因為自動化可以探索比人類實際考慮的還要大得多空間的可能性。
讓我們來看看關(guān)于機器發(fā)現(xiàn)引擎的三個例子,其中每個都用編好程序的啟發(fā)式技術(shù)盡可能地探索和報道可供人類閱讀的知識。
90年代商業(yè)化的搜索引擎會搜索很多信息文件,利用啟發(fā)式技術(shù)(例如頁碼排序,根據(jù)每一份文件的內(nèi)容或者標(biāo)題的查詢詞確定優(yōu)先級)來給出引文清單,且每個摘錄都動態(tài)地定制為查詢詞的函數(shù)。
2000年左右商業(yè)化的歸類引擎將數(shù)以百計的搜索結(jié)果以分組的形式放入主題文件夾,利用啟發(fā)式技術(shù)(比如提取出的主題的語言特性,每一個主題涵蓋多少搜索結(jié)果,將主題劃分為不重疊組的效果如何等)來描述出現(xiàn)在返回的搜索結(jié)果中的主題。
2015年實現(xiàn)商業(yè)化基準(zhǔn)化引擎在大型同類群體中發(fā)現(xiàn)其異常表現(xiàn),利用啟發(fā)式技術(shù)(例如組合簡潔、合理的屬性,和處理異常類型良好地句型)來輸出能傳達(dá)關(guān)于目標(biāo)實體基準(zhǔn)化見解的英語段落。
機器發(fā)現(xiàn)的方法也許是:任務(wù)輸出結(jié)果并不只是分類或者數(shù)字上的預(yù)測。人們寫了很多關(guān)于這種任務(wù)的書或者文章來教授新人。這里也沒有關(guān)于輸入/正確輸出組的豐富數(shù)據(jù),因此要常常說服別人為什么輸入數(shù)據(jù)和任務(wù)元認(rèn)知知識符合特定的輸出。任務(wù)元認(rèn)知知識是孤立的,因此在執(zhí)行任務(wù)的時候并不需要一般的常識。
這對于科技商業(yè)來說意味著什么呢?機器學(xué)習(xí)能使自動化任務(wù)實現(xiàn)半自動化從而減少開支。機器學(xué)習(xí)可以應(yīng)用于很多數(shù)據(jù)豐富的任務(wù)。機器發(fā)現(xiàn)則更強調(diào)需要特定知識和訓(xùn)練的具體任務(wù),機器發(fā)現(xiàn)往往偏向于手工制作,更加精細(xì)和罕見。
你需要大量內(nèi)部或供應(yīng)商的人工智能專業(yè)知識。供應(yīng)商會更少,而且他們更關(guān)注有深遠(yuǎn)影響的具體知識任務(wù),從而確保企業(yè)在經(jīng)濟上可行。供應(yīng)商不會稱自己為機器發(fā)現(xiàn)公司。與機器學(xué)習(xí)不同的是,由于機器發(fā)現(xiàn)的公司更少,因此更容易產(chǎn)生市場差異化。
機器學(xué)習(xí)和機器發(fā)現(xiàn)雖然是親兄弟,但是當(dāng)它們都成熟以后就會分開。