導讀:人工智能是對人的意識、思維的信息過程的模擬。人工智能不是人的智能,但能像人那樣思考、也可能超過人的智能。兔子的毛在哪個季節(jié)最厚實?一個叫做Aristo的電腦程序能告訴你答案,因為Aristo從四年級的書上學到熊在冬天會長出更加厚實的皮毛,而且Aristo還從紐約州標準科學考試上學到了兔子也是哺乳動物,由此Aristo能夠得到正確的答案。Aristo由西雅圖艾倫人工智能研究所研發(fā),是一款能夠感知人類社會常識的人工智能軟件。
而衡量它效果最好的方式,就是用適用于學齡兒童的測試來進行檢測。該研究所還在說服其他的AI研究人員,發(fā)展一種標準,測試他們的成果。
這種標準的目的,是把AI和對自然語言研究的發(fā)展,用一種客觀的方式表現(xiàn)出來,通過比較不同方法的優(yōu)缺點,有助于我們更快找到最有效的方法從而加快AI的發(fā)展。
11月上旬,艾倫研究所將會發(fā)起一項挑戰(zhàn),讓研究人員研發(fā)出能做八年級(相當于初二)理科試題的智能軟件。這個競賽在科學競賽網(wǎng)站Kaggle上正火熱進行中,參賽人員可以通過千萬道問題來訓練他們的軟件。如果一個軟件能夠解決出一道它從未見過的問題,并得分最高的話,研發(fā)者將會獲得50,000 美元的獎金。
現(xiàn)在Aristo距離做出四年級的理科測試,還有很大一段距離。它只能做多項選擇,而多項選擇占了測試的2/3。如果選擇題中不涉及圖形題的話,Aristo能做對75%,如果有圖形題的話就只能做對45%,而及格需要至少65分。Aristo在做不含有圖形題的八年級理科測試多項選擇時,能得63分。你可以在艾倫研究所網(wǎng)站上,看到Aristo回答某些經過選擇的問題。這個軟件能夠應用合理的計算法則,并通過網(wǎng)站上看到的學習指南,來回答這些問題。
在AI 領域,想把哪怕一丁丁點常識塞進軟件都是一個巨大挑戰(zhàn),但是一旦實現(xiàn),電腦就能進一步以前所未有的方式幫助提高我們的生活。如果我們想研發(fā)出更加強大的系統(tǒng)來協(xié)助工作,那學習常識將是這些系統(tǒng)所必需的能力。其他的頂尖的研究人員也同意這一看法,這其中就包括Facebook的AI實驗室,它正致力于使網(wǎng)絡虛擬助手具備一些基本的談話能力。目前市面上虛擬助手不具備常識,比如蘋果的Siri 以及微軟的Cortana。他們只是根據(jù)你所說的,從一個預編程的規(guī)則中選擇回復。
為機器學習常識的能力設定標準很有用,但也有人認為,學校測試不是個好法子。
適用于孩子的測試可以確保研究人員不會有意,或無意地把這個領域的發(fā)展衡量標尺變得太“easy”,但是孩子們在探索世界方面可比機器軟件強太多了,為孩子們編寫的試題不能來做為衡量智能軟件的發(fā)展的標尺。機器和人類所不擅長的事物是非常不一樣的,適于人類的標準化測試,并不能很全面地覆蓋機器軟件所面臨的難點問題。
更好的選擇是專門為機器軟件擬一份試題。比如這樣的測試題:Sally最心愛的奶牛昨天死掉了,奶??赡軙诙嗑弥髲突?a) 明天; b) 一周以后;c) 一年以后; d)幾年后;e) 奶牛再也不會復活了。這種題對于四年級學生而言就是非常簡單的。
不過,盡管學校的測試題不會直接檢測常識,但是卻間接地要求具備這些常識。因為讀懂這些問題就需要常識,只有采用適用于人類的測試題,我們才能說我們是以自己的標準在衡量機器軟件。
只有人類和機器位于同一起跑線,這一切才有意義。