人工智能的探索邊界在哪里?
SafeGraph成立于 2016 年,旨在打造一個龐大的,供機器學習(machine learning)使用的數(shù)據(jù)庫,以加速機器學習及人工智能的發(fā)展。就像人類通過閱讀過往的文獻典籍,整理知識,總結規(guī)律,以此為參考,作出下一個決策,這個數(shù)據(jù)庫,就像專為人工智能而建的圖書館,機器可以通過查詢、閱讀、分析、綜合已有的數(shù)據(jù),預測未來。資本市場可以把人工智能這個概念吹成一朵花,但不能忽視的是,目前的技術還是很粗糙。要從根本上提高機器學習的能力,海量數(shù)據(jù)是關鍵。
谷歌是目前世界最頂尖人工智能企業(yè),但其搜索引擎的負責人Peter Norvig也承認,他們的算法并不是世界頂尖的,他們有的,只是比別人更多的數(shù)據(jù)。舉個例子,谷歌搜索引擎看了 1 千萬個YouTube視頻才學會辨認什么是“貓”。
而微軟的研究員Michele Banko和Eric Brill發(fā)現(xiàn),即便是最糟糕的算法,如果收到了以指數(shù)級增長的海量數(shù)據(jù),也會搖身一變,成為頂尖智能算法。谷歌看了 1 千萬個視頻才會辨認“貓”??墒牵F(xiàn)在難有公司能與谷歌、Facebook這樣的巨頭競爭數(shù)據(jù)量。
初創(chuàng)企業(yè)融資再多,也要和成百上千家公司談合作拿數(shù)據(jù),這一過程可能就要花費巨大精力,和長達幾年的時間。即便手握足夠數(shù)據(jù),他們也要面對數(shù)據(jù)管理的挑戰(zhàn)。首先,數(shù)據(jù)的存儲、數(shù)據(jù)模型、數(shù)據(jù)分析格式、數(shù)據(jù)庫的基礎架構都要重頭建起,必須能用,而且不能出錯。之后,還要進行數(shù)據(jù)清洗。
不是所有數(shù)據(jù)都是直接可用的,它們大多雜亂無章、難以理解、無法獲娶甚至有所缺失。人工智能領域最聰明的一群人都想造出能真正促進人類社會發(fā)展的產(chǎn)品和應用,比如無人駕駛,比如預測世界經(jīng)濟走勢的系統(tǒng),比如超級醫(yī)療診斷系統(tǒng)。
但格式良好、適合分析的數(shù)據(jù)不會從天而降。目前,他們把80%的時間花在了整理歷史數(shù)據(jù)上。微軟的研究員發(fā)現(xiàn),算法的準確性隨著數(shù)據(jù)量的增大而提升。等這一切都被成功解決,馬上,他們又要和數(shù)據(jù)監(jiān)管部門打交道,并在數(shù)據(jù)隱私保護問題上受到政府與公眾的道德拷問。
這是一種對資源和時間的巨大浪費,再這么下去,不知何年何月我們才能看到人工智能真正的創(chuàng)新。SafeGraph在這個時候出現(xiàn)。他們想打通所有數(shù)據(jù)(democratizing access to data),降低數(shù)據(jù)門檻。SafeGraph的將自己定位成數(shù)據(jù)搜集與管理公司,其它公司可以租用他們數(shù)據(jù),把時間空出來,集中精力進行真正有價值的研究。它的首款產(chǎn)品是一個地理空間數(shù)據(jù)平臺,為城市規(guī)劃者、零售商、學術研究人員、營銷人員及投資者服務,便于其了解人類社會活動軌跡。