針對高科技領域的語義搜索--超越Google的搜索引擎?
“我們認為基于關鍵詞的搜索需要改進,這也是我們發(fā)布illumin8的一個原因,我們需要找出信息的含義,”Elsevier公司illumin8的產(chǎn)品經(jīng)理Joe Buzzanga表示,“這真的是個基于自然語言處理技術的研究和開發(fā)的工具,我們已經(jīng)為我們的核心用戶提供服務,他們都是各個企業(yè)里的研發(fā)專業(yè)人士?!?/FONT>
新的搜索引擎不是免費的,但已經(jīng)在網(wǎng)頁上運作了,允許用戶執(zhí)行他們之前在Google、Yahoo或其他關鍵詞搜索引擎上所做的類似的查詢。不同的是當你點“搜索”按鈕,不是立即出現(xiàn)搜出的相關度排名列表,illumin8會花幾秒鐘與它的語義數(shù)據(jù)庫進行對比來決定你的查詢的含義。Elsevier的crawler算法是經(jīng)常的搜索60億個頁面、3百萬篇科學和技術期刊文章、3千3百萬科學報告的結果,和2千1百萬個專利,這些結果被翻譯到11億個相關概念的語義解釋上。
在完成對你的相關查詢的語義抽取后,立即可以在整個視窗屏幕顯示出分欄的搜索結果,分類是根據(jù)組織、方法、益處、作者/發(fā)明者、公司和產(chǎn)品。每欄都有一系列搜索的信息,顯示每個不同的項目的所有搜索結果。
將鼠標移到相關條目上會彈出一個窗口顯示摘要,指出相關性并分類,還會拼出縮寫詞和別稱。點擊該條目就可以新出一個窗口轉到搜索的結果。
搜索需要花費15秒鐘來鎖定語義數(shù)據(jù)庫中的結果,而且需要近1分鐘(取決于你得到信息的數(shù)量)來在概要頁中進行組織。Elsevier表示目前正在為提高速度進行升級的工作,概要頁面可以被約束為只顯示網(wǎng)頁條目、只顯示期刊條目或專利條目,或自定義。例如,輸入“半導體研發(fā)”,在概要頁會出現(xiàn)5284個結果,包括公司、方法、人物、產(chǎn)品和其他相關結果 - 3869個項目是來自網(wǎng)頁的。該查詢出來的“公司”是由升序排列,包括了IBM、INTEL、英飛凌、意法半導體、三星、摩托羅拉、AMD、Toshiba、德州儀器等等。
使用illumin8需要注冊,對各個組織的價格不同。目前已經(jīng)有免費的語義搜索供讀者嘗試,雖然不提供概要頁面,數(shù)據(jù)庫也沒有illumin8那么大。大家可以試試Hakia(http://www.hakia.com/,只搜索網(wǎng)頁)或者Powerset(http://www.powerset.com/只搜索Wikipedia)。