Elasticsearch簡史:源自給老婆開發(fā)烹飪App
作者 | Diana Kupfer 譯者 | 張健欣 策劃 | 萬佳
原文鏈接:https://jaxenter.com/elasticsearch-founder-interview-112677.html
Elasticsearch 是如何誕生的?本文回顧了 Elasticsearch 創(chuàng)始人 Shay Banon 的創(chuàng)業(yè)經歷和 Elasticsearch 的誕生歷程。
當今,Elasticsearch 如此出名,從 GitHub 到 Guardian,許多大型企業(yè)都用它來幫助自己理解用戶交互數據并提升它們的搜索結果。
2004 年,Shay Banon 開發(fā)了 Compass,這是一個基于 Lucene 技術的應用?;貞浧?Compass 的誕生,他的臉上總會掛滿微笑。某種意義上,Shay Banon、Compass 與 Lucene 的關系是一種偶然。
那時,他剛結婚。為支持妻子成為廚師的夢想,他們搬到倫敦。Shay Banon 正值失業(yè)狀態(tài),急需一份工作,所以他決定試試一些新技術,讓自己的技能更符合當前時代的需求。因為只有真正嘗試構建一些東西時,新技術才能發(fā)揮作用,所以他決定構建一個烹飪 App,讓妻子可以用來搜索她在烹飪課程中收集的烹飪信息。
為開發(fā)這款 App,他認真比較了很多不同技術的優(yōu)缺點。在他眼里,這款 App 的核心是一個搜索框。只要你在這個搜索框中輸入一個概念、一個想法或者一種配料,它就可以開始搜索可能相關的烹飪知識。很快,他接觸到 Lucene,它當時是 Java 上可用的搜索庫。他說:“我沉浸其中,嘗試在典型的 Java 應用中簡化 Lucene 的使用。這個過程中誕生了 Compass?!?/span>
Shay Banon 被這個項目深深吸引,把更多的時間和精力轉向這個項目,而非烹飪 App 本身。幾個月后,他決定把它開源,而 Compass 很快流行起來。Compass 允許用戶輕松地將他們的領域模型(在典型程序中映射應用程序或業(yè)務概念的代碼)映射到 Lucene,方便地索引,然后輕松地搜索它們。這種自由讓越來越多的人開始使用 Compass 和 Lucene,但是他從未預料到這種情況。
假設在你的金融應用程序中有一個交易模型,你可以輕松地使用 Compass 將該交易索引到 Lucene 中,然后搜索它,并自由地搜索交易的任何方面信息,并允許用戶將這種自由傳遞給他們的用戶,這被證明是一個功能非常強大的概念。
“實際上,這讓我可以與實際用戶交談和工作,他們和我一樣,發(fā)現了搜索在向用戶提供業(yè)務價值方面所具有的驚人能力?!盨hay Banon 說。
10 年后的今天,它就是 Elasticsearch 的基礎!
Shay Banon 認為,雖然自己可能比大多數 Apache Lucene 開發(fā)者更早參與這個項目,但是許多開發(fā)者的全心投入,將 Lucene 帶入一個全新的發(fā)展水平。
在 Compass 和 Elasticsearch 早期,他花費無數個小時,與 Mike McCandless 和 Simon Willnauer 這樣的人討論 Lucene 的方方面面。
他說:“當開始 Elasticsearch 時,我想確保我們建立的公司能保持 Apache Lucene 的快速發(fā)展速度和卓越水平。讓我興奮的是,從一開始就有 Simon、Uri Boness 和 Martijn Van Groningen 這樣的 Lucene 專家參與其中。即便如此,如果你當時問我,我也絕不會想到今天我們能吸引如此強大的專注于 Apache Lucene 的團隊。“
在 Shay Banon 看來,Elasticsearch“擴展了”Apache Lucene 的領域。例如,推動 Apache Lucene 變得更具彈性的需要,意外地(從 Lucene 的角度)強調索引速度,或者在工具方面對 Lucene 的可見性。
“每一天,我都會聽到一個 Lucene 開發(fā)人員說‘我從未想過 Lucene 能用來解決這種問題’,或以這種方式使用。對我來說,這太棒了!因為我們正在創(chuàng)造一個環(huán)境,在這個環(huán)境中,使用 Elasticsearch 平臺的個人之間存在著一種創(chuàng)造性的聯系,正是這種聯系促使 Apache Lucene 向前發(fā)展。同時,作為一家公司,我們有能力為我合作過的最有才華的開發(fā)群體之一提供機會去實現它?!?/span>
當 Elasticsearch 不再是個人項目時,他們圍繞它成立了一家公司,一個很大的好處是可以在 Elasticsearch 本身的發(fā)展上投入更多資金。除了 Shay Banon,公司的另一位創(chuàng)始人 Simon Willnauer 帶領 Elasticsearch 和團隊,開始將它推向一個全新的水平。他的首要任務之一是為 Elasticsearch 創(chuàng)建一個全新的測試基礎設施(靈感來自 Apache Lucene 測試基礎設施,包括隨機測試,順便說一句,這是一個很棒的話題)。
隨著測試工作的不斷深入,在 Shay Banon 看來,構建分布式系統(tǒng)最重要的一個方面就是測試和驗證其行為的能力。從概念上講,很多人都能想到分布式系統(tǒng),它意味著不同的進程,在不同的機器上,通過網絡運行。當涉及到測試時,緊隨其后的一個想法是,它應該被如何測試。這將創(chuàng)造一個非常復雜的測試工具,需要很長時間才能運行,而且故障發(fā)生時,它很難進行調試。
“異??焖俚摹睌祿阉?– 通過 elasticsearch.com
在 Elasticsearch,這家公司投入了大量時間來構建一個測試工具,它能作為“常規(guī)”集成測試的一部分運行其分布式測試。這意味著,在單個 JVM 中,運行 Elasticsearch 的每一次測試時,用戶就可以啟動并操作整個集群。這包括一些簡單的事情,例如在索引數據時回滾重啟,也包括一些更有趣的測試,例如網絡斷聯,一直到模擬長 GC 暫停,所有這些都是驗證一個分布式系統(tǒng)行為的關鍵。
能依賴這樣的基礎設施,并且可以非常簡單快速地運行這些測試,能構建一個更具彈性的系統(tǒng),并且更容易暴露“陰暗角落”和邊緣情況。
顯然,構建一個分布式系統(tǒng)還需要很多,但正如 Simon 所說,“如果它沒有測試,你怎么知道它能工作呢?”這是構建一個分布式系統(tǒng)的最基本的部分之一。
當今的企業(yè)正被數據淹沒,他們希望能理解這些數據并從中有所洞見。他們希望以最簡單的方式實現這一點,獲得最大的價值。
“事實證明,搜索是實現這種目標一種很好的方式。當我說搜索時,指的是更廣泛意義上的搜索,就像我個人最初開發(fā)烹飪 App 一樣,個人希望從數據中獲得見解和知識。當我們說 Elasticsearch 中的搜索時,指的是自由文本搜索、結構化搜索和分析的結合,以最純粹的方式,無論數據量多大,都是實時的?!盨hay Banon 說。
還記得《少數派報告》(Minority Report)中 Tom Cruise 的角色與他所探索的數據交互場景嗎?不斷地學習和塑造他所追求的東西,在沒有任何限制的情況下實時放大縮???這就是這家公司試圖讓用戶用 Elasticsearch 做的事(雖然沒有花哨的揮手互動,至少現在還沒有)。
這是一個宏偉目標。Shay Banon 堅信有能力實現它?!拔覀兊挠脩舨粩喙膭钗覀?,并驗證了我們走在正確的路上。用戶每天都告訴我們,他們用我們產品實現的目標是他們從未想過的。他們一直尋找創(chuàng)新的方法來使用 Elasticsearch,而且,我認為這是一個偉大產品的標志,它允許用戶達到他們最初從未想象過的創(chuàng)造性水平”。
Shay Banon 在 Elasticsearch 中遇到的第一個障礙是,之前的開源項目 Compass 試圖讓用戶在更窄的范圍內了解他所看到的。那時,當對用戶說“搜索”時,他們不會立即掌握可以實現的所有可能性。
他回憶說:“10 年前,我對它一無所知。但是,通過構建一種允許用戶將任何領域模型映射到“搜索”(即 Lucene),使得跨越這種心理障礙變得更加簡單,突然之間,使用案例爆炸性增長,Compass 和 Lucene 被用來賦能‘非典型搜索用例’?!?/span>
使用 Elasticsearch,通過標準化 JSON 和 RESTful 接口,用戶借此可以做很多事。很快,在一種更廣泛的基礎上:從各種各樣的開發(fā)人員,從不同的編程語言,到不同的框架,到許許多多不同的用例。
最后,這一切歸結為搜索的力量,從技術上來說,是 Elasticsearch 和 Apache Lucene 的力量。就實現而言,數據是典型的 Web 頁面或者 word 文檔,還是 Foursquare 上的地理位置、銀行里的一筆交易、web 服務器上的一條日志,或者一種度量標準,其實并不重要。所有這些數據實際上都是結構化和非結構化數據的組合,無論數據的形式或大小如何,人們都希望對其進行探尋、搜索并擁有《少數派報告》那樣的體驗。
免責聲明:本文內容由21ic獲得授權后發(fā)布,版權歸原作者所有,本平臺僅提供信息存儲服務。文章僅代表作者個人觀點,不代表本平臺立場,如有問題,請聯系我們,謝謝!