面對AI以及未來,我們需要怎樣靠譜的存儲方案?
經(jīng)過短短幾年時間的發(fā)展,全社會共同見證了AI從技術(shù)崛起到產(chǎn)業(yè)崛起的過程。ICT市場的關(guān)注重點也從最開始的自然語義識別、機器視覺、邏輯判斷等純技術(shù)領(lǐng)域向著智慧醫(yī)療、智慧金融、智慧交通、智慧政府等產(chǎn)業(yè)應(yīng)用領(lǐng)域轉(zhuǎn)變。而這種轉(zhuǎn)變不僅是數(shù)字化轉(zhuǎn)型的一部分,更實踐了AI從技術(shù)趨勢到產(chǎn)業(yè)落地再到商機發(fā)掘的完整價值鏈條。在這場涉及整個IT領(lǐng)域和全行業(yè)應(yīng)用的歷史性變革之中,技術(shù)、產(chǎn)品、方案和應(yīng)用都在高速發(fā)展。其中,機遇很多,挑戰(zhàn)亦不小。
眾所周知,AI應(yīng)用是對算力的巨大挑戰(zhàn),每一次推理都需要復(fù)雜且不斷重復(fù)的數(shù)值計算來完成,而訓(xùn)練AI的過程更是要面對海量數(shù)據(jù)的反復(fù)計算。在發(fā)展AI的過程中,龐大的算力需求甚至帶來了整個數(shù)據(jù)中心的架構(gòu)改變。而這也正是異構(gòu)計算以及對應(yīng)的管理方式成為近些年服務(wù)器和數(shù)據(jù)中心行業(yè)變革的重點。
AI時代,計算之外的基礎(chǔ)架構(gòu)變革雖然AI的產(chǎn)生和應(yīng)用基于計算,但AI對于整個基礎(chǔ)架構(gòu)領(lǐng)域的影響卻并沒有止步于計算。
作為AI產(chǎn)業(yè)的上游,算法的產(chǎn)生需要長時間、高強度的訓(xùn)練過程。而數(shù)據(jù)正是驅(qū)動這一過程高速進行的重要燃料之一。要保證AI引擎的持續(xù)高效運行,承載數(shù)據(jù)的存儲系統(tǒng)也必須要跟上時代的腳步。
正如同AI帶來了算力市場的變革,另一場針對AI的存儲設(shè)備革新也在如火如荼。
非結(jié)構(gòu)化:伴隨數(shù)據(jù)庫和統(tǒng)計學(xué)的發(fā)展,人們已經(jīng)有非常多的手段和工具來管理和處理結(jié)構(gòu)化的數(shù)據(jù)。但在機器視覺、語音語義識別等主流的AI應(yīng)用領(lǐng)域當中,非結(jié)構(gòu)化的視頻、圖片、音頻才是數(shù)據(jù)的主要類別。在No-SQL之外,企業(yè)用戶仍舊迫切需要一套專門針對AI應(yīng)用的非結(jié)構(gòu)化數(shù)據(jù)管理解決方案。
龐大的文件規(guī)模:從數(shù)據(jù)的角度來看,AI同樣是一種典型的大數(shù)據(jù)應(yīng)用。而這種數(shù)據(jù)的“大”并非只是單純意義的容量大,更意味著文件數(shù)量的龐大。要獲得高精度的AI模型,訓(xùn)練集的內(nèi)容會非常可觀。在實際的應(yīng)用當中,這樣的訓(xùn)練集至少都要包含數(shù)萬個文件,而除此之外還要有驗證集和測試集;而有時,文字或圖片類AI訓(xùn)練庫的樣本空間更是高達數(shù)十萬個文件。更何況,在訓(xùn)練的過程當中,AI訓(xùn)練程序還會產(chǎn)生大量的過程數(shù)據(jù)和紀錄。當一套存儲系統(tǒng)要面對同時進行的數(shù)套AI訓(xùn)練應(yīng)用時,超大規(guī)模文件管理也就成了AI對存儲提出的新挑戰(zhàn)。
IO優(yōu)化:傳統(tǒng)環(huán)境下,評判存儲系統(tǒng)性能的高低通常需要在不同的讀寫比例下進行測試;這一比例可能是3:7、4:6、5:5等等。但對于AI應(yīng)用來說,傳統(tǒng)存儲讀寫平衡的情況似乎很少出現(xiàn),更多的是在訓(xùn)練過程中對海量數(shù)據(jù)的大量讀操作。換句話說,AI訓(xùn)練是一個典型的輸入很多、輸出很少的應(yīng)用。另一方面,由于AI的訓(xùn)練通常以計算集群方式進行,因此,與數(shù)據(jù)源一樣,存儲結(jié)構(gòu)也需要從串行變?yōu)椴⑿?。而在這一過程中不同數(shù)據(jù)節(jié)點的負載均衡也同樣值得關(guān)注。
數(shù)據(jù)生命周期管理:在AI與行業(yè)深度融合的當下,企業(yè)越來越需要具備場景屬性的AI應(yīng)用。換句話說,只有用生產(chǎn)數(shù)據(jù)訓(xùn)練出來的AI才能更好的在生產(chǎn)場景中發(fā)揮價值。但顯然,任何生產(chǎn)數(shù)據(jù)的獲得與管理都不是一件“便宜”的事情。因此,專門針對AI訓(xùn)練進行調(diào)整的數(shù)據(jù)生命周期管理系統(tǒng)也就順理成章的構(gòu)成了AI對存儲系統(tǒng)挑戰(zhàn)的另一個維度。
以上只是AI對于存儲架構(gòu)帶來挑戰(zhàn)的幾個主要層面,在具體的應(yīng)用當中,實際的技術(shù)層挑戰(zhàn)還有更多。
要應(yīng)對這些存儲挑戰(zhàn),解決方案提供者不僅要了解存儲、有深厚的技術(shù)底蘊,更要了解AI應(yīng)用形態(tài),具備豐富的AI實踐經(jīng)驗。但在當今市場上,能把存儲技術(shù)和豐富的AI經(jīng)驗融合到一起、并通過強大的產(chǎn)品力將之打造為方案的廠牌真的存在嗎?
為AI插上騰飛的翅膀
AI應(yīng)用帶給存儲的挑戰(zhàn)并不小,但我們真的需要一套專門針對AI需求再開發(fā)一套新的存儲系統(tǒng)嗎?
仔細分析AI帶給IA的挑戰(zhàn),無論數(shù)據(jù)類型、數(shù)據(jù)模式、數(shù)據(jù)管理還是對多種不同用戶的數(shù)據(jù)輸出,其都是數(shù)據(jù)湖的另一種特化應(yīng)用形態(tài)。因此,在數(shù)字化轉(zhuǎn)型和AI發(fā)展道路上,企業(yè)只需找到一款能夠?qū)I提供更好支持的數(shù)據(jù)湖存儲便可實現(xiàn)一舉多得。
2020年7月,IBM針對數(shù)據(jù)湖市場發(fā)布了全新的ESS 5000系列存儲,并通過一系列針對AI應(yīng)用的全面優(yōu)化為市場帶來了應(yīng)用、效能以及成本三個維度上的全新平衡。
作為IBM Elastic Storage System家族的新成員,ESS 5000系列是一款面向文件的數(shù)據(jù)湖產(chǎn)品。通過使用磁盤介質(zhì),ESS 5000系列能夠為企業(yè)的各類存儲需求提供更低的成本。ESS 5000目前包含2種型號,標準機柜構(gòu)型的SL型號和采用加深機柜的SC型號。其中SL型號能夠以260TB/u的密度提供552TB至8.8PB的存儲空間;而采用加深機柜的SC型號則能夠以375TB/u的密度提供1-13.5PB的存儲空間。
采用磁盤系統(tǒng)并不意味著ESS 5000在性能上會受到任何限制。相反,通過進一步的IO優(yōu)化,在典型的12節(jié)點配置當中,ESS 5000能夠提供55GB/s的超高讀取速度,相對于目前市場上其他的磁盤類文件存儲系統(tǒng),讀取性能至少提升300%。
而在配合基于NVMe閃存的ESS 3000時,企業(yè)便能夠在簡化存儲系統(tǒng)結(jié)構(gòu)的同時滿足更高性能和容量方面的需求。
打造包容AI的寬廣數(shù)據(jù)湖當然,性能、容量與擴展性方面的提升和型號的簡化只是ESS 5000對于企業(yè)用戶的見面禮,其真正的價值在于內(nèi)部對于各類先進架構(gòu)的支持、融合與更新。
1、全面與云融合
ESS 5000是一款與云架構(gòu)全面融合的產(chǎn)品。通過與紅帽RedHat Open Shift容器平臺的全面兼容,各類基于容器的AI應(yīng)用可以在ESS 5000上進行方便的數(shù)據(jù)索引,降低AI訓(xùn)練在數(shù)據(jù)準備階段所需的時間和工作量。
2、更多數(shù)據(jù)源支持
ESS 5000支持更多類型的數(shù)據(jù)源,而這些數(shù)據(jù)源不僅可以來自于傳統(tǒng)的業(yè)務(wù)系統(tǒng),更可以來自移動端、物聯(lián)網(wǎng)、傳感器等新一代數(shù)據(jù)源。而這樣的設(shè)計不僅讓AI應(yīng)用能夠獲得更多、更廣泛的業(yè)務(wù)數(shù)據(jù),更可以擴展整個企業(yè)數(shù)據(jù)湖的寬度,為基于數(shù)據(jù)的精細化管理和業(yè)務(wù)轉(zhuǎn)型鋪平道路。
3、更全面數(shù)據(jù)生命周期管理
由于目前的AI技術(shù)仍舊需要通過海量數(shù)據(jù)來獲取業(yè)務(wù)洞察,所以無論AI或其他數(shù)字化應(yīng)用,尋求數(shù)據(jù)的多維度價值都是其核心目的。而在這一應(yīng)用形態(tài)長期不變的前提下,數(shù)據(jù)的生命周期管理和其在不同介質(zhì)、系統(tǒng)中的高效移動就成為了加速數(shù)據(jù)價值體現(xiàn)的關(guān)鍵一步。作為廣受好評的元數(shù)據(jù)管理解決方案,IBM Spectrum系列軟件有著極高的人氣和應(yīng)用范圍。而新推出的ESS 5000系列則可以與Spectrum Discover、Spectrum Scale Data Acceleration for AI等方案進行聯(lián)合容器化部署,增強AI應(yīng)用中的數(shù)據(jù)移動、數(shù)據(jù)管理,并降低備份產(chǎn)生的空間損失,為數(shù)據(jù)生命周期管理補齊AI短板。
4、YB級命名空間
針對AI訓(xùn)練中所需的龐大文件數(shù)量和集群產(chǎn)生的海量過程文件,ESS 5000還能夠支持YB級別(10的24次方)的命名空間,為AI更復(fù)雜的卷積應(yīng)用創(chuàng)造前提。
以AI為契機,探索存儲新未來AI是眼下ICT及數(shù)字化轉(zhuǎn)型中最主要的方向之一,在為商業(yè)應(yīng)用提供全新模式的同時,AI給整個基礎(chǔ)架構(gòu)帶來的新需求、新挑戰(zhàn)也讓越來越多企業(yè)意識到,在基礎(chǔ)設(shè)施的構(gòu)建過程中,每一種設(shè)備都需要具備面向未來和全新應(yīng)用的兼容能力。
而IBM在ESS 5000上所展示的技術(shù)和應(yīng)用方式正是這種未來思維模式的結(jié)晶。通過架構(gòu)簡化、多方案融合、容器化以及面向應(yīng)用的細致優(yōu)化,ESS能夠讓企業(yè)數(shù)據(jù)湖應(yīng)對AI所帶來的的一系列挑戰(zhàn)。而具備這樣能力的數(shù)據(jù)湖也正是數(shù)據(jù)價值得以進一步體現(xiàn)的前提。
IBM免費咨詢專線400-669-2039
【IT葡萄皮】(公眾號:itopics)由資深媒體人張垞運營。從業(yè)十二年的深度觀察,只為一篇不吐不快的科技評論。
聯(lián)系方式
電話:18612920630
電子郵件:69240891@163.com
微信:z87136954
QQ:87136954
免責(zé)聲明:本文內(nèi)容由21ic獲得授權(quán)后發(fā)布,版權(quán)歸原作者所有,本平臺僅提供信息存儲服務(wù)。文章僅代表作者個人觀點,不代表本平臺立場,如有問題,請聯(lián)系我們,謝謝!