亞馬遜云科技推出六項Amazon SageMaker新功能
(全球TMT2021年12月9日訊)2021年12月8日,亞馬遜云科技在2021 re:Invent全球大會上,宣布為行業(yè)領(lǐng)先的機器學(xué)習(xí)服務(wù)Amazon SageMaker推出六項新功能,讓機器學(xué)習(xí)更易于上手且更具成本效益。此次發(fā)布的強大新功能包括:無需編碼即可進行準確的機器學(xué)習(xí)預(yù)測,更精準的數(shù)據(jù)標記服務(wù),可用于跨域協(xié)作的通用?Amazon SageMaker Studio notebook體驗、讓代碼更高效的機器學(xué)習(xí)模型訓(xùn)練編譯器,為機器學(xué)習(xí)推理自動推薦計算實例,以及用于機器學(xué)習(xí)推理的無服務(wù)器計算。

Amazon SageMaker Canvas?無代碼機器學(xué)習(xí)預(yù)測:
Amazon SageMaker Canvas 為業(yè)務(wù)分析師(支持財務(wù)、市場、運營和人力資源團隊的業(yè)務(wù)員工)提供可視化界面,他們無需任何機器學(xué)習(xí)經(jīng)驗,也不必編寫代碼,即可自行創(chuàng)建更準確的機器學(xué)習(xí)模型進行預(yù)測。越來越多的公司希望通過機器學(xué)習(xí)重塑其業(yè)務(wù)和客戶體驗,這就需要更多來自不同業(yè)務(wù)領(lǐng)域的員工使用先進的機器學(xué)習(xí)技術(shù)。然而,機器學(xué)習(xí)通常需要專業(yè)技能,獲得這些技能通常需要多年的正規(guī)教育或強化培訓(xùn),同時對應(yīng)的課程難度大且不斷變化。Amazon SageMaker Canvas解決了這一挑戰(zhàn),它通過提供一個可視化的、?點擊式的用戶界面,讓業(yè)務(wù)分析師可以輕松地生成預(yù)測??蛻魧mazon SageMaker Canvas連接到他們的數(shù)據(jù)存儲(例如 Amazon Redshift、Amazon S3、Snowflake、本地數(shù)據(jù)存儲、本地文件等),Amazon SageMaker Canvas提供可視化工具,幫助客戶直觀地準備和分析數(shù)據(jù)。然后,客戶無需任何編碼,Amazon SageMaker Canvas使用自動機器學(xué)習(xí)來構(gòu)建和訓(xùn)練機器學(xué)習(xí)模型。為確保模型的準確性和有效性,業(yè)務(wù)分析師還可以在Amazon SageMaker Canvas的控制臺中查看和評估模型。Amazon SageMaker Canvas還支持客戶將模型導(dǎo)出到 Amazon SageMaker Studio,與數(shù)據(jù)科學(xué)家共享,進一步驗證和完善模型。
Amazon SageMaker Ground Truth Plus?專業(yè)數(shù)據(jù)標記:
Amazon SageMaker Ground Truth Plus 是一項完全托管的數(shù)據(jù)標記服務(wù),為客戶提供內(nèi)置的工作流程、技能嫻熟的團隊,以更低成本快速交付高質(zhì)量的訓(xùn)練數(shù)據(jù)集,用于訓(xùn)練機器學(xué)習(xí)模型,客戶無需編碼。為了訓(xùn)練更準確的模型并規(guī)?;瘷C器學(xué)習(xí)部署,客戶需要被正確標記的數(shù)據(jù)集越來越大。但是,要生成大型數(shù)據(jù)集可能需要數(shù)周甚至數(shù)年的時間,并且通常需要公司雇傭員工并創(chuàng)建工作流來管理標記數(shù)據(jù)的過程。 2018 年,亞馬遜云科技推出了 Amazon SageMaker Ground Truth,通過使用來自Amazon Mechanical Turk、第三方供應(yīng)商或自有團隊的人工數(shù)據(jù)標注員的方式,幫助客戶更輕松的生成標記數(shù)據(jù)。Amazon SageMaker Ground Truth Plus 進一步擴展了這項功能,通過提供專業(yè)團隊為客戶提供高度準確的數(shù)據(jù)標簽。這些專業(yè)團隊不但擁有特定領(lǐng)域和行業(yè)專業(yè)知識,同時具有職業(yè)技能可滿足客戶對數(shù)據(jù)安全、隱私與合規(guī)等要求。 Amazon SageMaker Ground Truth Plus具有多步驟標記工作流程功能,可縮短標記數(shù)據(jù)集所需的時間并降低采購高質(zhì)量注釋數(shù)據(jù)的成本,該功能包括機器學(xué)習(xí)模型預(yù)標記、檢測人工標記錯誤和低質(zhì)量標簽的機器驗證,以及輔助標記功能(例如 3D 長方體捕捉、去除2D中的失真圖像、視頻標記中的預(yù)測和自動分割工具)??蛻糁恍柘葘?Amazon SageMaker Ground Truth Plus 指向他們在 Amazon Simple Storage Service (Amazon S3)?中的數(shù)據(jù)源,并提供特定的標記要求(例如,醫(yī)學(xué)專家應(yīng)如何標記肺部放射影像中的異常情況的說明)。 Amazon SageMaker Ground Truth Plus 隨后創(chuàng)建數(shù)據(jù)標記工作流程并提供控制面板,客戶可通過控制面板跟蹤數(shù)據(jù)注釋進度、檢查已完成標簽的樣本質(zhì)量,并提供為生成高質(zhì)量數(shù)據(jù)的反饋;該功能讓客戶可以更快地構(gòu)建、訓(xùn)練和部署高度準確的機器學(xué)習(xí)模型。
Amazon SageMaker Studio?通用notebook:
Amazon SageMaker Studio 的通用notebook(業(yè)界首個完整的機器學(xué)習(xí)集成開發(fā)環(huán)境)提供了一個統(tǒng)一的集成環(huán)境來執(zhí)行數(shù)據(jù)工程、數(shù)據(jù)分析和機器學(xué)習(xí)。如今,來自不同數(shù)據(jù)領(lǐng)域的團隊希望使用一系列涵蓋數(shù)據(jù)工程、數(shù)據(jù)分析和機器學(xué)習(xí)的工作流開展協(xié)作。這些領(lǐng)域的從業(yè)者通常來自數(shù)據(jù)工程、數(shù)據(jù)分析和數(shù)據(jù)科學(xué)等不同的知識領(lǐng)域,他們希望實現(xiàn)跨各種工作流工作,并無需切換數(shù)據(jù)相關(guān)工具。而當客戶準備集成數(shù)據(jù)分析和機器學(xué)習(xí)的數(shù)據(jù)時,通常需要處理多種工具和notebook,這一過程繁瑣、耗時且容易出錯。 Amazon SageMaker Studio 現(xiàn)支持客戶在一個通用notebook中,為實現(xiàn)多種目的而進行的交互方式訪問、轉(zhuǎn)換和分析各種數(shù)據(jù)。Amazon SageMaker Studio與在 Amazon EMR 集群上運行的 Spark、Hive 和?Presto,以及在 Amazon S3 上運行的數(shù)據(jù)湖均內(nèi)置集成,客戶無需切換服務(wù)即可使用Amazon SageMaker Studio 訪問和操作通用notebook中的數(shù)據(jù)??蛻舫丝梢允褂孟矚g的框架(例如 TensorFlow、PyTorch 或 MXNet)開發(fā)機器學(xué)習(xí)模型,并在 Amazon SageMaker Studio 中構(gòu)建、訓(xùn)練和部署機器學(xué)習(xí)模型外;客戶無需離開通用Amazon SageMaker Studio notebook,可以一站式瀏覽和查詢數(shù)據(jù)源、探索元數(shù)據(jù)和模式,并處理數(shù)據(jù)分析或機器學(xué)習(xí)工作流相關(guān)的工作負載。
適用于機器學(xué)習(xí)模型的?Amazon SageMaker Training Compiler:
Amazon SageMaker Training Compiler 是一種新的機器學(xué)習(xí)模型編譯器,可自動優(yōu)化代碼提高計算資源的使用效率,并縮短訓(xùn)練模型時間多達 50%。先進的深度學(xué)習(xí)模型通常是龐大而復(fù)雜的,訓(xùn)練單個模型可能消耗數(shù)千小時的GPU計算時間,為此它們需要專門的計算實例來加速訓(xùn)練。為了進一步縮短訓(xùn)練時間,數(shù)據(jù)科學(xué)家會嘗試增加訓(xùn)練數(shù)據(jù)或調(diào)整超參數(shù)(控制機器學(xué)習(xí)訓(xùn)練過程的變量),找到性能最佳且資源消耗最少的模型版本。這項工作的技術(shù)復(fù)雜性致使數(shù)據(jù)科學(xué)家沒有時間優(yōu)化在 GPU 上運行訓(xùn)練模型所需的框架。?Amazon SageMaker Training Compiler與 Amazon SageMaker 中的 TensorFlow 和 PyTorch 版本集成,這些版本經(jīng)過優(yōu)化可在云中更高效地運行,因此數(shù)據(jù)科學(xué)家可以使用他們喜歡的框架,更高效得使用GPU訓(xùn)練機器學(xué)習(xí)模型。只需單擊一下,Amazon SageMaker Training Compiler 就會自動優(yōu)化并編譯訓(xùn)練好的模型,提高訓(xùn)練執(zhí)行速度多達50%。
Amazon SageMaker Inference Recommender?自動實例選擇:
Amazon SageMaker Inference Recommender 幫助客戶自動選擇最佳計算實例和配置(例如實例數(shù)量、容器參數(shù)和模型優(yōu)化),運行其特定的機器學(xué)習(xí)模型推理。大型機器學(xué)習(xí)模型,通常用于自然語言處理或計算機視覺,選擇具有最佳性價比的計算實例是一個復(fù)雜的迭代過程,可能需要數(shù)周的實驗時間。?Amazon SageMaker Inference Recommender消除了運行一個模型應(yīng)選擇哪種實例的不確定性和復(fù)雜性,通過自動推薦適合的計算實例配置,可將部署時間從數(shù)周縮短至幾小時。數(shù)據(jù)科學(xué)家使用 Amazon SageMaker Inference Recommender 可將模型部署到推薦的一個計算實例上,?或者使用該服務(wù)在一系列選定的計算實例上運行性能基準測試??蛻艨梢栽?Amazon SageMaker Studio 中查看基準測試結(jié)果,并評估不同配置在延遲、吞吐量、成本、計算和內(nèi)存等方面的利弊。
適用于機器學(xué)習(xí)模型的?Amazon SageMaker Serverless Inference:
使用Amazon SageMaker Serverless Inference,客戶僅需為生產(chǎn)中部署的機器學(xué)習(xí)模型推理按使用量付費。客戶使用機器學(xué)習(xí)時,希望能優(yōu)化成本,對于具有間歇性流量模式和長時間空閑的應(yīng)用程序而言尤為重要。有些應(yīng)用程序,如基于消費者購買的個性化推薦、接聽來電的聊天機器人以及基于實時交易的需求預(yù)測等,可能會受外部因素如天氣狀況、促銷的產(chǎn)品或節(jié)假日等影響出現(xiàn)波峰波谷。為機器學(xué)習(xí)推理提供合適的計算容量是一項艱難的、需要權(quán)衡多方面因素的工作。有時,為滿足峰值需求,客戶會過度配置容量,雖然實現(xiàn)了一致的性能,但在沒有流量時會浪費成本。有時,?客戶為控制成本而部署了不足夠的計算容量,在條件變化時卻無法提供足夠的算力來執(zhí)行推理。為了適應(yīng)不斷變化的條件,一些客戶嘗試動態(tài)地手動調(diào)整計算資源,這是繁瑣且耗費精力的工作。用于機器學(xué)習(xí)的 Amazon SageMaker Serverless Inference 會根據(jù)推理請求的數(shù)量自動預(yù)置、擴展和關(guān)閉計算容量。當客戶將機器學(xué)習(xí)模型部署到生產(chǎn)中,只需在 Amazon SageMaker 中選擇無服務(wù)器部署選項,Amazon SageMaker Serverless Inference 就會管理計算資源并提供所需的精確計算量。通過Amazon SageMaker Serverless Inference,客戶無需管理底層基礎(chǔ)設(shè)施,且只需為每個請求使用的算力和處理的數(shù)據(jù)量付費。