當(dāng)前位置：首頁 > 智能硬件 > 人工智能AI

一文讀懂機器學(xué)習(xí)的線性代數(shù)（10案例）

時間：2020-07-20 11:24:01

關(guān)鍵字： GPU 華為機器學(xué)習(xí)

手機看文章

掃描二維碼
隨時隨地手機看文章

[導(dǎo)讀] 線性代數(shù)是數(shù)學(xué)的分支學(xué)科，涉及矢量、矩陣和線性變換。它是機器學(xué)習(xí)的重要基礎(chǔ)，從描述算法操作的符號到代碼中算法的實現(xiàn)，都屬于該學(xué)科的研究范圍。雖然線性代數(shù)是機器學(xué)習(xí)領(lǐng)域不可或缺

線性代數(shù)是數(shù)學(xué)的分支學(xué)科，涉及矢量、矩陣和線性變換。

它是機器學(xué)習(xí)的重要基礎(chǔ)，從描述算法操作的符號到代碼中算法的實現(xiàn)，都屬于該學(xué)科的研究范圍。

雖然線性代數(shù)是機器學(xué)習(xí)領(lǐng)域不可或缺的一部分，但二者的緊密關(guān)系往往無法解釋，或只能用抽象概念（如向量空間或特定矩陣運算）解釋。

閱讀這篇文章后，你將會了解到：

如何在處理數(shù)據(jù)時使用線性代數(shù)結(jié)構(gòu)，如表格數(shù)據(jù)集和圖像。

數(shù)據(jù)準(zhǔn)備過程中用到的線性代數(shù)概念，例如 one-hot 編碼和降維。

深度學(xué)習(xí)、自然語言處理和推薦系統(tǒng)等子領(lǐng)域中線性代數(shù)符號和方法的深入使用。

讓我們開始吧。

這 10 個機器學(xué)習(xí)案例分別是：

Dataset and Data Files 數(shù)據(jù)集和數(shù)據(jù)文件

Images and Photographs 圖像和照片

One-Hot Encoding one-hot 編碼

Linear Regression 線性回歸

RegularizaTIon 正則化

Principal Component Analysis 主成分分析

Singular-Value DecomposiTIon 奇異值分解

Latent SemanTIc Analysis 潛在語義分析

Recommender Systems 推薦系統(tǒng)

Deep Learning 深度學(xué)習(xí)

1. 數(shù)據(jù)集和數(shù)據(jù)文件

在機器學(xué)習(xí)中，你可以在數(shù)據(jù)集上擬合一個模型。

這是表格式的一組數(shù)字，其中每行代表一組觀察值，每列代表觀測的一個特征。

例如，下面這組數(shù)據(jù)是鳶尾花數(shù)據(jù)集的一部分

5.1，3.5，1.4，0.2，Iris-setosa

4.9，3.0，1.4，0.2，Iris-setosa

4.7，3.2，1.3，0.2，Iris-setosa

4.6，3.1，1.5，0.2，Iris-setosa

5.0，3.6，1.4，0.2，Iris-setosa

這些數(shù)據(jù)實際上是一個矩陣：線性代數(shù)中的一個關(guān)鍵數(shù)據(jù)結(jié)構(gòu)。

接下來，將數(shù)據(jù)分解為輸入數(shù)據(jù)和輸出數(shù)據(jù)，來擬合一個監(jiān)督機器學(xué)習(xí)模型（如測量值和花卉品種），得到矩陣（X）和矢量（y）。矢量是線性代數(shù)中的另一個關(guān)鍵數(shù)據(jù)結(jié)構(gòu)。

每行長度相同，即每行的數(shù)據(jù)個數(shù)相同，因此我們可以說數(shù)據(jù)是矢量化的。這些行數(shù)據(jù)可以一次性或成批地提供給模型，并且可以預(yù)先配置模型，以得到固定寬度的行數(shù)據(jù)。

2. 圖像和照片

也許你更習(xí)慣于在計算機視覺應(yīng)用中處理圖像或照片。

你使用的每個圖像本身都是一個固定寬度和高度的表格結(jié)構(gòu)，每個單元格有用于表示黑白圖像的 1 個像素值或表示彩色圖像的 3 個像素值。

照片也是線性代數(shù)矩陣的一種。

與圖像相關(guān)的操作，如裁剪、縮放、剪切等，都是使用線性代數(shù)的符號和運算來描述的。

3. one-hot 編碼

有時機器學(xué)習(xí)中要用到分類數(shù)據(jù)。

可能是用于解決分類問題的類別標(biāo)簽，也可能是分類輸入變量。

對分類變量進行編碼以使它們更易于使用并通過某些技術(shù)進行學(xué)習(xí)是很常見的。one-hot 編碼是一種常見的分類變量編碼。

one-hot 編碼可以理解為：創(chuàng)建一個表格，用列表示每個類別，用行表示數(shù)據(jù)集中每個例子。在列中為給定行的分類值添加一個檢查或「1」值，并將「0」值添加到所有其他列。

例如，共計 3 行的顏色變量：

red

green

blue

。。.

這些變量可能被編碼為：

red， green， blue 1， 0， 0 0， 1， 0 0， 0， 1 。。.

每一行都被編碼為一個二進制矢量，一個被賦予「0」或「1」值的矢量。這是一個稀疏表征的例子，線性代數(shù)的一個完整子域。

4. 線性回歸

線性回歸是一種用于描述變量之間關(guān)系的統(tǒng)計學(xué)傳統(tǒng)方法。

該方法通常在機器學(xué)習(xí)中用于預(yù)測較簡單的回歸問題的數(shù)值。

描述和解決線性回歸問題有很多種方法，即找到一組系數(shù)，用這些系數(shù)與每個輸入變量相乘并將結(jié)果相加，得出最佳的輸出變量預(yù)測。

如果您使用過機器學(xué)習(xí)工具或機器學(xué)習(xí)庫，解決線性回歸問題的最常用方法是通過最小二乘優(yōu)化，這一方法是使用線性回歸的矩陣分解方法解決的（例如 LU 分解或奇異值分解）。

即使是線性回歸方程的常用總結(jié)方法也使用線性代數(shù)符號：

y = A 。 b

其中，y 是輸出變量，A 是數(shù)據(jù)集，b 是模型系數(shù)。

5. 正則化

在應(yīng)用機器學(xué)習(xí)時，我們往往尋求最簡單可行的模型來發(fā)揮解決問題的最佳技能。

較簡單的模型通常更擅長從具體示例泛化到未見過的數(shù)據(jù)。

在涉及系數(shù)的許多方法中，例如回歸方法和人工神經(jīng)網(wǎng)絡(luò)，較簡單的模型通常具有較小的系數(shù)值。

一種常用于模型在數(shù)據(jù)擬合時盡量減小系數(shù)值的技術(shù)稱為正則化，常見的實現(xiàn)包括正則化的 L2 和 L1 形式。

這兩種正則化形式實際上是系數(shù)矢量的大小或長度的度量，是直接脫胎于名為矢量范數(shù)的線性代數(shù)方法。

6. 主成分分析

通常，數(shù)據(jù)集有許多列，列數(shù)可能達(dá)到數(shù)十、數(shù)百、數(shù)千或更多。

對具有許多特征的數(shù)據(jù)進行建模具有一定的挑戰(zhàn)性。而且，從包含不相關(guān)特征的數(shù)據(jù)構(gòu)建的模型通常不如用最相關(guān)的數(shù)據(jù)訓(xùn)練的模型。

我們很難知道數(shù)據(jù)的哪些特征是相關(guān)的，而哪些特征又不相關(guān)。

自動減少數(shù)據(jù)集列數(shù)的方法稱為降維，其中也許最流行的方法是主成分分析法（簡稱 PCA）。

該方法在機器學(xué)習(xí)中，為可視化和模型創(chuàng)建高維數(shù)據(jù)的投影。

PCA 方法的核心是線性代數(shù)的矩陣分解方法，可能會用到特征分解，更廣義的實現(xiàn)可以使用奇異值分解（SVD）。

7. 奇異值分解

另一種流行的降維方法是奇異值分解方法，簡稱 SVD。

如上所述，正如該方法名稱所示，它是源自線性代數(shù)領(lǐng)域的矩陣分解方法。

該方法在線性代數(shù)中有廣泛的用途，可直接應(yīng)用于特征選擇、可視化、降噪等方面。

在機器學(xué)習(xí)中我們會看到以下兩個使用 SVD 的情況。

8. 潛在語義分析

在用于處理文本數(shù)據(jù)的機器學(xué)習(xí)子領(lǐng)域（稱為自然語言處理），通常將文檔表示為詞出現(xiàn)的大矩陣。

例如，矩陣的列可以是詞匯表中的已知詞，行可以是文本的句子、段落、頁面或文檔，矩陣中的單元格標(biāo)記為單詞出現(xiàn)的次數(shù)或頻率。

這是文本的稀疏矩陣表示。矩陣分解方法（如奇異值分解）可以應(yīng)用于此稀疏矩陣，該分解方法可以提煉出矩陣表示中相關(guān)性最強的部分。以這種方式處理的文檔比較容易用來比較、查詢，并作為監(jiān)督機器學(xué)習(xí)模型的基礎(chǔ)。

這種形式的數(shù)據(jù)準(zhǔn)備稱為潛在語義分析（簡稱 LSA），也稱為潛在語義索引（LSI）。

9. 推薦系統(tǒng)

涉及產(chǎn)品推薦的預(yù)測建模問題被稱為推薦系統(tǒng)，這是機器學(xué)習(xí)的一個子領(lǐng)域。

例如，基于你在亞馬遜上的購買記錄和與你類似的客戶的購買記錄向你推薦書籍，或根據(jù)你或與你相似的用戶在 Netflix 上的觀看歷史向你推薦電影或電視節(jié)目。

推薦系統(tǒng)的開發(fā)主要涉及線性代數(shù)方法。一個簡單的例子就是使用歐式距離或點積之類的距離度量來計算稀疏顧客行為向量之間的相似度。

像奇異值分解這樣的矩陣分解方法在推薦系統(tǒng)中被廣泛使用，以提取項目和用戶數(shù)據(jù)的有用部分，以備查詢、檢索及比較。

10. 深度學(xué)習(xí)

人工神經(jīng)網(wǎng)絡(luò)是一種非線性機器學(xué)習(xí)算法，它受大腦中信息處理元素的啟發(fā)，其有效性已經(jīng)在一系列問題中得到驗證，其中最重要的是預(yù)測建模。

深度學(xué)習(xí)是近期出現(xiàn)的、使用最新方法和更快硬件的人工神經(jīng)網(wǎng)絡(luò)的復(fù)興，這一方法使得在非常大的數(shù)據(jù)集上開發(fā)和訓(xùn)練更大更深的（更多層）網(wǎng)絡(luò)成為可能。深度學(xué)習(xí)方法通常會在機器翻譯、照片字幕、語音識別等一系列具有挑戰(zhàn)性的領(lǐng)域取得最新成果。

神經(jīng)網(wǎng)絡(luò)的執(zhí)行涉及線性代數(shù)數(shù)據(jù)結(jié)構(gòu)的相乘和相加。如果擴展到多個維度，深度學(xué)習(xí)方法可以處理向量、矩陣，甚至輸入和系數(shù)的張量，此處的張量是一個兩維以上的矩陣。

線性代數(shù)是描述深度學(xué)習(xí)方法的核心，它通過矩陣表示法來實現(xiàn)深度學(xué)習(xí)方法，例如 Google 的 TensorFlow Python 庫，其名稱中包含「tensor」一詞。

本站聲明：本文章由作者或相關(guān)機構(gòu)授權(quán)發(fā)布，目的在于傳遞更多信息，并不代表本站贊同其觀點，本站亦不保證或承諾內(nèi)容真實性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者，如若文章內(nèi)容侵犯您的權(quán)益，請及時聯(lián)系本站刪除。

換一批

阿維塔、賽力斯已入股！華為引望可能成“中國博世”

9月2日消息，不造車的華為或?qū)⒋呱龈蟮莫毥谦F公司，隨著阿維塔和賽力斯的入局，華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字：阿維塔塞力斯華為

[美通社全球TMT]

Trianz與AWS達(dá)成戰(zhàn)略合作協(xié)議，徹底改變云采用和管理方式

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數(shù)字化轉(zhuǎn)型技術(shù)解決方案公司Trianz今天宣布，該公司與Amazon Web Services （AWS）簽訂了...

關(guān)鍵字： AWS AN BSP 數(shù)字化

[美通社全球TMT]

人工智能驅(qū)動工具SODA V將顛覆汽車市場，使汽車開發(fā)時間和成本降低90%

倫敦2024年8月29日 /美通社/ -- 英國汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V，這是全球首款涵蓋汽車工程師從創(chuàng)意到認(rèn)證的所有需求的工具，可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時1.5...

關(guān)鍵字：汽車人工智能智能驅(qū)動 BSP

[美通社全球TMT]

從容應(yīng)對未知風(fēng)險----解密亞馬遜云科技的韌性之道

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運行，同時企業(yè)卻面臨越來越多業(yè)務(wù)中斷的風(fēng)險，如企業(yè)系統(tǒng)復(fù)雜性的增加，頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性，提升韌性，成...

關(guān)鍵字：亞馬遜解密控制平面 BSP

[通信先鋒]

中國游戲市場開始復(fù)蘇！騰訊、網(wǎng)易等巨頭縮減在日本投資

8月30日消息，據(jù)媒體報道，騰訊和網(wǎng)易近期正在縮減他們對日本游戲市場的投資。

關(guān)鍵字：騰訊編碼器 CPU

[通信先鋒]

獨立自主！華為董事：致力打造不依賴西方的技術(shù)

8月28日消息，今天上午，2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會開幕式在貴陽舉行，華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字：華為 12nm EDA 半導(dǎo)體

[通信先鋒]

華為張平安：數(shù)字世界話語權(quán)最終由生態(tài)繁榮決定！

8月28日消息，在2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會上，華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱，數(shù)字世界的話語權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字：華為 12nm 手機衛(wèi)星通信

[美通社全球TMT]

中國通信服務(wù)公布2024年中期業(yè)績

要點：有效應(yīng)對環(huán)境變化，經(jīng)營業(yè)績穩(wěn)中有升落實提質(zhì)增效舉措，毛利潤率延續(xù)升勢戰(zhàn)略布局成效顯著，戰(zhàn)新業(yè)務(wù)引領(lǐng)增長以科技創(chuàng)新為引領(lǐng)，提升企業(yè)核心競爭力堅持高質(zhì)量發(fā)展策略，塑強核心競爭優(yōu)勢...

關(guān)鍵字：通信 BSP 電信運營商數(shù)字經(jīng)濟

[美通社全球TMT]

NVI技術(shù)創(chuàng)新聯(lián)盟成立！自主生態(tài)將帶動產(chǎn)業(yè)鏈高速發(fā)展

北京2024年8月27日 /美通社/ -- 8月21日，由中央廣播電視總臺與中國電影電視技術(shù)學(xué)會聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會上宣布正式成立。活動現(xiàn)場 NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字： VI 傳輸協(xié)議音頻 BSP

[美通社全球TMT]