人工智能和機器學習中的算法有哪些?
人工智能(Artificial Intelligence),英文縮寫為AI。是研究、開發(fā)用于模擬、延伸和擴展人的智能的理論、方法、技術及應用系統(tǒng)的一門新技術科學。人工智能是計算機科學的一個分支,它企圖了解智能的實質(zhì),并生產(chǎn)出一種新的能以人類智能相似的方式做出反應的智能機器,該領域的研究包括機器人、語言識別、圖像識別、自然語言處理和專家系統(tǒng)等 [128]。人工智能大模型帶來的治理挑戰(zhàn)也不容忽視。 [39]馬斯克指出,在人工智能機器學習面具之下的本質(zhì)仍然是統(tǒng)計。 [33]營造良好創(chuàng)新生態(tài),需做好前瞻研究,建立健全保障人工智能健康發(fā)展的法律法規(guī)、制度體系、倫理道德。 [39]著眼未來,在重視防范風險的同時,也應同步建立容錯、糾錯機制,努力實現(xiàn)規(guī)范與發(fā)展的動態(tài)平衡。 [39]2024年12月20日,“人工智能”當選為漢語盤點2024年度國際詞 [59]。當?shù)貢r間2025年1月13日,美國拜登政府發(fā)布《人工智能擴散出口管制框架》,將對出口到全球的人工智能技術和GPU都進行三個級別的出口管制 [63-64]。1月14日,中國外交部發(fā)言人郭嘉昆表示:堅決反對美方在AI領域也搞“三六九等” [65]。截至2024年12月,中國有3.31億人表示自己聽說過生成式人工智能產(chǎn)品,占整體人口的23.5%;有2.49億人表示自己使用過生成式人工智能產(chǎn)品,占整體人口的17.7%。在生成式人工智能用戶中,利用生成式人工智能產(chǎn)品回答問題的用戶最為廣泛,占比達77.6%;將生成式人工智能產(chǎn)品作為辦公助手的用戶占比達45.5% [66]。
當今,人工智能(Artificial Intelligence)已經(jīng)深刻改變了人類生活的方方面面,并且在未來仍然會繼續(xù)發(fā)揮越來越重要的影響力?
“人工智能”這一概念在1956年于美國達特茅斯學院舉辦的一次學術集會上被首次提出,自此開啟了人工智能研究的新紀元?自此之后,人工智能在曲折中不斷發(fā)展前進?
1986年,神經(jīng)網(wǎng)絡之父Geoffrey Hinton提出了適用于多層感知機(Multilayer Perceptron,MLP)的反向傳播(Back propagation, BP)算法,并且使用Sigmoid函數(shù)實現(xiàn)非線性映射,有效解決了非線性分類和學習問題?
1989年,YannLeCun設計了第一個卷積神經(jīng)網(wǎng)絡,并將其成功應用于手寫郵政編碼識別任務中?
20世紀90年代,Cortes等人提出支持向量機(Support Vector Machine, SVM)模型,隨后SVM迅速發(fā)展成為機器學習的代表性技術之一,在文本分類?手寫數(shù)字識別?人臉檢測和生物信息處理等方面取得了巨大成功?
進入21世紀,隨著互聯(lián)網(wǎng)技術的發(fā)展與計算機硬件系統(tǒng)性能的提高,人工智能迎來了新的重大發(fā)展機遇?特別是2011年以來,以深度神經(jīng)網(wǎng)絡為代表的深度學習技術高速發(fā)展,人類在通向人工智能的道路上接連實現(xiàn)了許多重大突破?
簡單來說,算法是一組明確定義的步驟,需要按照順序執(zhí)行以達到計劃的結果。特別是,它用于求解數(shù)學方程。算法可以分為三個廣泛的組成部分:
輸入:在問題開始前就已知的信息。
算法:按照步驟一步一步地執(zhí)行的序列。
輸出:如果嚴格遵循序列中的所有步驟,則會出現(xiàn)預期結果。
在科技世界之外,一個類似于算法系統(tǒng)的例子是“烹飪”。你有你的輸入(食材、配料),你有你的算法(或多或少需要遵循的操作步驟),你有你的輸出(一道你期望中的美食)。
算法是我們數(shù)字生活的原子結構的一部分,你使用的任何計算機程序、手機APP都會運行多個算法來執(zhí)行其功能。你網(wǎng)頁瀏覽器到文字處理器,再到從Windows 3.0開始就附帶的紙牌游戲,每一個都依靠算法運行。
從根本上來說,人工智能是一種計算機程序。這意味著,和普通的電腦程序、游戲一樣,你遇到的任何 AI 或機器學習 (ML) 解決方案都將從頭開始使用算法構建。
人工智能和機器學習中的算法的作用是可變的。從廣義上講,它們定義了人工智能在處理和分析數(shù)據(jù)時將使用的規(guī)則、條件和方法。這可以像定義人工智能處理單張圖片所需的步驟一樣簡單,也可以讓人工智能在包含數(shù)十萬張圖片的數(shù)據(jù)集中過濾掉帶有狗的圖片。
分類算法:一種用于預測物品所屬的類別或類的機器學習類型。比如我們可以對人工智能進行編程,以區(qū)分垃圾郵件和您實際需要的郵件。以下是在AI和機器學習中使用的一些分類算法的示例。
1、二元邏輯回歸
二元邏輯回歸可以預測二元結果,例如是/否、通過/不通過。其他形式的邏輯回歸,如多項式回歸,可以預測三個或更多可能的結果。邏輯回歸通常用于疾病預測、欺詐檢測和客戶流失預測等案例中,可以利用其數(shù)據(jù)集來評估風險。
2、樸素貝葉斯
樸素貝葉斯是一種基于將獨立假設納入模型的概率算法,意味著它在模型中假設數(shù)據(jù)集中的兩個測量沒有關聯(lián),也不會相互影響。這就是為什么它被稱為"樸素"。它通常用于文本分析和分類模型,可以將單詞和短語分類到指定的類別中。
3、K最近鄰(k-NN)
除了有時用于解決回歸問題外,k最近鄰通常用于解決分類問題。在解決分類問題時,它將數(shù)據(jù)點分隔成多個類別,并在平面上預測新數(shù)據(jù)點的類別標簽。根據(jù)周圍所代表的類別標簽最常出現(xiàn)的情況,新的數(shù)據(jù)點被賦予一個新的分類。k-NN也被稱為"惰性學習"算法,這意味著它不需要完整的訓練步驟,而只保存一個訓練數(shù)據(jù)集。
4、決策樹
決策樹是一種監(jiān)督學習算法,也可用于分類問題和回歸問題。之所以被稱為"樹",是因為它具有層次結構。從根節(jié)點開始,它分支出更小的內(nèi)部節(jié)點或決策節(jié)點,在這些節(jié)點中進行評估以產(chǎn)生由終端節(jié)點或葉節(jié)點表示的子集。
比如從根節(jié)點開始分類武術,然后分成注重打擊的武術和注重摔跤的武術的內(nèi)部節(jié)點。這些內(nèi)部節(jié)點可以再分成特定的武術,如拳擊、柔術和泰拳的終端節(jié)點。這些算法非常適合數(shù)據(jù)挖掘和知識發(fā)現(xiàn)任務,因為它們易于解釋,并且只需要很少的數(shù)據(jù)準備就可以部署。
5、隨機森林
隨機森林算法由里奧?布雷曼和阿黛爾·卡特勒發(fā)明。它利用多個決策樹的輸出來產(chǎn)生預測結果。與決策樹類似,隨機森林既可用于解決分類問題,也可用于解決回歸問題。每棵樹都由從訓練數(shù)據(jù)集中抽取的數(shù)據(jù)樣本組成,使用帶替換的抽樣方法進行抽樣。這為決策樹增加了隨機性,即使它們來自完全相同的數(shù)據(jù)集。
在解決分類問題時,根據(jù)這些隨機決策樹的輸出來確定多數(shù)票。例如,假設有10棵決策樹專門用于確定一件連衣裙的顏色,三組說它是藍色,兩組說它是黑色,四組說它是粉色,一組說它是紅色。那么該連衣裙將被歸類為粉色,因為粉色獲得了4票的多數(shù)票。
隨機森林是金融領域機器學習模型的首選算法,因為它可以減少預處理和數(shù)據(jù)管理任務所需的時間。欺詐檢測、期權定價和客戶信用風險評估都是它在金融領域中使用的實例。
人工智能算法同時接受輸入和輸出,并使用預測模式開發(fā)邏輯,當它基于該邏輯接收到新輸入時,它將為您提供新輸出。人工智能算法生成的邏輯使它與傳統(tǒng)算法有所不同。
傳統(tǒng)算法:
傳統(tǒng)算法以代碼形式獲取一些輸入和一些邏輯,并為您提供輸出。這些都是確定的沒有預測成分。此輸出取決于算法中描述的步驟(代碼)。
人工智能 AI算法從數(shù)據(jù)中學習并提出獨特的解決方案,而傳統(tǒng)算法則在一組預定義的準則上運行,制定解決方案。
數(shù)據(jù),是AI世界的基石,就如同我們?nèi)粘W習所需要的各種資料。想象一下,你要學習繪畫,那畫冊、教程、名家作品等就是你學習的“數(shù)據(jù)”。AI也一樣,它通過大量的數(shù)據(jù)來學習和認識這個世界。這些數(shù)據(jù)形式多樣,可能是文本,比如書籍、新聞;可能是圖像,像照片、繪畫;也可能是聲音,例如音樂、語音;甚至是視頻,包含著豐富的視覺和聽覺信息。
優(yōu)質(zhì)的數(shù)據(jù)對于AI的重要性,怎么強調(diào)都不為過。如果把AI比作一個學生,那么優(yōu)質(zhì)數(shù)據(jù)就是精心編寫的教材。以圖像識別AI為例,假如要訓練一個識別水果的AI模型,給它提供清晰、準確標注的各種水果圖片,它就能很好地學習到不同水果的特征,像蘋果的圓潤、香蕉的修長、橙子的橙黃等。當面對新的水果圖片時,它就能憑借之前學到的知識準確判斷出這是什么水果。但要是提供的數(shù)據(jù)中存在錯誤標注,比如把草莓標注成櫻桃,那AI就會被誤導,在識別時出現(xiàn)錯誤。
在現(xiàn)實生活中,數(shù)據(jù)的獲取和質(zhì)量把控面臨著諸多挑戰(zhàn)。隨著互聯(lián)網(wǎng)的發(fā)展,數(shù)據(jù)量呈爆炸式增長,這看似是好事,可其中也夾雜著大量的噪聲數(shù)據(jù)、重復數(shù)據(jù)和低質(zhì)量數(shù)據(jù)。就好比在一個巨大的圖書館里,既有珍貴的經(jīng)典著作,也有一些粗制濫造的書籍。為了讓AI學到有用的知識,我們需要對數(shù)據(jù)進行清洗、篩選和標注,這個過程就像從海量書籍中挑選出真正有價值的部分,并給它們貼上準確的標簽。
例如,在醫(yī)療領域,AI要輔助醫(yī)生進行疾病診斷,就需要大量準確的病歷數(shù)據(jù)、醫(yī)學影像數(shù)據(jù)等。這些數(shù)據(jù)不僅要準確記錄患者的癥狀、檢查結果,還要經(jīng)過專業(yè)醫(yī)生的標注,才能成為AI學習的優(yōu)質(zhì)素材。只有這樣,AI才能在面對新的患者時,給出準確的診斷建議。