當前位置：首頁 > 智能硬件 > 人工智能AI

python自然語言處理基礎知識入門

時間：2020-08-03 13:33:02

關鍵字： python 自然語言處理

手機看文章

掃描二維碼
隨時隨地手機看文章

[導讀] 　　自然語言處理　　自然語言處理廣納了眾多技術，對自然或人類語言進行自動生成，處理與分析。雖然大部分 NLP 技術繼承自語言學和人工智能，但同樣受到諸如機器學習，計算統(tǒng)計學和認知科學這

　　自然語言處理

　　自然語言處理廣納了眾多技術，對自然或人類語言進行自動生成，處理與分析。雖然大部分 NLP 技術繼承自語言學和人工智能，但同樣受到諸如機器學習，計算統(tǒng)計學和認知科學這些相對新興的學科影響。

　　在展示 NLP 技術的例子前，有必要介紹些非?；A的術語。請注意：為了讓文章通俗易懂，這些定義在語言上就不一定考究。

　　詞例（Token）：對輸入文本做任何實際處理前，都需要將其分割成諸如詞、標點符號、數(shù)字或純字母數(shù)字（alphanumerics）等語言單元（linguisTIc units）。這些單元被稱為詞例。

　　句子：由有序的詞例序列組成。

　　詞例還原（TokenizaTIon）：將句子還原成所組成的詞例。以分割型語言（segmented languages）英語為例，空格的存在使詞例還原變得相對容易同時也索然無味。然而，對于漢語和阿拉伯語，因為沒有清晰的邊界，這項工作就稍顯困難。另外，在某些非分割型語言（non-segmented languages）中，幾乎所有的字符（characters）都能以單字（one-character）存在，但同樣也可以組合在一起形成多字（mulTI-characterwords）形式。

　　語料庫：通常是由豐富句子組成的海量文本。

　　詞性標簽（Part-of-speech （POS） Tag）：任一單詞都能被歸入到至少一類詞匯集（set of lexical）或詞性條目（part-of-speech categories）中，例如：名詞、動詞、形容詞和冠詞等。詞性標簽用符號來代表一種詞匯條目——NN（名詞）、VB（動詞）、JJ（形容詞）和 AT（冠詞）。Brown Corpus 是最悠久，也是最常用的標注集之一。詳情且聽下回分解。

　　剖析樹（Parse Tree）：利用形式語法（formal grammar）的定義，可以用樹狀圖來表示給定句子的句法（syntacTIc）結構。

　　認識了基本的術語，下面讓我們了解 NLP 常見的任務：

　　詞性標注（POS Tagging）：給定一個句子和組詞性標簽，常見的語言處理就是對句子中的每個詞進行標注。舉個例子，The ball is red，詞性標注后將變成 The/AT ball/NN is/VB red/JJ。最先進的詞性標注器［9］準確率高達 96%。文本的詞性標注對于更復雜的 NLP 問題，例如我們后面會討論到的句法分析（parsing）和機器翻譯（machine translation）非常必要。

　　計算形態(tài)學（Computational Morphology）：大量建立在“語素”（morphemes/stems）基礎上的詞組成了自然語言，語素雖然是最小的語言單元，卻富含意義。計算形態(tài)學所關心的是用計算機發(fā)掘和分析詞的內(nèi)部結構。

　　句法分析（Parsing）：在語法分析的問題中，句法分析器（parser）將給定句子構造成剖析樹。為了分析語法，某些分析器假定一系列語法規(guī)則存在，但目前的解析器已經(jīng)足夠機智地借助復雜的統(tǒng)計模型［1］直接推斷分析樹。多數(shù)分析器能夠在監(jiān)督式設置（supervised setting）下操作并且句子已經(jīng)被詞性標注過了。統(tǒng)計句法分析是自然語言處理中非常活躍的研究領域。

　　機器翻譯（Machine Translation（MT））：機器翻譯的目的是讓計算機在沒有人工干預的情況下，將給定某種語言的文本流暢地翻譯成另一種語言文本。這是自然語言處理中最艱巨的任務之一，這些年來已經(jīng)用許多不同的方式解決。幾乎所有的機器翻譯方法都依賴了詞性標注和句法分析作為預處理。

　　Python

　　Python 是一種動態(tài)類型（dynamically-typed），面向對象的解釋式（interpreted）編程語言。雖然它的主要優(yōu)勢在于允許編程人員快速開發(fā)項目，但是大量的標準庫使它依然能適應大規(guī)模產(chǎn)品級工程項目。Python 的學習曲線非常陡峭并且有許多優(yōu)秀的在線學習資源［

　　NLTK自然語言處理工具包　　NLTK簡介

　　NLTK是構建Python程序與人類語言數(shù)據(jù)工作的主要平臺。它提供了易于使用的界面，以超過50語料庫和詞匯資源，如WordNet的，連同一套文字處理庫進行分類，標記化，詞干，標記，分析和語義推理，和活躍的論壇。

　　得益于動手指南介紹編程基礎在旁邊計算語言學課題，NLTK適合語言學家，工程師，學生，教育工作者，研究人員和行業(yè)用戶的一致好評。 NLTK可用于Windows，Mac OS X和Linux。最重要的是，NLTK是一個免費，開源，社區(qū)驅動的項目。

　　使用 NLTK

　　NLTK 官網(wǎng)提供了很棒的說明文件和教程進行學習指導［13］。單純復述那些作者們的文字對于他們和本文都不公平。因此我會通過處理四個難度系數(shù)依次上升的 NLP 任務來介紹 NLTK。這些任務都來自于 NLTK 教程中沒有給出答案的練習或者變化過。所以每個任務的解決辦法和分析都是本文原創(chuàng)的。

　　NLTK 語料庫

　　正如前文所說，NLTK 囊括數(shù)個在 NLP 研究圈里廣泛使用的實用語料庫。在本節(jié)中，我們來看看三個下文會用到的語料庫：

　　布朗語料庫（Brown Corpus）：Brown Corpus of Standard American English 被認為是第一個可以在計算語言學處理［6］中使用的通用英語語料庫。它包含了一百萬字 1961 年出版的美語文本。它代表了通用英語的樣本，采樣自小說，新聞和宗教文本。隨后，在大量的人工標注后，誕生了詞性標注過的版本。

　　古登堡語料庫（Gutenberg Corpus）：古登堡語料庫從最大的在線免費電子書［5］平臺古登堡計劃（Gutenberg Project）中選擇了 14 個文本，整個語料庫包含了一百七十萬字。

　　Stopwords Corpus：除了常規(guī)的文本文字，另一類諸如介詞，補語，限定詞等含有重要的語法功能，自身卻沒有什么含義的詞被稱為停用詞（stop words）。NLTK 所收集的停用詞語料庫（Stopwords Corpus）包含了來自 11 種不同語言（包括英語）的 2400 個停用詞。

　　NLTK 命名約定

　　在開始利用 NLTK 處理我們的任務以前，我們先來熟悉一下它的命名約定（naming conventions）。最頂層的包（package）是 nltk，我們通過使用完全限定（fully qualified）的加點名稱例如：nltk.corpus and nltk.utilities 來引用它的內(nèi)置模塊。任何模塊都能利用 Python 的標準結構 from 。。。 import 。。。來導入頂層的命名空間。

　　windows下NLTK環(huán)境搭建

　　python安裝

　　選擇 2.7x版本進行下載，不建議下載3.X版本，因為現(xiàn)在很多python代碼庫還是基于舊的版本編寫的，所以不建議使用3.X版本。安裝完成后，使用打開自帶的IDLE，結果如下：

　　Note：

　　推薦編寫python代碼好用的IDE：pycharm，上手比較簡單，文檔較齊全

　　下載地址：http://www.jetbrains.com/pycharm/

　　附幾個PyCharm4注冊碼：

　　name ：newasp

　　=====LICENSE BEGIN =====

　　09086-12042010

　　00001EBwqd8wkmP2FM34Z05iXch1Ak

　　KI0bAod8jkIffywp2WalWZejIQ6AAu

　　AVVPbzHZpOvqvdJFHEBbvbXW2t1jQI

　　=====LICENSE END =====

　　name ：newasp

　　=====LICENSE BEGIN =====

　　58877-12042010

　　00002h9ii68IdWfbdJz2UraWcsVxFY

　?。1WD9cwRDMoW2pOUeC0WBqLAMo5PX

　　lQ7cE8qMukEYuWY6！EnjYWn！2EDTio

　　=====LICENSE END =====

　　name ：newasp

　　=====LICENSE BEGIN =====

　　46753-12042010

　　000013xjAPHl95oQRCb“KnLsrXfWYa

　　L3aYClCOtBVysdtzBBPU5XCB3QUjLC

　　T1yMRB7YNC0d15A2cbwXTwXCwCjJEP

　　=====LICENSE END =====

　　name ：newasp

　　=====LICENSE BEGIN =====

　　62458-12042010

　　00002r53OfrSCVqjsI0zdG5E4pMM5Z

　　dBAGbxVOX！OPwIkBqunfKf2zQDgECf

　　XrLosbjBEp！2JfFuydkblmqWPevvB0

　　===== LICENSE END =====

本站聲明：本文章由作者或相關機構授權發(fā)布，目的在于傳遞更多信息，并不代表本站贊同其觀點，本站亦不保證或承諾內(nèi)容真實性等。需要轉載請聯(lián)系該專欄作者，如若文章內(nèi)容侵犯您的權益，請及時聯(lián)系本站刪除。

換一批

阿維塔、賽力斯已入股！華為引望可能成“中國博世”

9月2日消息，不造車的華為或將催生出更大的獨角獸公司，隨著阿維塔和賽力斯的入局，華為引望愈發(fā)顯得引人矚目。

關鍵字：阿維塔塞力斯華為

[美通社全球TMT]

Trianz與AWS達成戰(zhàn)略合作協(xié)議，徹底改變云采用和管理方式

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數(shù)字化轉型技術解決方案公司Trianz今天宣布，該公司與Amazon Web Services （AWS）簽訂了...

關鍵字： AWS AN BSP 數(shù)字化

[美通社全球TMT]

人工智能驅動工具SODA V將顛覆汽車市場，使汽車開發(fā)時間和成本降低90%

倫敦2024年8月29日 /美通社/ -- 英國汽車技術公司SODA.Auto推出其旗艦產(chǎn)品SODA V，這是全球首款涵蓋汽車工程師從創(chuàng)意到認證的所有需求的工具，可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時1.5...

關鍵字：汽車人工智能智能驅動 BSP

[美通社全球TMT]

從容應對未知風險----解密亞馬遜云科技的韌性之道

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務能7×24不間斷運行，同時企業(yè)卻面臨越來越多業(yè)務中斷的風險，如企業(yè)系統(tǒng)復雜性的增加，頻繁的功能更新和發(fā)布等。如何確保業(yè)務連續(xù)性，提升韌性，成...

關鍵字：亞馬遜解密控制平面 BSP

[通信先鋒]

中國游戲市場開始復蘇！騰訊、網(wǎng)易等巨頭縮減在日本投資

8月30日消息，據(jù)媒體報道，騰訊和網(wǎng)易近期正在縮減他們對日本游戲市場的投資。

關鍵字：騰訊編碼器 CPU

[通信先鋒]

獨立自主！華為董事：致力打造不依賴西方的技術

8月28日消息，今天上午，2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會開幕式在貴陽舉行，華為董事、質量流程IT總裁陶景文發(fā)表了演講。

關鍵字：華為 12nm EDA 半導體

[通信先鋒]

華為張平安：數(shù)字世界話語權最終由生態(tài)繁榮決定！

8月28日消息，在2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會上，華為常務董事、華為云CEO張平安發(fā)表演講稱，數(shù)字世界的話語權最終是由生態(tài)的繁榮決定的。

關鍵字：華為 12nm 手機衛(wèi)星通信

[美通社全球TMT]

中國通信服務公布2024年中期業(yè)績

要點：有效應對環(huán)境變化，經(jīng)營業(yè)績穩(wěn)中有升落實提質增效舉措，毛利潤率延續(xù)升勢戰(zhàn)略布局成效顯著，戰(zhàn)新業(yè)務引領增長以科技創(chuàng)新為引領，提升企業(yè)核心競爭力堅持高質量發(fā)展策略，塑強核心競爭優(yōu)勢...

關鍵字：通信 BSP 電信運營商數(shù)字經(jīng)濟

[美通社全球TMT]

NVI技術創(chuàng)新聯(lián)盟成立！自主生態(tài)將帶動產(chǎn)業(yè)鏈高速發(fā)展

北京2024年8月27日 /美通社/ -- 8月21日，由中央廣播電視總臺與中國電影電視技術學會聯(lián)合牽頭組建的NVI技術創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會上宣布正式成立。活動現(xiàn)場 NVI技術創(chuàng)新聯(lián)...

關鍵字： VI 傳輸協(xié)議音頻 BSP

[美通社全球TMT]