當前位置：首頁 > 智能硬件 > 人工智能AI

Python的幾個自然語言處理工具介紹

時間：2020-08-03 13:27:02

關(guān)鍵字： python 自然語言處理

手機看文章

掃描二維碼
隨時隨地手機看文章

[導讀] 　　Python以其清晰簡潔的語法、易用和可擴展性以及豐富龐大的庫深受廣大開發(fā)者喜愛。其內(nèi)置的非常強大的機器學習代碼庫和數(shù)學庫，使Python理所當然成為自然語言處理的開發(fā)利器。　　那

　　Python以其清晰簡潔的語法、易用和可擴展性以及豐富龐大的庫深受廣大開發(fā)者喜愛。其內(nèi)置的非常強大的機器學習代碼庫和數(shù)學庫，使Python理所當然成為自然語言處理的開發(fā)利器。

　　那么使用Python進行自然語言處理，要是不知道這幾個工具就真的Out了。

　　Python 的幾個自然語言處理工具

　　NLTK是使用Python處理語言數(shù)據(jù)的領先平臺。它為像WordNet這樣的詞匯資源提供了簡便易用的界面。它還具有為文本分類（classificaTIon）、文本標記（tokenizaTIon）、詞干提?。╯temming）、詞性標記（tagging）、語義分析（parsing）和語義推理（semanTIc reasoning）準備的文本處理庫。

　　NLTK:NLTK 在用 Python 處理自然語言的工具中處于領先的地位。它提供了 WordNet 這種方便處理詞匯資源的借口，還有分類、分詞、除莖、標注、語法分析、語義推理等類庫。

　　Pattern:Pattern 的自然語言處理工具有詞性標注工具（Part-Of-Speech Tagger），N元搜索（n-gram search），情感分析（senTIment analysis），WordNet。支持機器學習的向量空間模型，聚類，向量機。

　　TextBlob:TextBlob 是一個處理文本數(shù)據(jù)的 Python 庫。提供了一些簡單的api解決一些自然語言處理的任務，例如詞性標注、名詞短語抽取、情感分析、分類、翻譯等等。

　　Gensim:Gensim 提供了對大型語料庫的主題建模、文件索引、相似度檢索的功能。它可以處理大于RAM內(nèi)存的數(shù)據(jù)。作者說它是“實現(xiàn)無干預從純文本語義建模的最強大、最高效、最無障礙的軟件。

　　PyNLPI：它的全稱是：Python自然語言處理庫（Python Natural Language Processing Library，音發(fā)作： pineapple）這是一個各種自然語言處理任務的集合，PyNLPI可以用來處理N元搜索，計算頻率表和分布，建立語言模型。他還可以處理向優(yōu)先隊列這種更加復雜的數(shù)據(jù)結(jié)構(gòu)，或者像 Beam 搜索這種更加復雜的算法。

　　spaCy：這是一個商業(yè)的開源軟件。結(jié)合Python和Cython，它的自然語言處理能力達到了工業(yè)強度。是速度最快，領域內(nèi)最先進的自然語言處理工具。

　　Polyglot:Polyglot 支持對海量文本和多語言的處理。它支持對165種語言的分詞，對196中語言的辨識，40種語言的專有名詞識別，16種語言的詞性標注，136種語言的情感分析，137種語言的嵌入，135種語言的形態(tài)分析，以及69中語言的翻譯。

　　MontyLingua:MontyLingua 是一個自由的、訓練有素的、端到端的英文處理工具。輸入原始英文文本到 MontyLingua ，就會得到這段文本的語義解釋。適合用來進行信息檢索和提取，問題處理，回答問題等任務。從英文文本中，它能提取出主動賓元組，形容詞、名詞和動詞短語，人名、地名、事件，日期和時間，等語義信息。

　　BLLIP Parser:BLLIP Parser（也叫做Charniak-Johnson parser）是一個集成了產(chǎn)生成分分析和最大熵排序的統(tǒng)計自然語言工具。包括命令行和 python接口。

　　Quepy:Quepy是一個Python框架，提供將自然語言轉(zhuǎn)換成為數(shù)據(jù)庫查詢語言?？梢暂p松地實現(xiàn)不同類型的自然語言和數(shù)據(jù)庫查詢語言的轉(zhuǎn)化。所以，通過Quepy，僅僅修改幾行代碼，就可以實現(xiàn)你自己的自然語言查詢數(shù)據(jù)庫系統(tǒng)。GitHub:https://github.com/machinalis/quepy

　　HanNLP：HanLP是由一系列模型與算法組成的Java工具包，目標是普及自然語言處理在生產(chǎn)環(huán)境中的應用。不僅僅是分詞，而是提供詞法分析、句法分析、語義理解等完備的功能。HanLP具備功能完善、性能高效、架構(gòu)清晰、語料時新、可自定義的特點。文檔使用操作說明：Python調(diào)用自然語言處理包HanLP 和菜鳥如何調(diào)用HanNLP

本站聲明：本文章由作者或相關(guān)機構(gòu)授權(quán)發(fā)布，目的在于傳遞更多信息，并不代表本站贊同其觀點，本站亦不保證或承諾內(nèi)容真實性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者，如若文章內(nèi)容侵犯您的權(quán)益，請及時聯(lián)系本站刪除。

換一批

阿維塔、賽力斯已入股！華為引望可能成“中國博世”

9月2日消息，不造車的華為或?qū)⒋呱龈蟮莫毥谦F公司，隨著阿維塔和賽力斯的入局，華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字：阿維塔塞力斯華為

[美通社全球TMT]

Trianz與AWS達成戰(zhàn)略合作協(xié)議，徹底改變云采用和管理方式

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數(shù)字化轉(zhuǎn)型技術(shù)解決方案公司Trianz今天宣布，該公司與Amazon Web Services （AWS）簽訂了...

關(guān)鍵字： AWS AN BSP 數(shù)字化

[美通社全球TMT]

人工智能驅(qū)動工具SODA V將顛覆汽車市場，使汽車開發(fā)時間和成本降低90%

倫敦2024年8月29日 /美通社/ -- 英國汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V，這是全球首款涵蓋汽車工程師從創(chuàng)意到認證的所有需求的工具，可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時1.5...

關(guān)鍵字：汽車人工智能智能驅(qū)動 BSP

[美通社全球TMT]

從容應對未知風險----解密亞馬遜云科技的韌性之道

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務能7×24不間斷運行，同時企業(yè)卻面臨越來越多業(yè)務中斷的風險，如企業(yè)系統(tǒng)復雜性的增加，頻繁的功能更新和發(fā)布等。如何確保業(yè)務連續(xù)性，提升韌性，成...

關(guān)鍵字：亞馬遜解密控制平面 BSP

[通信先鋒]

中國游戲市場開始復蘇！騰訊、網(wǎng)易等巨頭縮減在日本投資

8月30日消息，據(jù)媒體報道，騰訊和網(wǎng)易近期正在縮減他們對日本游戲市場的投資。

關(guān)鍵字：騰訊編碼器 CPU

[通信先鋒]

獨立自主！華為董事：致力打造不依賴西方的技術(shù)

8月28日消息，今天上午，2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會開幕式在貴陽舉行，華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字：華為 12nm EDA 半導體

[通信先鋒]

華為張平安：數(shù)字世界話語權(quán)最終由生態(tài)繁榮決定！

8月28日消息，在2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會上，華為常務董事、華為云CEO張平安發(fā)表演講稱，數(shù)字世界的話語權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字：華為 12nm 手機衛(wèi)星通信

[美通社全球TMT]

中國通信服務公布2024年中期業(yè)績

要點：有效應對環(huán)境變化，經(jīng)營業(yè)績穩(wěn)中有升落實提質(zhì)增效舉措，毛利潤率延續(xù)升勢戰(zhàn)略布局成效顯著，戰(zhàn)新業(yè)務引領增長以科技創(chuàng)新為引領，提升企業(yè)核心競爭力堅持高質(zhì)量發(fā)展策略，塑強核心競爭優(yōu)勢...

關(guān)鍵字：通信 BSP 電信運營商數(shù)字經(jīng)濟

[美通社全球TMT]

NVI技術(shù)創(chuàng)新聯(lián)盟成立！自主生態(tài)將帶動產(chǎn)業(yè)鏈高速發(fā)展

北京2024年8月27日 /美通社/ -- 8月21日，由中央廣播電視總臺與中國電影電視技術(shù)學會聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會上宣布正式成立。活動現(xiàn)場 NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字： VI 傳輸協(xié)議音頻 BSP

[美通社全球TMT]