基于樸素貝葉斯的細(xì)粒度意見(jiàn)挖掘
掃描二維碼
隨時(shí)隨地手機(jī)看文章
引 言
網(wǎng)絡(luò)社會(huì)的發(fā)展,一方面給人們的生活帶來(lái)翻天覆地的變化,另一方面也產(chǎn)生了大量有價(jià)值的網(wǎng)絡(luò)數(shù)據(jù)。人們可以享受網(wǎng)絡(luò)帶來(lái)的便利,也可以利用網(wǎng)絡(luò)數(shù)據(jù)創(chuàng)造財(cái)富,這就需要從海量數(shù)據(jù)中挖掘價(jià)值。產(chǎn)品評(píng)論是網(wǎng)絡(luò)數(shù)據(jù)的產(chǎn)物之一,分析評(píng)論文本的評(píng)價(jià)傾向,一方面可以很好地了解用戶的反饋,另一方面也有助于產(chǎn)品的改進(jìn)。粗粒度的意見(jiàn)挖掘是通過(guò)統(tǒng)計(jì)正負(fù)面文本的數(shù)量來(lái)判斷一個(gè)產(chǎn)品的整體受歡迎程度。本文不同于粗粒度意見(jiàn)挖掘,旨在分析評(píng)論文本中的每個(gè)詞,確保用戶可以了解產(chǎn)品細(xì)節(jié),通過(guò)分析每個(gè)詞,從而挖掘出用戶對(duì)產(chǎn)品各個(gè)屬性的意見(jiàn),即細(xì)粒度意見(jiàn)挖掘。細(xì)粒度意見(jiàn)挖掘的主體是詞,而非文本,可以分析出產(chǎn)品評(píng)論中參與評(píng)價(jià)的各個(gè)要素,包括評(píng)價(jià)主體、正負(fù)面評(píng)價(jià)詞以及其他的背景詞。相比粗粒度意見(jiàn)挖掘更加精細(xì),粗粒度的意見(jiàn)挖掘是一種粗糙的觀點(diǎn)分析,其目的是分析篇章、句子級(jí)別文本的正負(fù)面觀點(diǎn)。
篇章級(jí)別的意見(jiàn)挖掘反映的是文檔整體的觀點(diǎn)。文獻(xiàn) [1] 對(duì)評(píng)論文章整體的意見(jiàn)進(jìn)行挖掘就是篇章級(jí)別的,其采用的是無(wú)監(jiān)督學(xué)習(xí)算法,通過(guò)計(jì)算候選情感詞與正負(fù)面情感種子詞之間的點(diǎn)互信息(Point Mutual Information,PMI)值的差值來(lái)確定文章中所有情感詞的平均情感值,也就是挖掘出文章整體的情感傾向。文獻(xiàn) [2] 提出基于深度學(xué)習(xí)的金融情感分析,采用 LSTM,doc2vec 和卷積神經(jīng)網(wǎng)絡(luò)三種模型對(duì)StockTwits 社區(qū)的股票評(píng)論進(jìn)行情感分析。
句子級(jí)別的意見(jiàn)挖掘反映的是文本的觀點(diǎn)。文獻(xiàn) [3]采用樸素貝葉斯方法對(duì)微博文本情感傾向性進(jìn)行分類。文獻(xiàn) [4]提出一種半監(jiān)督的方法將句子分為正面評(píng)價(jià)和負(fù)面評(píng)價(jià)。
細(xì)粒度意見(jiàn)挖掘是分析評(píng)論主體,及其相關(guān)的特征屬性, 確保得到用戶對(duì)產(chǎn)品各個(gè)屬性的具體意見(jiàn)。主要有三類方法 : 關(guān)聯(lián)規(guī)則法、機(jī)器學(xué)習(xí)法和深度學(xué)習(xí)法。
關(guān)聯(lián)規(guī)則法 [5] 最早是由 Hu 等人提出,采用這種方法來(lái)挖掘文本中的評(píng)價(jià)對(duì)象和評(píng)價(jià)詞。Popescu 等人在關(guān)聯(lián)規(guī)則法的基礎(chǔ)上,結(jié)合點(diǎn)互信息法,計(jì)算候選評(píng)價(jià)對(duì)象與規(guī)定標(biāo)識(shí)詞之間的點(diǎn)互信息值,從而挖掘出真正的評(píng)價(jià)對(duì)象,再通過(guò)句法關(guān)系來(lái)輔助挖掘評(píng)價(jià)詞 [6]。Jin 等人在挖掘評(píng)價(jià)對(duì)象和評(píng)價(jià)詞時(shí),通過(guò)分析文本中評(píng)價(jià)詞和評(píng)價(jià)對(duì)象的搭配規(guī)則后, 提出多種文本匹配模板,匹配正確的名詞和形容詞認(rèn)為是評(píng)價(jià)對(duì)象和評(píng)價(jià)詞 [7]。文獻(xiàn) [8] 也是提出一種評(píng)價(jià)詞和評(píng)價(jià)對(duì)象之間的匹配模板,并基于此模板提出相關(guān)算法,實(shí)現(xiàn)了產(chǎn)品評(píng)價(jià)對(duì)象和對(duì)應(yīng)評(píng)價(jià)詞的挖掘。文獻(xiàn) [9] 提出采用深度學(xué)習(xí)的方法進(jìn)行詞嵌入學(xué)習(xí)、情感分類、意見(jiàn)提取和情感詞典學(xué)習(xí), 意見(jiàn)提取是采用深度學(xué)習(xí)的方法進(jìn)行細(xì)粒度情感分析。
關(guān)聯(lián)規(guī)則法和深度學(xué)習(xí)法都屬于無(wú)監(jiān)督學(xué)習(xí)方法,忽略了文本中大量有價(jià)值的語(yǔ)言特征,而機(jī)器學(xué)習(xí)法充分利用了文本的語(yǔ)言特征。
機(jī)器學(xué)習(xí)法最常用的學(xué)習(xí)模型是條件隨機(jī)場(chǎng)(Conditional Random Filed,CRF)模型,陳炳豐等人首先采用經(jīng)典的線性鏈條件隨機(jī)場(chǎng)模型對(duì)汽車評(píng)論進(jìn)行細(xì)粒度情感分析 [10],后來(lái)改進(jìn)了模型,利用得到的雙層結(jié)構(gòu)的條件隨機(jī)場(chǎng)模型,提取評(píng)論實(shí)體和評(píng)論情感傾向。張玥也是采用線性條件隨機(jī)場(chǎng)模型,不同的是,沒(méi)有改進(jìn)模型,而是在原有特征的基礎(chǔ)上, 將依存句法樹(shù)中的樹(shù)邊特征作為新特征引入,來(lái)提取評(píng)價(jià)詞和評(píng)價(jià)對(duì)象 [11]。這類方法主要通過(guò)特征選取的創(chuàng)新來(lái)提高情感分析的效果,但忽略了 CRF 需要大量標(biāo)注數(shù)據(jù),收集起來(lái)比較困難,人工標(biāo)注也費(fèi)時(shí)費(fèi)力。
因此,為了充分利用語(yǔ)言特征,又避免標(biāo)注大量的數(shù)據(jù)。本文提出將語(yǔ)言特征應(yīng)用到樸素貝葉斯模型中來(lái)進(jìn)行細(xì)粒度意見(jiàn)挖掘,樸素貝葉斯常常用于粗粒度意見(jiàn)挖掘,在細(xì)粒度意見(jiàn)挖掘中,主要利用語(yǔ)言特征的多樣性來(lái)提高分類的精度。
1 提取特征
細(xì)粒度意見(jiàn)挖掘主要是識(shí)別文本中的評(píng)價(jià)對(duì)象、正面評(píng)價(jià)詞和負(fù)面評(píng)價(jià)詞。評(píng)價(jià)對(duì)象是用戶關(guān)心的各種產(chǎn)品屬性, 正負(fù)面評(píng)價(jià)詞是用戶對(duì)產(chǎn)品屬性的直觀感受與評(píng)價(jià)。豐富且有價(jià)值的語(yǔ)言特征有利于準(zhǔn)確挖掘出這些意見(jiàn)要素,本文選取基本特征、評(píng)價(jià)信息特征、語(yǔ)義依存特征 3 種特征來(lái)挖掘意見(jiàn)要素。
(1) 基本特征包括詞特征和詞性特征。詞特征,即產(chǎn)品評(píng)論中分析的主體,需要經(jīng)過(guò)分詞得到 ;詞性特征,顧名思義,是每個(gè)詞的詞性,它對(duì)識(shí)別意見(jiàn)要素有至關(guān)重要的作用。常見(jiàn)的詞性有 :名詞、動(dòng)詞、形容詞、副詞等。在文本意見(jiàn)挖掘中,各意見(jiàn)要素有著一定的詞性,如 :詞性是形容詞, 一般可認(rèn)為是正負(fù)面評(píng)價(jià)詞 ;是名詞,一般認(rèn)為是評(píng)論主體, 產(chǎn)品的屬性,詞性的正確識(shí)別有助于對(duì)詞進(jìn)行歸類。
(2) 評(píng)價(jià)信息特征。為了準(zhǔn)確挖掘出顧客對(duì)產(chǎn)品的評(píng)價(jià),并將正負(fù)面評(píng)價(jià)分開(kāi),把分詞后的各詞與評(píng)價(jià)詞典進(jìn)行匹配,正確匹配的評(píng)價(jià)詞見(jiàn)表 1 所列。
(3) 語(yǔ)義依存特征,指的是各詞語(yǔ)之間的語(yǔ)義依賴關(guān)系, 通過(guò)這種關(guān)系可以更加準(zhǔn)確地識(shí)別對(duì)產(chǎn)品主體的評(píng)價(jià)。語(yǔ)義依存特征與依存句法特征 [12]存在區(qū)別,前者可以將存在依賴關(guān)系的評(píng)價(jià)單元直接標(biāo)記出來(lái),而不會(huì)因?yàn)榫浞ńY(jié)構(gòu)受到影響。
例如句子 1 :像素不錯(cuò),就是內(nèi)存有點(diǎn)小。這條評(píng)論中, “不錯(cuò)”修飾“像素”,“小”修飾“內(nèi)存”,如果僅靠評(píng)價(jià)信息特征,可以識(shí)別出兩個(gè)評(píng)價(jià)詞,但具體對(duì)應(yīng)哪個(gè)屬性就容易出錯(cuò),從而影響對(duì)產(chǎn)品屬性的真實(shí)意見(jiàn)。采用提取語(yǔ)義依 存特征后,存在語(yǔ)義關(guān)聯(lián)的兩個(gè)詞就被標(biāo)記出來(lái),如圖1所示。
經(jīng)過(guò)語(yǔ)義依存分析后,可看出“不錯(cuò)”和“內(nèi)存”之間不存在語(yǔ)義依賴,“像素”與“小”之間也不存在語(yǔ)義依賴 ;而“像素”和“不錯(cuò)”之間,“內(nèi)存”和“小”之間存在 Exp當(dāng)事關(guān)系。這樣,可以正確匹配評(píng)價(jià)單元,大大提高評(píng)價(jià)要素的識(shí)別率。詳細(xì)特征描述見(jiàn)表 2 所列。
2 樸素貝葉斯
樸素貝葉斯(Naive Bayesian,NB)分類器是一種基于貝葉斯定理的分類方法,之所以稱之為“樸素”,是因?yàn)樗僭O(shè)“待分類項(xiàng)的各特征之間相互獨(dú)立”,從而簡(jiǎn)化問(wèn)題,有效降低分類的復(fù)雜度。因此又把這種概率模型叫作獨(dú)立特征模型 [3]。該模型主要是用貝葉斯定理來(lái)預(yù)估待分類項(xiàng)屬于其他類別的概率。貝葉斯定理的計(jì)算公式為 :
此公式用于計(jì)算隨機(jī)事件 X 和 Y 之間的條件概率,式中每一項(xiàng)詳細(xì)描述如下 :
(1)X 是分類類別,分為 4 類 :評(píng)價(jià)對(duì)象、正面評(píng)價(jià)詞、負(fù)面評(píng)價(jià)詞和其他背景詞,記為集合 X={m1,m2,m3,m4}。P(X)是分類類別出現(xiàn)的概率,為 0.25。
(2)Y 是待分類項(xiàng),指分詞后的每個(gè)詞,可以用集合Y={a1,a2,…,ak} 來(lái)描述。其中,a 是 Y 的分類特征,共 有 4 類 :上文提到的詞特征、詞性特征、語(yǔ)義依存特征、評(píng)價(jià)信息特征。語(yǔ)義依存特征又用 3 個(gè)特征來(lái)表示,所以 k 為 6,即用六元特征來(lái)表示一個(gè)詞,P(Y)是常數(shù)。
(3)P(Y/X)指在類別 X 中,待分類項(xiàng) Y 出現(xiàn)的概率,可以通過(guò)計(jì)算待分類項(xiàng)的所有分類特征的條件概率得出,即 :
(4)基于上述 3 項(xiàng),則待分項(xiàng)類 Y 屬于類別 X 的條件概率 P(X/Y)即可求出,分別計(jì)算 p(m1/y),p(m2/y),p(m3/ y),p(m4/y),其中概率最大的類別即 y 的歸屬類別。在文本分類領(lǐng)域,樸素貝葉斯算法被普遍應(yīng)用,但本文旨在利用該算法對(duì)詞進(jìn)行分類,所以分類前,需要標(biāo)注一部分詞作為訓(xùn)練數(shù)據(jù)集。
3 細(xì)粒度意見(jiàn)挖掘
細(xì)粒度意見(jiàn)挖掘,即識(shí)別評(píng)論文本中的評(píng)價(jià)要素,利用樸素貝葉斯算法的分類功能,識(shí)別各評(píng)價(jià)要素的具體過(guò)程如下 :
(1)用 LTP 語(yǔ)言云提取詞、詞性、語(yǔ)義依存特征,用評(píng)價(jià)詞典提取評(píng)價(jià)信息特征。
(2)用特征集合來(lái)表示詞,如一個(gè)詞 Y 可表示為 { 詞,詞性,父節(jié)點(diǎn)詞,父節(jié)點(diǎn)詞詞性,語(yǔ)義依存關(guān)系,評(píng)價(jià)信息 },這樣一個(gè)詞一行,多個(gè)詞多行,最終構(gòu)成特征文本,組成一類,形成分類的訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)。
(3)用樸素貝葉斯分類器對(duì)詞分類,分類過(guò)程主要是計(jì)算分類特征的條件概率。由于分類特征有 6 個(gè),則計(jì)算每個(gè)分類特征的概率時(shí)注意是位置對(duì)齊計(jì)算,如計(jì)算第一個(gè)特征的條件概率,則需要遍歷特征文本中每行的第一個(gè)詞,計(jì)算第二個(gè)特征的條件概率,則遍歷特征文本中每行的第二個(gè)詞,以此類推。
4 實(shí)驗(yàn)結(jié)果及分析
4.1 數(shù)據(jù)收集及預(yù)處理
本次實(shí)驗(yàn)語(yǔ)料是關(guān)于手機(jī)評(píng)論的,來(lái)自京東商城,共爬取了 8 762 條評(píng)論文本。經(jīng)過(guò)人工分類,去除中立的評(píng)論文本,剩余文本信息分類見(jiàn)表 3 所列。
用人工對(duì)剩余的正負(fù)面評(píng)論進(jìn)行預(yù)處理,過(guò)濾掉一些無(wú)效網(wǎng)址及字符,對(duì)文本分詞 ;再提取所有詞的特征,用六元特征表示一個(gè)詞 ;最后進(jìn)行五折交叉驗(yàn)證實(shí)驗(yàn)。將所有的詞分為 5 份,其中 4 份進(jìn)行分類,分成 4 類,形成貝葉斯分類器 ; 1 份為測(cè)試集,用于驗(yàn)證評(píng)價(jià)要素識(shí)別的效果。
4.2 細(xì)粒度意見(jiàn)挖掘結(jié)果
細(xì)粒度意見(jiàn)挖掘常用的模型是 CRF,故采用上文提取的特征,將 CRF 和樸素貝葉斯方法識(shí)別的效果進(jìn)行比較。實(shí)驗(yàn)結(jié)果的評(píng)價(jià)指標(biāo)用精準(zhǔn)率 P(Precision)、召回率 R(Recall) 和 F-measure(精準(zhǔn)率和召回率的調(diào)和平均值)來(lái)表示,見(jiàn) 表 4 所列。
從表 4 可看出,采用 CRF 模型和樸素貝葉斯模型評(píng)價(jià)對(duì)象的綜合準(zhǔn)確率分別達(dá) 76.1% 和 78.9%,樸素貝葉斯方法的綜合準(zhǔn)確率高些,正負(fù)面評(píng)價(jià)詞的識(shí)別率也是樸素貝葉斯方法的高些。因此采用樸素貝葉斯方法進(jìn)行細(xì)粒度意見(jiàn)挖掘是可行的,并且不需要細(xì)致地標(biāo)注大量數(shù)據(jù),節(jié)約資源。
5 結(jié) 語(yǔ)
本文結(jié)合樸素貝葉斯模型和文本語(yǔ)言特征,對(duì)產(chǎn)品評(píng)論進(jìn)行細(xì)粒度意見(jiàn)挖掘。樸素貝葉斯模型常用于文本分類,是粗粒度的意見(jiàn)挖掘,分類特征單一 ;進(jìn)行細(xì)粒度意見(jiàn)挖掘,則屬于詞分類,單一的特征不足以對(duì)詞分類,故需要結(jié)合多種語(yǔ)言特征。這樣既提高分類精度,又避免常用的 CRF 模型需要標(biāo)注大量數(shù)據(jù)的不足,大大節(jié)省了人力物力。但本文方法仍然需要人工標(biāo)注少量數(shù)據(jù),如何實(shí)現(xiàn)自主標(biāo)注或半自主標(biāo)注是未來(lái)工作研究的重點(diǎn)。