拓端tecdat: 數(shù)據(jù)探析期刊文章研究熱點
大數(shù)據(jù)已經成為研究變革和創(chuàng)新的技術力量和思維方式,成為當前研究的熱門領域。本文對相關主題下的知網期刊文章數(shù)據(jù)集進行分析,識別出期刊文章內容近年來變化的規(guī)律。
期刊熱門欄目近年來的變化
經過幾年的蓄勢待發(fā),13年伊始,“大數(shù)據(jù)”成為熱門概念,人民日報將2013年稱為“大數(shù)據(jù)元年”。我們將2013年作為時間點,對其前后7年的期刊熱門欄目數(shù)目的變化進行比較。
可以發(fā)現(xiàn)與數(shù)據(jù)相關的信息技術、統(tǒng)計研究、計算機科學、軟件開發(fā)等欄目數(shù)目在2013年以后出現(xiàn)增加(圖1),這在一定程度上說明對于大數(shù)據(jù)科學的研究處于增長階段。部分13年以前熱門的欄目由于概念逐漸冷門或者名稱變化,數(shù)量逐漸減少,如微計算機信息、教學研究等。同時可以發(fā)現(xiàn)網絡技術、農業(yè)裝備與機械化工程 、醫(yī)療信息系統(tǒng)等欄目數(shù)量沒有發(fā)生明顯變化。
不同主題下的期刊欄目數(shù)目變化
本文對數(shù)據(jù)集進行概率潛在語義分析主體建模,要求識別出標題中出現(xiàn)的高頻詞匯,并研究其分布規(guī)律。考慮文章中出現(xiàn)頻率最高的詞匯,因此我們基于關鍵詞組以及文章主題進行PLSA分析。
經過多次循環(huán)發(fā)現(xiàn),當K=5時結果最優(yōu),因此將數(shù)據(jù)分配到5個潛在主題下。在此基礎上,得到了潛在主題1的抽取概率以及對應的前3個標簽,并將其最高頻率作為主題代表詞。 從圖2可以發(fā)現(xiàn),對主題1而言,它下面所屬的“數(shù)據(jù)”、“記錄”、“鏈接”、“方法”以及“信息”概括出了此標題主要是針對信息管理方面進行描述,在此將每組中前3個標簽里概率最大的作為主題元素。
通過圖2,可以很明顯的觀察到概率潛在語義分析法能夠在一定程度上將具有代表性的標簽顯示出來,例如,作為排名第一的標簽“數(shù)據(jù)”、“系統(tǒng)”、“鏈接”、“記錄”以及“患者”可以在一定程度上表明它所在的潛在主題下的內容。根據(jù)圖2所描述的主題1-主題5下的高頻標簽情況,可以觀察發(fā)現(xiàn),有一些標簽如“數(shù)據(jù)”、“鏈接”出現(xiàn)在很多潛在語義下面,這有力地解決了一詞多義的問題,在特定的某個標題下只有確定的某一個含義,同時也將具有相同或類似含義的標簽根據(jù)選取的頻率值進行過濾。
同時,在對應主題下的標簽已經能夠基本上將此資源在相應主題下的特征表示出來。比如對于主題2而言,它下面所屬的“教學”、“學生”、“信息”概括出了此標題主要是針對學生的信息技術教學方面進行描述。
熱門關鍵詞在期刊欄目中的分布
接下來我們對比了文章中出現(xiàn)的高頻關鍵詞在不同期刊欄目中的分布,分析其分布規(guī)律。圖3顯示了熱門關鍵詞的分布。
從中我們可以看到 ,13年之后”信息“關鍵詞出現(xiàn)最多的欄目是信息管理、教育研究和計算機與網絡,13年之前是教育研究和統(tǒng)計研究,可見計算機與網絡、信息管理和信息教育成為”信息”關鍵詞相關文章的熱門應用和研究領域。同時可以看到13年之后”數(shù)據(jù)“關鍵詞出現(xiàn)最多的欄目是數(shù)據(jù)技術和信息管理,13年之前是數(shù)據(jù)庫技術統(tǒng)計研究和微計算機信息,可見數(shù)據(jù)庫技術、信息管理和統(tǒng)計研究成為”數(shù)據(jù)”關鍵詞相關文章的熱門應用和研究領域。