社會(huì)科學(xué)大數(shù)據(jù)技術(shù)計(jì)算
掃描二維碼
隨時(shí)隨地手機(jī)看文章
大數(shù)據(jù)時(shí)代大量基于網(wǎng)絡(luò)、社交媒體、人工智能、傳感器等產(chǎn)生的實(shí)時(shí)電子印記數(shù)據(jù),從網(wǎng)絡(luò)上的集體活動(dòng)、社交媒體、即時(shí)通信到在線交易、政府情報(bào)和數(shù)字化圖書(shū)館,越來(lái)越多的社會(huì)生活留在電子文本中。為探索大數(shù)據(jù)研究的跨學(xué)科方法論,促進(jìn)學(xué)科整合與創(chuàng)新,由清華大學(xué)社會(huì)科學(xué)學(xué)院主辦,清華大學(xué)社會(huì)網(wǎng)絡(luò)研究中心(CSNR)、清華大學(xué)數(shù)據(jù)科學(xué)研究院(IDS)承辦的“2019社會(huì)計(jì)算國(guó)際會(huì)議”(2019 International Conference of Social Computing)在清華大學(xué)召開(kāi),邀請(qǐng)全球?qū)W者在大數(shù)據(jù)分析方法與社會(huì)科學(xué)的交叉領(lǐng)域進(jìn)行交流和溝通。
大數(shù)據(jù)的出現(xiàn)和計(jì)算機(jī)技術(shù)的發(fā)展為社會(huì)計(jì)算帶來(lái)了新的研究方法的革命,使得研究設(shè)計(jì)、分析方法到理論建立都有了新的改變。大數(shù)據(jù)和調(diào)查數(shù)據(jù)結(jié)合,產(chǎn)生了一種理論視角下新的研究范式。芝加哥大學(xué)社會(huì)學(xué)系James A. Evans首先闡釋計(jì)算社會(huì)科學(xué)使用計(jì)算機(jī)來(lái)生成數(shù)據(jù)、發(fā)現(xiàn)其中的模式和規(guī)律,或生成和檢驗(yàn)解釋(explanations)。他勾勒出了社會(huì)計(jì)算的愿景,結(jié)合其研究?jī)?nèi)容及計(jì)算社會(huì)科學(xué)領(lǐng)域最新研究闡述了如何利用數(shù)據(jù)計(jì)算來(lái)理解社會(huì),分析復(fù)雜、動(dòng)態(tài)、自適應(yīng)的社會(huì)系統(tǒng)以及人機(jī)交互的過(guò)程中何以形成更為強(qiáng)大的智能。
研究者可以從中發(fā)現(xiàn)現(xiàn)象、尋求解釋因素、進(jìn)行社會(huì)計(jì)算,以前所未有的廣度、深度和規(guī)模利用、收集和分析數(shù)據(jù)。參會(huì)者針對(duì)各自研究領(lǐng)域,所使用的大數(shù)據(jù)涵蓋了社交網(wǎng)絡(luò)、維基百科、Github網(wǎng)站數(shù)據(jù)分析、組織中員工社交數(shù)據(jù)、微博數(shù)據(jù)、社會(huì)經(jīng)濟(jì)相關(guān)的電子印記數(shù)據(jù)等。
當(dāng)這些大數(shù)據(jù)結(jié)合社會(huì)科學(xué)傳統(tǒng)的定性、定量調(diào)查,新的研究范式應(yīng)運(yùn)而生。采用傳統(tǒng)調(diào)查方法收集局部、及時(shí)的扎根真相,將社會(huì)科學(xué)的問(wèn)題意識(shí)、扎根真相與現(xiàn)有的大數(shù)據(jù)相結(jié)合形成預(yù)測(cè)模型,從而在更易獲得的相同的大數(shù)據(jù)維度下進(jìn)行推論。扎根真相和大數(shù)據(jù)的結(jié)合為數(shù)據(jù)挖掘、理論建模以及預(yù)測(cè)算法構(gòu)建的三角間往復(fù)對(duì)話提供了可能,一方面使理論不斷改善,另一方面使預(yù)測(cè)算法更加精確,進(jìn)而可以推論并解釋更多現(xiàn)象。
這種研究范式的推理過(guò)程采用的是Charles Sanders Pierce提出的溯因推理(abduction),而不僅僅是歸納(induction)和演繹(deduction),是一種開(kāi)始于事實(shí)、想象的集合,并推導(dǎo)出其最佳解釋的推理過(guò)程。與計(jì)算社會(huì)科學(xué)研究中首先基于數(shù)據(jù)和理論雙驅(qū)動(dòng),在大數(shù)據(jù)挖掘出有趣的現(xiàn)象,然后結(jié)合理論來(lái)預(yù)測(cè)或模擬推導(dǎo)其解釋的過(guò)程不謀而合。抽樣方式也從原來(lái)的全樣本的隨機(jī)抽樣(random sampling)轉(zhuǎn)變?yōu)樽钸m化抽樣(optimized sampling),即局部抽樣建立預(yù)測(cè)模型,不斷使得預(yù)測(cè)模型與理論對(duì)話,使得預(yù)測(cè)模型逼近最優(yōu),最終采用相同的大數(shù)據(jù)預(yù)測(cè)因子輸入預(yù)測(cè)模型中進(jìn)行推論。
目前社會(huì)計(jì)算領(lǐng)域同時(shí)致力于開(kāi)發(fā)和改進(jìn)一些算法來(lái)解決社會(huì)計(jì)算的問(wèn)題,其中包括機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、網(wǎng)絡(luò)分析、自然語(yǔ)言處理、深度學(xué)習(xí)等內(nèi)容分析、數(shù)據(jù)挖掘和預(yù)測(cè)模型建立。
北京師范大學(xué)系統(tǒng)科學(xué)學(xué)院的張江、樊瑛分別分析了復(fù)雜系統(tǒng)當(dāng)中運(yùn)用簡(jiǎn)單規(guī)則建模和運(yùn)用深度學(xué)習(xí)建模各自的利弊,并展示了其團(tuán)隊(duì)關(guān)于用于網(wǎng)絡(luò)重構(gòu)和動(dòng)態(tài)學(xué)習(xí)的深度學(xué)習(xí)框架的研究。清華大學(xué)計(jì)算機(jī)系的劉知遠(yuǎn)改進(jìn)自然語(yǔ)言分析技術(shù)和圖神經(jīng)網(wǎng)絡(luò)算法,可以應(yīng)用于推薦、預(yù)測(cè)等多個(gè)領(lǐng)域。
復(fù)旦大學(xué)計(jì)算機(jī)學(xué)院陳陽(yáng)副教授使用深度學(xué)習(xí)檢測(cè)在線開(kāi)發(fā)者社區(qū)中的惡意賬戶,其他學(xué)者也多使用大數(shù)據(jù)集成的機(jī)器學(xué)習(xí)算法等進(jìn)行預(yù)測(cè),同時(shí)不乏結(jié)合回歸模型來(lái)進(jìn)行理論的驗(yàn)證和探究。模型和方法的改進(jìn)可更好地挖掘數(shù)據(jù)中的價(jià)值,也使得社會(huì)預(yù)測(cè)的準(zhǔn)確率更高,為一些社會(huì)現(xiàn)象提供了更加微觀或中層的模式(pattern)和規(guī)律的解釋路徑,從而可以建構(gòu)并逐步完善社會(huì)科學(xué)理論。
在大數(shù)據(jù)和社會(huì)科學(xué)結(jié)合中,社會(huì)科學(xué)調(diào)查發(fā)揮了確立問(wèn)題意識(shí)以及提供扎根真相的作用,理論為大數(shù)據(jù)開(kāi)啟了很多新議題,為構(gòu)建的預(yù)測(cè)模型賦予更具推論性的價(jià)值,因?yàn)橹挥行纬衫碚摬趴梢栽诓煌I(lǐng)域、時(shí)間、空間的條件下進(jìn)行推論。
依照以上方法論和技術(shù)的創(chuàng)新,學(xué)者們?cè)诓煌I(lǐng)域進(jìn)行了研究,范圍廣泛,內(nèi)容多樣。其中清華大學(xué)社會(huì)學(xué)系羅家德試圖探討中國(guó)人的人脈圈層到底可以劃分為幾層。在開(kāi)展調(diào)查收集到用戶之間的關(guān)系強(qiáng)度的扎根真相后,找到這些用戶在社交軟件中留下的互動(dòng)的印記數(shù)據(jù)并整理出指標(biāo),結(jié)合扎根真相訓(xùn)練建立分類(lèi)模型,不斷尋找準(zhǔn)確率最高的劃分方式,從而得到合適的圈層劃分方式,讓這種研究對(duì)象在一定的情境(context)變得可被測(cè)量,這就體現(xiàn)了大數(shù)據(jù)和調(diào)查數(shù)據(jù)的相互對(duì)話的價(jià)值。
豐富的研究問(wèn)題為社會(huì)計(jì)算的發(fā)展注入了活力。目前,不管是在研究問(wèn)題、算法模型還是理論與數(shù)據(jù)挖掘、預(yù)測(cè)模型的結(jié)合中,還均處于不斷探索當(dāng)中。理論、數(shù)據(jù)挖掘與預(yù)測(cè)模型的不斷對(duì)話將會(huì)推動(dòng)更多理論的驗(yàn)證、修正,或是新的理論的發(fā)現(xiàn),同時(shí)使得研究動(dòng)態(tài)的個(gè)體、個(gè)體間的關(guān)系和互動(dòng)、從小團(tuán)體的結(jié)構(gòu)變化到宏觀的網(wǎng)絡(luò)的變化,從而如何涌現(xiàn)出集體行動(dòng)(如重大創(chuàng)新、社會(huì)運(yùn)動(dòng)、革命爆發(fā)等)和復(fù)雜社會(huì)系統(tǒng)的非常態(tài)演化(如金融風(fēng)暴、景氣突轉(zhuǎn)、社會(huì)變遷)成為可能。
電子科技大學(xué)周濤利用學(xué)生生活和學(xué)習(xí)活動(dòng)的實(shí)時(shí)記錄,開(kāi)展數(shù)據(jù)驅(qū)動(dòng)的關(guān)于智能教育的研究。清華大學(xué)孟天廣利用大數(shù)據(jù),關(guān)注中國(guó)共產(chǎn)黨黨員的入黨問(wèn)題。清華大學(xué)蘇毓淞主要關(guān)注中國(guó)審查制度的縱向戰(zhàn)略,即利用微博數(shù)據(jù)來(lái)觀察政府對(duì)于輿論的審查等。來(lái)自芝加哥大學(xué)、麻省理工學(xué)院、斯坦福大學(xué)、哥廷根大學(xué)、法蘭克福大學(xué)、牛津大學(xué)、香港中文大學(xué)、清華大學(xué)、復(fù)旦大學(xué)、北京師范大學(xué)等10余所高校不同學(xué)科背景的20多位專(zhuān)家學(xué)者就會(huì)議主題進(jìn)行了學(xué)術(shù)演講與交流討論。