7月30日消息,今日頭條宣布正式推出新版靈犬反低俗助手(以下簡稱“靈犬”),同時支持圖片和文本識別。這是時隔半年后,“靈犬”的又一次重要升級。用戶目前可以在今日頭條內(nèi),搜索“靈犬”進行試用。
據(jù)了解,“靈犬”脫胎于今日頭條反低俗模型,是一款檢測內(nèi)容健康度的輔助小工具。字節(jié)跳動人工智能實驗室總監(jiān)王長虎介紹稱,2012年以來,今日頭條內(nèi)部搭建了反色情、反低俗、反標題黨、反虛假信息、反低質(zhì)等數(shù)百個模型,并投入近萬人專業(yè)審核團隊。
王長虎稱,新版“靈犬”重點拓展了反低俗識別類型和模型能力,現(xiàn)已覆蓋圖片識別(反色情低俗、反血腥暴力)和文本識別(反色情低俗、反暴力謾罵、反標題黨)。后續(xù)還將支持語音識別和視頻識別。
此前一年時間內(nèi),“靈犬”已陸續(xù)完成兩次迭代。2018年3月28日,今日頭條首次上線“靈犬”,支持檢測文字和文章鏈接。2018年5月16日,“靈犬”完成服務能力升級,增加反色情短文本模型和反謾罵模型,將準確率從73%提升至82%。2019年2月20日,“靈犬2.0”正式上線,除了反色情低俗模型,加入反暴力謾罵和反標題黨模型,覆蓋了主要的低俗低質(zhì)內(nèi)容類型,整體識別準確率接近85%。
用戶只需要在“靈犬”內(nèi)輸入一段文字或文章鏈接,“靈犬”就可以幫助其檢測內(nèi)容健康指數(shù),返回一個鑒定結(jié)果。對于用戶輸入的內(nèi)容,“靈犬”會先進行提取、分詞和語義識別,然后根據(jù)相關(guān)規(guī)則, 輸出對應的分數(shù)、評級和結(jié)論。這一切都在短短幾秒內(nèi)完成。圖片和圖片鏈接檢測同理,用戶在“靈犬”內(nèi)上傳圖片或圖片鏈接,即可快速獲取鑒定結(jié)果。
據(jù)王長虎介紹,“靈犬”背后的文本分類模型,已經(jīng)經(jīng)過了三次迭代。每個新版本相對于舊版本,在技術(shù)和數(shù)據(jù)集層面,都有一個明顯的躍升。這一代“靈犬”訓練數(shù)據(jù)集總量是1.2個T,相當于20倍百度百科或100倍維基百科的數(shù)據(jù)總量,包含920萬個樣本,準確率提升至91%。
在圖片識別層面,“靈犬”采用深度學習作為解決方案,在數(shù)據(jù)、模型、計算力等方面均做了針對性優(yōu)化。數(shù)據(jù)層面,“靈犬”已累積上千萬級別的訓練數(shù)據(jù)。模型層面,“靈犬”針對許多困難樣本做了模型結(jié)構(gòu)調(diào)優(yōu),嘗試解決多尺寸、多尺度、小目標等復雜問題。計算力層面,“靈犬”利用分布式訓練算法以及GPU訓練集群,加速模型的訓練和調(diào)試。
截至2019年6月,靈犬反低俗助手的使用人次已經(jīng)超過了300萬。