在中國小城市、鄉(xiāng)鎮(zhèn),無數(shù)年輕人正成為“數(shù)據貼標人”,他們每天坐在電腦前八小時,點擊幾十張照片,概述背景、前景和特定物品。他們的工作為AI公司的算法提供和處理大量數(shù)據。隨著技術的進步,那些“低技能”的工作者將會失業(yè),但也創(chuàng)造了很多“低技能”的工作。
周俊凱的辦公室坐落在東沙河的邊緣,這是一條靜謐的河,它把將位于中國中部河南省的31.8萬人的小縣城民權縣新舊兩個部分區(qū)分開來。在這里,19歲的周俊凱和他26歲的堂兄今年夏天一起創(chuàng)辦了他們的小型數(shù)據貼標工廠。
他們創(chuàng)辦的“俊鵬科技公司”辦公室在一個租用的傳統(tǒng)庭院住宅里面,是典型的河南農村。這棟房子很大,有兩三層高,不像中國大城市普遍存在的公寓樓。在房子后面,一名男子在一片土地上耙葉子,周俊凱說,這些土地是一片莊稼地。
周俊凱(右)和他的表哥
在房子里面,唯一溫暖的房間是辦公室,十幾個年輕人坐在寬大的發(fā)光屏幕前。在11月的某一天,屏幕和熒光燈幾乎不能照亮房間,當?shù)匚廴境潭纫呀涀钃趿颂枺奶帍浡鴿忪F。
“俊鵬科技公司”的員工
這些年輕人是“數(shù)據貼標人”,他們每天坐在電腦前八小時,點擊幾十張照片,概述背景、前景和特定物品,所有這些都是根據正在進行人工智能的客戶規(guī)格而定。有些人可能會標記醫(yī)療掃描圖片,有些人標注風景和樹木的照片,還有些人標注無人駕駛車輛的道路圖片。這些都是人工智能算法學習“看”的數(shù)據。
人工智能行業(yè)依賴于這種廉價的人工,因為算法和“機器學習”在很多情況下都是由真人訓練。
人工智能需要大量數(shù)據來學習和辨別模式,無論是圖片、音頻還是文本,因為它們不同于人類解釋媒體。要教授算法如何準確識別蘋果是一個蘋果,它需要成千上萬的蘋果圖片。此外,算法很容易上當受騙。在一項實驗中,安全研究人員發(fā)現(xiàn),通過扭曲校車圖片,盡管人眼看不到這種變化,但人工智能系統(tǒng)再也無法識別它是一輛校車。
資金流入中國的人工智能產業(yè),很少有地方比河南更好。在幾年前河南富士康工廠(生產蘋果產品)和電子工廠而聞名,現(xiàn)在,河南的城鎮(zhèn)現(xiàn)在擁有辦公室工作人員,他們正在進行艱苦乏味的輸入工作,讓計算機變得聰明。
咨詢公司AIB的研究顯示,去年,風險資本家向中國的人工智能創(chuàng)業(yè)公司投入了50億美元,這使得該行業(yè)的資金首次超過美國。中國政府已將AI領域作為優(yōu)先事項,并在去年夏天宣布一項雄心勃勃的政策:到2030年建設價值1500億美元的AI產業(yè)。
在推動中國經濟發(fā)展的制造工廠中,河南人民也發(fā)現(xiàn)自己擁有不斷增長的勞動密集型數(shù)據標簽公司這種邊緣產業(yè),這些公司為算法提供和處理大量數(shù)據。除了中國最大城市有幾家大型企業(yè)外,這些數(shù)據標注公司主要分布在較小的城市、城鎮(zhèn)和農村地區(qū)。
周俊凱是在平頂山西部的鎮(zhèn)上看到一些類似數(shù)據工廠后,想到了自己開店。他的表兄弟們一起拿出家里多年的積蓄,購買了幾十臺電腦并租用辦公室。據他們所知,他們是民權縣中唯一的做這個產業(yè)的人。
“你不能指望擁有這么高工資的人來完成這項勞動密集型工作”
從貿易學院畢業(yè)后,周俊凱開始進入這一行,之前他一直在找工作,但卻處處受限。
19歲的周俊凱來自河南民權縣的一個村莊里。 他說,從貿易學院畢業(yè)后,他的工作選擇并不多。
“如果你不知道將來做什么,你可以去一個大城市,成為一名白領工作者,然后每天都要擠地鐵擠公交,”他說,“至于其他(領域),如果你想出人頭地,就需要大量的知識、經驗和教育。而這些是我們沒有的東西?!?/p>
他很難才找到了一份汽車修理工的工作。他說,在一家工廠干了很短時間就辭職了——那份工作太苦了,要一天工作14個小時。
“我以為我再也受不了(這些),”他說,但“現(xiàn)在從事的這個行業(yè)感覺它有潛力?!?/p>
韓金浩說,許多人現(xiàn)在正涌向數(shù)據標注行業(yè)。一年多前,他在河南省省會鄭州開辦了他的數(shù)據標注公司點我科技,目前擁有了100多名數(shù)據貼標機。
“雖然標注是相當?shù)图墑e的工作,但進入門檻相對較低,而且仍屬于人工智能行業(yè)?!彼f,“所以我們認為,如果我們可以從這里開始,然后慢慢地、一步一步地走向更高價值的東西?!?/p>
韓擁有超過6000種數(shù)據標注裝備,這些裝備已經在他建立的類似Craigslist的平臺上注冊,其中較小的裝備可以找到外包或雇用新員工。
18歲的趙夢瑤是個新手。她于今年10月開始在周所在的公司工作。當我訪問辦公室時,她正在追蹤停車場停車位的白線:畫面扭曲,線條彎曲,好像相機的一個魚眼鏡頭,但她輕松地將鼠標放置在它們上面。20分鐘后,趙夢瑤繼續(xù)處理她下一張照片。這是停車場的另一個角度的照片。
年輕姑娘正在學習如何給汽車標注
在她旁邊,一個年輕人則在描出一位歌手穿著的橙色連衣裙的蓬松邊緣。接下來,他開始描一個打高爾夫球的人的輪廓。
趙夢瑤曾經是一個婚禮攝影工作室的化妝師,但因為工作疲憊而辭職。有幾天她必須在凌晨4點起來準備客戶拍攝,而晚上7點才能回家。
而現(xiàn)在的工作節(jié)奏她很滿意:朝八晚六,中間休息一個半小時。在午休時間,她和她的同事還能聊聊天,聊聊共同玩的游戲。
她說:“我覺得這很不錯,這里很自由。”
趙說工資還可以:每處理一套照片(大概20張)就能獲得大概20元的報酬。她每天可以完成4到8套,即80到160張照片。當我問她認為照片會去哪里、有何用途時,她回答不知道。
我交談過的七位數(shù)據貼標者的月工資從2000元人民幣到4000元人民幣不等。這與中國工人的平均可支配收入或稅后收入相當——2017年為2164元人民幣。“鄭州有這么多可以獲得這種水平工資的工作。”25歲的點我科技員工王玉雙說。
點我科技大多數(shù)員工都只有20歲出頭。
AI照片識別教學的標準是使用ImageNet的圖像,這是一個由斯坦福大學教授李飛飛和她的團隊創(chuàng)建的超過1400萬張圖像的數(shù)據庫。該數(shù)據庫依賴于亞馬遜的Mechanical Turk,后者將勞動密集型工作外包,例如照片標記的工作以幾美分/一張的報酬交給互聯(lián)網用戶去做。
但是,隨著世界各地的企業(yè)越來越多地轉向從無人駕駛汽車到醫(yī)療診斷等行業(yè)的人工智能應用,ImageNet和Mechanical Turk被證明是不夠用的。
你認為我們會讓沒有生命的東西控制人類嗎?
數(shù)據標注公司Awakening Vector的創(chuàng)始人Peter Yang說:“醫(yī)療業(yè)務需要非常細致的數(shù)據來讓人工智能學會如何做出區(qū)別,例如在CT掃描中區(qū)別腫瘤和眼球?!彼枰诖罅坎煌恼掌?,通過數(shù)據來指出照片中的腫瘤是什么樣子,這就需要人工的來點擊并標注圖片。
“但大多數(shù)人工智能初創(chuàng)企業(yè)只有少數(shù)全職員工,通常都是數(shù)據科學家?!?/p>
“這需要大量的體力勞動。你不能指望收入這么高的人做這種勞動密集型的工作,所以你必須把這項工作外包出去?!?/p>
此外,還有隱私和質量控制問題。
例如,醫(yī)學圖像需要保密。亞馬遜土耳其機器人(Amazon Mechanical Turk)的任務是由任何想賺外快的注冊用戶來完成的,而不是那些周一到周五都有固定工資的員工。
外包意味著這些業(yè)務現(xiàn)在在國內遍地開花。
Peter Yang的業(yè)務集中于新疆,客戶包括百度和跨國制藥公司諾華(Novartis)。韓金浩的公司為國內一些無人駕駛汽車初創(chuàng)公司服務,在河南和鄰近的山東省的一些小城市也設有分支機構。
傳統(tǒng)觀點認為,隨著技術的進步,那些“低技能”的工作者將會失業(yè)。學術研究大多也支持這一觀點。
但這并不意味著科技必然會取代所有的工作崗位。
波士頓大學科技與政策研究項目的執(zhí)行主任James Bessen說:“歷史研究表明,自動化帶來了就業(yè)熱潮?!?/p>
“以紡織業(yè)為例,在19世紀早期,由于布料太昂貴,大多數(shù)人只有一套衣服。但隨著科技的發(fā)展,一些任務變得自動化,降低了制作衣服的成本,人們對布料的需求也在增長。服裝需求的增長帶來了更多的就業(yè)機會。盡管紡織業(yè)被認為是“低技能”的行業(yè),但隨著規(guī)模的急劇擴張,它也帶來了新一代的工人,他們不得不學習操作復雜的機械。只有當需求得到滿足時,就業(yè)人數(shù)才開始下降?!?/p>
就目前而言,我國的勞動力還算是廉價的。
這項工作也超越了圖片標注的范疇。許多公司還為語音識別、視頻標簽甚至原始數(shù)據付費。
對于一些工人來說,成為一個新行業(yè)的一份子有一種明顯的自豪感。
“我們正在做一些非?;A的工作,雖然只是幫助機器人學習和查看大量數(shù)據,但我們也是其中非常重要的一部分?!?/p>
那么如果有一天算法學會了自己識別事物,那么數(shù)以萬計的“低技能”人工智能人才會失業(yè)嗎?
韓金浩似乎對此漠不關心:“如果真的到了那個階段,那么人類可能就不會活著了。你認為人類會讓甚至沒有生命的東西控制人類嗎?我們只會教它如何為人類服務。我們不會把他教得那么好以至于有一天我們要為機器服務?!?/p>