專家:機(jī)器人語音會(huì)讓人們心生厭惡
恐怖谷是我們熟悉的:如果一個(gè)人形機(jī)器人造型逼真,但又達(dá)不到足夠真實(shí),它會(huì)讓人感到怪異。
到目前為止,這種說法幾乎完全適用于機(jī)器人的面容和身形,但人們往往忽略了機(jī)器人語音中的恐怖谷現(xiàn)象。
Kozminski大學(xué)的機(jī)器人專家Aleksandra Przegalinska是個(gè)例外,他同時(shí)也是麻省理工學(xué)院的研究員,關(guān)注于聊天機(jī)器人和語音助手的蓬勃發(fā)展。本周WIRED(《連線》雜志)在SXSW與其共同討論“機(jī)器人復(fù)制人類語音中所面臨的巨大挑戰(zhàn)”,為什么人形機(jī)器人的未來可能不會(huì)特別明朗?當(dāng)你讓學(xué)生教聊天機(jī)器人如何說話時(shí),會(huì)發(fā)生什么?
WIRED:為什么將研究的關(guān)注點(diǎn)放在機(jī)器人語音方面呢?
Przegalinska:恐怖谷現(xiàn)象不僅存在于機(jī)器人的仿真形象上,也存在于語音方面,如其說話的方式。音調(diào)本身在這里非常重要。這就是為什么我們對(duì)聊天機(jī)器人感興趣,所以我們建立了自己的聊天機(jī)器人。
我的學(xué)生與聊天機(jī)器人交流了整整一年,主要是為了使機(jī)器從中學(xué)習(xí),然而,最終收集到一些人類羞辱機(jī)器的言語,這可能就是恐怖谷的一部分。為什么學(xué)生會(huì)對(duì)聊天機(jī)器人心生厭惡?可能是因?yàn)榱奶鞕C(jī)器人只是一個(gè)聊天機(jī)器人,或者學(xué)生因?yàn)樾闹械牟话踩卸憛挋C(jī)器人。
WIRED:這種現(xiàn)象也會(huì)發(fā)生在物理機(jī)器人身上。日本曾進(jìn)行一項(xiàng)研究,將一個(gè)機(jī)器人放置于商場(chǎng)中,看看孩子們會(huì)對(duì)它做什么,最終孩子們踢了它并直呼其名。
Przegalinska:對(duì)于孩子來說,他們處在一個(gè)受自然本性影響遠(yuǎn)大于文化的階段。
WIRED:也許這對(duì)他們來說是宣泄,也許就像治療一樣。
Przegalinska:也許這種反應(yīng)與人們?cè)噲D處理由恐怖谷現(xiàn)象所產(chǎn)生的情感有關(guān)。你會(huì)感到厭惡,因?yàn)槟悴淮_定自己與之互動(dòng)的對(duì)象是什么。我能感受到人與聊天機(jī)器人助理的奇怪關(guān)系——聊天機(jī)器人非常有禮貌,而人們只是向他們?nèi)永?,這是是一種怪異的情況,好像他們是一些較低級(jí)別的人。
WIRED:聊天機(jī)器人可以采取不同的形式,對(duì)嗎?基于文本或帶有虛擬化身。
Przegalinska:我們發(fā)現(xiàn)擁有虛擬化身的聊天機(jī)器人會(huì)使人們感到厭煩。在大多數(shù)情況下,它給出了與文本相同的響應(yīng),但反應(yīng)的差異是巨大的。在基于文本與聊天機(jī)器人互動(dòng)的情況下,參與者發(fā)現(xiàn)機(jī)器人非常有能力談?wù)摳鞣N主題。與之對(duì)比的是,當(dāng)聊天機(jī)器人帶有虛擬化身時(shí),就情感反應(yīng)而言,人會(huì)感到有壓力。人們與基于文本的聊天機(jī)器人的對(duì)話通常是兩倍長(zhǎng)。
WIRED:你的聊天機(jī)器人表現(xiàn)如何?它如何以一個(gè)交談?wù)叩慕巧嬖?
Przegalinska:無論何時(shí)進(jìn)行對(duì)話,聊天機(jī)器人都會(huì)嘗試反映對(duì)方的說法。例如,如果你說你討厭體育,而且談話時(shí)間足夠長(zhǎng),聊天機(jī)器人會(huì)說“我也討厭體育。”
WIRED:所以它可能騙你。
Przegalinska:當(dāng)然,這經(jīng)常出現(xiàn)。它也會(huì)經(jīng)常轉(zhuǎn)變。
WIRED:或者更糟糕的是,它會(huì)變得種族主義。
Przegalinska:實(shí)際上,這發(fā)生了。我認(rèn)為我們的聊天機(jī)器人在很多方面仍然非??煽?,我們很驚訝地看到它的轉(zhuǎn)變頻率。我們確實(shí)策劃了它所呈現(xiàn)的一些內(nèi)容,但隨后機(jī)器人通過與其他人的互動(dòng)輕松地與之分道揚(yáng)鑣。
WIRED:除了語義之外,當(dāng)談到當(dāng)前的機(jī)器人語音時(shí),究竟是什么讓人們失望?
Przegalinska:即使是一個(gè)簡(jiǎn)短的句子,機(jī)器人也會(huì)以長(zhǎng)句的方式來處理。這在某種程度上是如此具有決定性,聽起來你期待一個(gè)冗長(zhǎng)的陳述然后句子結(jié)束。因此,理解你所說的語調(diào)和語境會(huì)存在問題。因此,將語義與語調(diào)聯(lián)系起來,這就是出錯(cuò)的部分。
WIRED:當(dāng)這種智能體現(xiàn)在索菲亞這樣的機(jī)器人身上時(shí),復(fù)雜程度會(huì)更高,大多數(shù)人都從她的脫口秀節(jié)目中了解到這一點(diǎn)。
Przegalinska:也許問題是如何將語義與語調(diào)整合在一起。我們知道像這樣的系統(tǒng)是非常模塊化的,因?yàn)橛幸粋€(gè)系統(tǒng)負(fù)責(zé)移動(dòng)頭部而另一個(gè)系統(tǒng)負(fù)責(zé)微笑。所有這些模塊有時(shí)很難整合。我認(rèn)為這是恐怖谷,一種響應(yīng)的延遲。它需要非常大的計(jì)算能力。但我毫不懷疑這就是未來。除非人形機(jī)器人被徹底拋棄。這也是一種選擇。我認(rèn)為這是可能的。