深度神經(jīng)網(wǎng)絡(luò)在識別物體上的能力怎樣
神經(jīng)網(wǎng)絡(luò)的復(fù)雜關(guān)系推理,什么是關(guān)系推理?考慮下面的圖像。幾乎不可能不把它當(dāng)作對象;球體,立方體等等。我們可以根據(jù)構(gòu)成圖像像素值的數(shù)百萬個數(shù)字來考慮它?;蛘邎D像中所有邊緣的角度?;蛘呖紤]每個10x10像素區(qū)域。相反,我們直觀地根據(jù)它們識別圖像的對象和原因。
嘗試回答以下問題:“大球體剩下的棕色金屬物體剩下的圓柱體大小是多少?”這是CLEVR數(shù)據(jù)集中的一個示例問題。為了回答這個問題,你需要考慮物體相對于彼此的相對位置。這種以對象和交互為中心的思維被稱為關(guān)系推理,它是人類智能的核心部分。
深度神經(jīng)網(wǎng)絡(luò)非常善于識別物體,但是當(dāng)涉及到他們的相互作用的推理時,即使是最先進(jìn)的神經(jīng)網(wǎng)絡(luò)也在努力。例如,現(xiàn)有技術(shù)的卷積網(wǎng)絡(luò)可以容易地識別上述圖像中的每個對象,但是由于需要關(guān)于彼此相關(guān)的對象的推理而未能嘗試回答該問題。
關(guān)系網(wǎng)絡(luò)
關(guān)系網(wǎng)絡(luò)(RN)它是一個簡單的模塊,可以為任何神經(jīng)網(wǎng)絡(luò)添加關(guān)系推理能力。他們將RN添加到其他標(biāo)準(zhǔn)卷積網(wǎng)絡(luò)中,并在CLEVR數(shù)據(jù)集上實現(xiàn)超人類性能。
RN是向前邁出的重要一步,但它有一定的局限性。構(gòu)造它的方式,每個識別的對象只能與其他識別的對象進(jìn)行一次交互,之后網(wǎng)絡(luò)必須給出答案。這限制了RN,因為它無法推斷導(dǎo)出的交互,即影響對象B的對象A,而對象A又影響對象C,等等。在RN中,對象A必須直接影響對象C,或者根本不影響對象C.通過與對象B的交互不是一種選擇。
循環(huán)關(guān)系網(wǎng)絡(luò)
為了解決這個限制,我們引入了循環(huán)關(guān)系網(wǎng)絡(luò)(RRN)。RRN不是僅執(zhí)行關(guān)系推理的單個步驟,而是執(zhí)行多個步驟。在每個步驟中,每個對象都受到彼此對象的影響,同時還考慮到它自己的先前狀態(tài)。這允許交互從一個對象傳播到下一個對象,形成復(fù)雜的交互鏈。