SAR圖像船舶目標(biāo)檢測(cè)數(shù)據(jù)集SSDD
SSDD使用情況
2017年12月1日,在中國(guó)北京召開的BIGSARDATA會(huì)議上公開了一個(gè)用于SAR圖像船舶目標(biāo)檢測(cè)的數(shù)據(jù)集SSDD,SSDD是該領(lǐng)域中第一個(gè)公開的數(shù)據(jù)集。這篇論文僅發(fā)布了SSDD的初始粗略版本,但這個(gè)第一個(gè)公開的數(shù)據(jù)集得到了相當(dāng)多學(xué)者的前所未有的關(guān)注,這也超出了作者的想象。
截止到2021年8月25日,在161個(gè)基于深度學(xué)習(xí)的SAR船舶檢測(cè)的論文中,使用SSDD作為訓(xùn)練測(cè)試數(shù)據(jù)的有75篇,占46.6%,這顯示了SSDD在SAR遙感社區(qū)的普及和巨大影響。其它論文采用的數(shù)據(jù)集是近些年提出的另外五個(gè)公開數(shù)據(jù)集,即Wang等人在2019年發(fā)布的SAR-Ship數(shù)據(jù)集,Sun等人在2019年發(fā)布的AIR-SARShip-1.0,Wei等人在2020年發(fā)布的HRSID,Zhang等人在2020年發(fā)布的LS-SSDD-v1.0,和AIR-SARShip-2.0。
這75篇論文中,只有一份來自國(guó)外(印度),其它所有論文作者均為中國(guó)學(xué)者,這說明中國(guó)已成為研究中最活躍的國(guó)家或地區(qū)。SSDD數(shù)據(jù)集常出現(xiàn)在各種主流遙感期刊中,例如MDPI的Remote Sensing,IEEE的 JSTARS、TGRS和GRSL等,這表明SSSD被遙感界的學(xué)術(shù)界廣泛接受。
這75篇論文中,有62篇論文使用垂直邊框,有9個(gè)使用旋轉(zhuǎn)邊框,有4篇論文使用像素級(jí)多邊形分割。SSDD的初始版本僅提供垂直邊框的標(biāo)注,這使得使用垂直邊框的數(shù)量占大多數(shù)(82.7%)。
SSDD得到廣泛使用的原因
SSDD取得以上成功的原因主要有以下七點(diǎn):
1.SSDD的公開時(shí)間最早,它比第二個(gè)公開的數(shù)據(jù)集要早1.5年,當(dāng)沒有其他數(shù)據(jù)集可用時(shí),SSDD成為唯一的選擇。
2.用于SAR船舶檢測(cè)的幾種常用衛(wèi)星都是商業(yè)衛(wèi)星,數(shù)據(jù)獲取渠道有限,SSDD的出現(xiàn)可以解決此困境。
3.SSDD的作者活躍在SAR遙感社區(qū),在公共媒體平臺(tái)發(fā)布的文章促進(jìn)了這個(gè)數(shù)據(jù)集的傳播。
4.SSDD中的SAR圖像樣本具有不同分辨率,不同傳感器,不同的極化,不同的海況,不同的船舶場(chǎng)景,包括近海和近海,以及不同的船舶尺寸。數(shù)據(jù)多樣性是建立可靠的檢測(cè)模型的基礎(chǔ)。
5.當(dāng)出現(xiàn)一些使用SSDD的論文時(shí),后續(xù)學(xué)者一般會(huì)選擇對(duì)這個(gè)SSDD數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),以便于將所提方法與以前的方法進(jìn)行比較,因此,使用此SSDD數(shù)據(jù)集的公共論文逐漸增加。這也是為什么其它數(shù)據(jù)集雖然比SSDD更大更好,但卻沒有SSDD應(yīng)用廣泛的原因。
6.早期SAR遙感界大多數(shù)學(xué)者計(jì)算機(jī)的GPU計(jì)算能力有限,與計(jì)算機(jī)視覺領(lǐng)域中的大規(guī)模數(shù)據(jù)集相比,SSDD的樣本數(shù)量相對(duì)適中(有1160個(gè)樣本,而PASCAL VOC有 9000個(gè),COCO有20w個(gè)樣本),這使得配備普通GPU的研究人員能夠進(jìn)行研究和開發(fā),這使使用SSDD數(shù)據(jù)集進(jìn)行研究變得相當(dāng)活躍。此外,相對(duì)適中的樣本數(shù)量也有助于調(diào)試模型,提高工作效率,而不是長(zhǎng)時(shí)間的訓(xùn)練等待。當(dāng)然,在使用SSDD數(shù)據(jù)集時(shí),應(yīng)考慮一些策略,例如數(shù)據(jù)增強(qiáng)和遷移學(xué)習(xí),以避免過擬合。
7.SSDD中有典型的難檢測(cè)樣本,這些樣本在SAR船舶檢測(cè)的實(shí)際應(yīng)用中都需要特別考慮,例如:特征不明顯的小型船舶、港口內(nèi)密集平行停泊的船舶、大型船舶、嚴(yán)重斑點(diǎn)噪聲下的船舶測(cè)和復(fù)雜背景的船舶測(cè)。無論是傳統(tǒng)的方法還是基于深度學(xué)習(xí)的方法,這些困難樣本的檢測(cè)都是一個(gè)研究熱點(diǎn),而SSDD可提供數(shù)據(jù)來源以研究這些問題。
SSDD數(shù)據(jù)集存在的問題以及解決辦法
盡管SSDD取得了較大的成功,但SSDD初始版本的粗略標(biāo)注和模糊標(biāo)準(zhǔn)阻礙了算法的公平比較和學(xué)術(shù)交流。
首先,初始版本中存在一些粗略的標(biāo)注,例如,有些船標(biāo)注錯(cuò)誤,有些船未進(jìn)行標(biāo)注,有些船的邊框標(biāo)注的不緊湊。因此,SSDD的初始版本是“臟的”。臟數(shù)據(jù)在計(jì)算機(jī)視覺領(lǐng)域廣泛存在,對(duì)于龐大的數(shù)據(jù)集,深度網(wǎng)絡(luò)可以通過批量訓(xùn)練減少臟數(shù)據(jù)的負(fù)面影響,從而提高模型的泛化能力。然而,對(duì)于少量的SAR圖像出現(xiàn)的臟數(shù)據(jù),深度網(wǎng)絡(luò)中可能會(huì)出現(xiàn)訓(xùn)練振蕩,這將降低檢測(cè)性能,因此,有必要糾正它們。其次,在SSDD原始論文中存在使用標(biāo)準(zhǔn)模棱兩可甚至不合理的問題。
例如,訓(xùn)練測(cè)試劃分是隨機(jī)的,但由于樣本太少,不同的測(cè)試集會(huì)導(dǎo)致結(jié)果差異很大,這將導(dǎo)致與不同學(xué)者的不公平的方法比較。此外,原論文中沒有提供劃分近岸和遠(yuǎn)海目標(biāo)的標(biāo)準(zhǔn),導(dǎo)致后來的學(xué)者對(duì)近岸和遠(yuǎn)海船舶的檢測(cè)精度進(jìn)行不公平的比較。
更重要的是,目前該數(shù)據(jù)集仍缺乏全面的數(shù)據(jù)統(tǒng)計(jì)分析,這不利于其他學(xué)者的進(jìn)一步研究。因此,為了公平的算法比較和有效的學(xué)術(shù)交流,這里明確制定了一些嚴(yán)格的使用標(biāo)準(zhǔn),包括訓(xùn)練測(cè)試的劃分,近岸和遠(yuǎn)海目標(biāo)的定義,船舶尺寸的定義,確定密集分布的小型船舶樣本,確定在港口密集平行停泊的樣本。
SSDD初始版本是垂直矩形邊界框(BBox)的標(biāo)簽,但垂直邊框不夠緊湊,其中存在大量背景雜亂,減少了船舶特征學(xué)習(xí),導(dǎo)致船舶特征提取不足,它也不適用于長(zhǎng)寬比大且方向任意的船舶,當(dāng)港口船舶排列過于密集時(shí),BBox無法有效區(qū)分,從而導(dǎo)致檢測(cè)缺失。
因此BBox不再能夠滿足可旋轉(zhuǎn)邊界框(RBox)任務(wù)和像素級(jí)多邊形分割(PSeg)任務(wù)的研究需求。RBox可以更好地描述目標(biāo)的真實(shí)形狀,同時(shí)在船舶檢測(cè)中提供更好的準(zhǔn)確性。像素級(jí)多邊形分割(PSeg)可完全抑制背景雜亂,是進(jìn)行SAR船舶檢測(cè)是最理想的標(biāo)注。
因此這里發(fā)布的最新版本的SSDD涵蓋三種標(biāo)注類型:邊界框SSDD(BBox-SSDD),可旋轉(zhuǎn)邊界框SSDD(RBox-SSDD)和多邊形分割SSDD(PSeg-SSDD)。需要對(duì)BBox-SSDD,RBox-SSDD和PSeg-SSDD進(jìn)行全面的數(shù)據(jù)統(tǒng)計(jì),分析結(jié)果將為未來可能的學(xué)者提供一些有價(jià)值的建議,以便在使用SSDD時(shí)進(jìn)一步精心設(shè)計(jì)更高精度和更強(qiáng)魯棒性的基于深度學(xué)習(xí)的SAR船舶檢測(cè)算法。
以上內(nèi)容來自論文:SAR Ship Detection Dataset (SSDD)-Of?cial Release and Comprehensive Data Analysis