譯自https://arxiv.org/abs/2404.03507
<aside> ⚠️
本文使用ChatGPT-4o翻譯,可能有疏漏。
</aside>
$$ \text{Yi-Xin Huang}^{1⋆},\text{Hou-I Liu}^{⋆1},\text{Hong-Han Shuai}^1,\text{and Wen-Huang Cheng}^2 \\ {}^1\text{National Yang Ming Chiao Tung University, Hsinchu, Taiwan}\\ \text{\{svkatie.nctu.ee08, k39967.c, hhshuai\}@nycu.edu.tw}\\ {}^2\text{National Taiwan University, Taipei, Taiwan}\\ \text{[email protected]} $$
儘管之前基於DETR(Detection Transformer)的方法在一般物體檢測任務中取得了成功,微小物體檢測對這些方法來說仍然是一項挑戰。這是因為物體查詢的位置信息並沒有針對微小物體進行調整,這些物體的尺度比一般物體要小得多。此外,DETR類方法中使用的固定查詢數量使得它們不適合處理不同圖像中物體數量不均的情況。因此,我們提出了一個簡單但有效的模型DQ-DETR,它由三個組件構成:類別計數模組、計數引導的特徵增強、動態查詢選擇,以解決上述問題。DQ-DETR使用來自類別計數模組的預測和密度圖,動態調整物體查詢的數量和位置信息。我們的模型DQ-DETR在AI-TOD-V2數據集上實現了30.2%的最新狀態mAP,該數據集主要由微小物體組成。我們的代碼將在https://github.com/katie0723/dq-detr上找到。
**關鍵詞:**檢測變壓器、查詢選擇、微小物體檢測
卷積神經網路(CNN)在處理RGB語義和空間紋理特徵方面表現出色。大多數物體檢測方法主要基於CNN。例如,Faster R-CNN [16] 引入了一個區域提議網路,用來生成潛在的物體區域。FCOS [19] 則應用中心預測分支來提高邊界框的質量。
然而,CNN無法捕捉圖像中的長距依賴性,這限制了其檢測性能。最近,DETR [2] 結合了CNN和變壓器架構,提出了一種新的物體檢測框架。DETR利用變壓器編碼器將圖像分割塊整合,並將這些塊與可學習的物體查詢一同傳遞給變壓器解碼器,以獲得最終的檢測結果。此外,一系列基於DETR的改進方法 [7, 11, 27, 30] 旨在提升DETR的性能並加速收斂速度。例如,Deformable-DETR [30] 利用多尺度特徵圖來提升檢測不同尺寸物體的能力。同時,變形注意力模塊不僅可以捕捉更多有價值的上下文信息,還能加速訓練的收斂。
表1:不同情境下DETR類模型查詢策略比較
| 模型 | 稀疏 | 密集 | 不平衡特徵 |
|---|---|---|---|
| Deformable DETR [30] | ✓ | 稀疏查詢 (K=300),一對一分配;召回率低 | |
| DDQ-DETR [28] | ✓ | ✓ | 密集的不同查詢 (K=900),若物體數量≫查詢數量則召回率低 |
| DQ-DETR (本研究) | ✓ | ✓ | 動態調整查詢數量和位置 |
在本研究中,我們指出之前的DETR類方法不適合處理只有微小物體且不同圖像之間物體數量不平衡的航空影像數據集。以往的DETR類方法中的物體查詢沒有考慮圖像中實例的數量和位置。這些方法通常應用固定數量的物體查詢,K表示檢測物體的最大數量,例如,DETR中K=100,Deformable-DETR中K=300。然而,這些方法使用固定數量的稀疏查詢,導致低召回率問題。
我們提出的DQ-DETR,針對這些問題提供了有效的解決方案,通過動態調整查詢數量來適應圖像中實例數量的變化,並使用計數模組增強物體查詢的位置信息,以精確定位微小物體。
在以往的DETR類方法中,變壓器解碼器中使用的物體查詢並沒有考慮圖像中實例的數量和位置。通常,這些方法應用固定數量的物體查詢數K,K代表最大可檢測的物體數量,例如,DETR使用K=100,Deformable-DETR使用K=300。然而,這些方法使用固定數量的稀疏查詢,會導致召回率低的問題。為了解決這個問題,DDQ [28] 選擇了密集的不同查詢,使用了K=900的查詢數,並基於設計好的IoU(交集比)閾值應用類別無關的NMS(非極大值抑制)。雖然DDQ使用了密集查詢來進行檢測,但查詢數量仍然有限。
然而,在航空影像數據集中,不同圖像的實例數量分布往往是不平衡的。固定的查詢數量會導致當圖像中物體數量變化較大時,檢測精度下降。例如,在AI-TOD-V2數據集中,有些圖像中超過1500個物體,而另一些圖像中則少於10個物體。在圖像中的物體數量超過DETR的查詢數量K的情況下,預期會出現低召回率問題。使用較小的K會限制密集圖像中的物體召回,導致許多實例未檢測到(FN)。反之,在稀疏圖像中使用較大的K不僅會引入許多潛在的誤檢樣本(FP),還會浪費大量的計算資源,因為解碼器的自注意力層的計算複雜度會隨著查詢數量K的增加而呈二次方增長。
此外,之前的DETR類方法中的物體查詢並未考慮圖像中實例的具體位置。物體查詢的位置是一組學習到的嵌入向量,這些嵌入與當前圖像無關,並且沒有明確的物理意義來指示查詢的焦點位置。物體查詢的靜態位置不適合航空影像數據集,因為不同圖像中的實例分佈極其不同,即有些圖像中的物體集中在特定區域,而另一些圖像中的物體則分散在整個圖像中。
基於上述缺點,我們提出了一種新的DETR類方法,稱為DQ-DETR。該方法主要專注於動態調整查詢數量,並加強查詢的位置信息,以準確定位微小物體。在本研究中,我們提出了一個動態查詢選擇模組,該模組可以在DETR的解碼器階段自適應選擇不同數量的物體查詢,從而在稀疏圖像中減少FP,在密集圖像中減少FN。此外,我們使用類別計數模組生成密度圖,並估計圖像中的實例數量,基於預測的計數數量來調整物體查詢數量。再者,我們將密度圖與來自變壓器編碼器的視覺特徵進行融合,以增強前景特徵,從而提升微小物體的空間信息。強化後的視覺特徵將進一步用於改善物體查詢的位置信息。如此一來,我們可以通過動態調整解碼器中使用的物體查詢數量和位置,來同時處理圖像中具有稀少和密集微小物體的情況。
我們的貢獻總結如下: