<source id="8ti10"></source>
  • <video id="8ti10"></video>
  • <source id="8ti10"></source>

        <u id="8ti10"><video id="8ti10"></video></u>
      1. 申請試用
        登錄
        核心技術
        以原創技術體系為根基,SenseCore商湯AI大裝置為核心基座,布局多領域、多方向前沿研究,
        快速打通AI在各個垂直場景中的應用,向行業賦能。

        CVPR 2020 Oral | : 真實世界下的大規模多標簽目標檢測算法解讀

        2020-07-23

        導讀:在CVPR 2020上,商湯搜索與決策團隊與中科院自動化所合作,針對超大規模多標簽目標檢測任務,提出了有效的解決方案。該工作以真實世界中的通用檢測任務為背景,分析了主要面臨的痛點,在損失函數和采樣方法上提出了創新,有效地改善了痛點并在量化指標上有顯著提升。


        背景及分析

        在深度學習中,數據始終是至關重要的因素之一。隨著硬件與算法的發展,在學術界和工業界,對數據規模的需求也越來越強。然而在大規模數據的場景下,出現了許多新的挑戰,也使得算法的邊界將產生新的定義。

        本文以Open Images數據庫為例來模擬真實世界下的超大規模檢測,該數據庫擁有170萬訓練圖片,1240萬框圖并包含500個目標類別。在該場景下,我們分析了主要面臨的痛點問題:

        121.png

        圖1


        1.顯式多標簽問題

        與傳統的單標簽目標檢測不同,真實世界下的物體往往具有多種標簽類別,以圖1(a,b)為例,目標可同時具有多種并列的標簽類別,也可同時具有父子繼承關系的多標簽類別。


        2.隱式多標簽問題

        超大規模數據由于其規模,往往采用機器輔助人工的手段進行標注,在訓練數據中會頻繁出現漏標和混標的情況。以圖1(c,d)為例,部分目標會出現缺失子類標簽的情況,另一些易混淆類別的目標會隨機性地互標。


        3.類別的長尾效應

        在學術集中,訓練數據的類別一般位置在較均衡的分布,然而在實際應用中,類別的分布呈現出嚴重的長尾效應。

        多標簽問題的解決方案---

        面對顯示和隱式的多標簽問題,檢測中常用的softmax將導致多標簽之間產生響應值的競爭。這種競爭不僅使得多標簽的預測概率明顯降低,還會導致訓練過程中優化目標的方向錯誤。

        QQ圖片20200725214757.png

        反傳梯度為:

        aaa1.png

        其中QQ圖片20200725194149.png表示目標的類別響應,m代表該目標的positive標簽個數,K為positive標簽集合,y表示每個類別的二分標簽。

         

        針對以上觀察,本文提出了concurrent-softmax,在訓練和測試過程中,根據目標的多標簽和類別的隱性依賴關系輸出每種類別的概率值。該算法有效地解決了訓練過程中的多標簽優化難點,并改善了預測過程中多標簽的競爭問題。

        qqqq1.png

        反傳梯度為:

        qqqqq2.png

         

        其中QQ圖片20200725192934.png表示在訓練數據中統計的類別i相對于類別j的共存概率分布。

         

        表1展示了concurrent-softmax與傳統loss的結果對比,表2展示了concurrent-softmax在訓練和測試時的效果。

        表1

        qqqq3.png

        表2

        123.png


        長尾效應的解決方案---

        長尾效應的主要痛點主要在于部分類別出現頻率過高,部分類別出現頻率極低,天然采樣方法從而導致檢測器對稀少類欠擬合。典型的解決方案是均勻采樣法,即每種類別圖片的采樣頻率一致,然而此舉將導致對稀少類的嚴重過擬合,且高頻類別中大量的訓練數據無法被采樣到,導致高頻類的訓練也不充分。本文提出了混合采樣和混合訓練法以漸進式地逐步改善以上兩個問題。

        ---

        首先,我們以天然采樣為基礎,設計了混合采樣方式,其中天然采樣方式下的單類采樣頻率為:

        H.png

        均勻采樣頻率為:

        QQ圖片20200725195019.png

        混合采樣頻率則設計為:

        image.png

        其中n表示某類別圖片數量,QQ圖片20200725193005.png表示平滑參數,QQ圖片20200725193032.png定義如下:

        image.png

        該采樣方式能有效的增加稀少類的采樣頻率并緩解過擬合。表3展示了混合采樣方式在性能上的明顯提升,圖2分別展示了不同平滑稀疏下采樣方式對高頻和低頻類的單類精度影響。

        表3

        K.png

        L.png

        圖2

        其次,我們采用混合訓練方式,即用天然采樣方法預訓練模型,并采用混合采樣方式微調模型,保證了高頻類的每個樣本都被采樣過,保證了對高頻類的充分學習。表4展示了混合訓練方式帶來的精度收益。

        表4

        M.png

         

        結語---

        該文章對真實場景下的大規模多標簽目標檢測問題做了較為全面的分析,并提出了有效可靠的解決方案,為未來類似場景下研究提供了一定的經驗和思路。


        <source id="8ti10"></source>
      2. <video id="8ti10"></video>
      3. <source id="8ti10"></source>

            <u id="8ti10"><video id="8ti10"></video></u>
          1. 动漫人物打扑克视频