商研丨三次成功挑戰目標跟蹤算法極限,入選ECCV、CVPR Oral的SiamRPN系列已開源
人工智能應用在自動駕駛、智慧交通、智慧零售等場景的時候,往往需要識別和跟蹤動態的人或物體。由于存在遮擋、光照變化、尺度變化等一系列問題,目標跟蹤(Object Tracking)一直都存在較大挑戰。
近日,商湯目標跟蹤SiamRPN系列算法的SiamRPN++又獲得新突破,入選了CVPR 2019 (Oral),在多個數據集上都完成了10%以上的超越,并且是SOTA(效果最好的)算法。
以上動圖中,紅色框是SiamRPN++的跟蹤效果,藍色框是ECCV 2018上的UPDT的結果,可以看出SiamRPN++的效果更佳,跟蹤效果更穩定,框也更準。從這個圖也可以看出跟蹤的一些挑戰:光照急劇變化,形狀、大小變化等。
目標跟蹤有一個“特殊大腦”——孿生網絡(Siamese Network),簡單來說,就是左右兩個神經網絡的權重一樣,提取的特征相似。如下圖所示:
歷經數年,商湯智能視頻團隊圍繞著孿生網絡的目標跟蹤算法技術潛心研究,并將研究成果總結發表了三篇系列論文,均被國際知名計算機視覺會議錄用。這三篇論文分別為入選CVPR 2018的SiamRPN,獲得ECCV2018的VOT Workshop冠軍的DaSiamRPN,以及剛剛又入選CVPR 2019 (Oral)的SiamRPN++。
想了解目標跟蹤SOTA算法是如何煉成的嗎?商湯君呈上三篇系列論文解讀,由淺入深為您一一道來。
第一篇論文SiamRPN:將檢測算法引入到跟蹤
目標跟蹤是指在視頻中框定第一幀中目標的位置并在后續幀中進行跟蹤。雖然孿生網絡能對目標快速定位,但不能對目標框作出調整,無法對跟蹤目標的形狀進行調節。跟蹤不只是定位和比對,它對目標框(可理解為目標范圍)的回歸預測一樣重要。
SiamRPN將檢測中的區域推薦網絡引入到跟蹤中的孿生網絡:孿生網絡可以利用被跟蹤目標的信息;區域推薦網絡可以對目標位置進行更精準的預測。通過兩者的結合,SiamRPN可以進行端到端的訓練,讓跟蹤的框變的更加精準。
除了算法上的創新,SiamRPN還在數據上發力,采用了更大規模的數據訓練集Youtube-BB(大約是VID的50倍),進一步提升了跟蹤的性能。
結合以上兩點創新,在基線算法SiamFC(卷積孿生網絡)的基礎上,SiamRPN實現了五個點以上的提升(OTB100,VOT15/16/17數據集),同時還達到了更快的速度(160fps),更好地實現了精度與速度的平衡。SiamRPN論文被CVPR 2018(Spotlight)錄用。
第二篇論文DaSiamRPN:改進訓練數據集,增強判別能力
SiamRPN雖然取得了非常好的性能,但它的訓練集主要來自VID和YoutbeBB,物體類別非常少,僅二三十類,難以滿足目標跟蹤的通用類別的需求,只“認識”幾十種類別的圖像可不行。
那么如何解決數據類別不足的問題呢?
我們知道,COCO和ImageNet Det的檢測數據集分別有八十類和兩百類,所以商湯智能視頻團隊嘗試將這兩個檢測數據集引入進來。孿生網絡的訓練只需要圖像對,而并非完整的視頻,所以檢測圖片也可以被擴展為跟蹤訓練數據。
但將檢測數據集引入跟蹤之后,又發現一個新的問題:這個網絡會對所有有語義的樣本進行響應,而不是僅僅對目標物體進行響應。比如讓它跟蹤一個人,但它遇到一個椅子也會有很高響應。因為在之前的訓練方式中,負樣本(和目標無關的樣本)只有背景信息,這一定程度上限制了網絡的判別能力。
研究就是不斷遇到問題解決問題的過程,研究人員在DaSiamRPN中又改進了方法——增加了一些有語意的負樣本對來增強跟蹤器的判別能力,即訓練過程中不再讓模板和搜索區域是相同目標;而是讓網絡學習判別能力,去尋找搜索區域中和模版更相似的物體,而并非一個簡單的有語義的物體。
經過上述的改進,網絡的判別能力變得更強,檢測分數也變得更有辨別力,這樣就可以根據檢測分數判斷目標是否消失。基于此,DaSiamRPN可以將短時跟蹤拓展到長時跟蹤,并且在UAV20L數據集上比之前最好的方法提高了6個點。
DaSiamRPN也被 ECCV 2018 收錄,而且在ECCV 2018的VOT workshop上面,DaSiamRPN取得了實時比賽的冠軍,相比去年的冠軍有了80%的提升。
第三篇論文SiamRPN++:對孿生網絡本身“下刀子”,利用深網絡
以上孿生網絡在算法和訓練數據集上都做了改進,應該沒有什么可以再改進的地方了吧?
NO!還有!商湯智能視頻團隊的研究人員還對孿生網絡本身“下刀子”。之前的孿生網絡都是基于比較淺的卷積網絡(如AlexNet),無法利用深網絡為跟蹤算法提升精度。
但深網絡不能直接引入,否則會有反作用——性能大幅衰減。
引入深網絡之前需要先緩解位置偏見問題,研究人員通過提出在訓練過程中加入“位置均衡的采樣策略”來緩解這一問題,讓深網絡能夠發揮出應有的效果。
在緩解了這一問題后,深網絡能夠用在孿生網絡中,不但可以跟蹤更多細節信息(淺層網絡特征),而且能跟蹤更多語義信息(深層網絡特征),利用多層融合信息進一步提升性能。
同時,論文還提出了新的連接部件,深度可分離相關層(Depthwise Correlation,后續簡寫為DW)。相比于之前的升維相關層(UpChannel correlation,后續簡寫為UP),DW可以極大地簡化參數量,平衡兩支的參數量,同時讓訓練更加穩定,也能更好的收斂。
為了驗證以上提出的內容,研究人員做了詳細的對比實驗。在比較常用的VOT和OTB數據集上,SiamRPN++取得了SOTA的結果。
在VOT18的長時跟蹤,以及最近新出的一些大規模數據集上,如LaSOT,TrackingNet,SiamRPN++也都取得了SOTA的結果。
SiamRPN++論文也已經被CVPR 2019 Oral錄用,詳情可查看論文《SiamRPN++: Evolution of Siamese Visual Tracking with Very Deep Networks》。
https://arxiv.org/abs/1812.11703
另外,商湯科技智能視頻團隊也首次開源了目標跟蹤研究平臺PySOT,包含目標跟蹤SOTA算法SiamRPN++和SiamMask等算法。開源地址可訪問 https://github.com/STVIR/pysot,或點擊左下角“閱讀原文”。
參考文獻:
1. Bo Li, Wei Wu, Qiang Wang, Fangyi Zhang, Junliang Xing, Junjie Yan, "SiamRPN++: Evolution of Siamese Visual Tracking with Very Deep Networks" (Oral) in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR) 2019.
2. Zheng Zhu, Qiang Wang, Bo Li, Wei Wu, Junjie Yan, "Distractor-aware Siamese Networks for Visual Object Tracking" European Conference on Computer Vision (ECCV) 2018.
3. Bo Li, Junjie Yan, Wei Wu, Zheng Zhu, Xiaolin Hu, "High Performance Visual Tracking with Siamese Region Proposal Network" (Spotlight) in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR) 2018.
4. Luca Bertinetto, Jack Valmadre, Jo?o F. Henriques, Andrea Vedaldi, Philip H. S. Torr
"Fully-Convolutional Siamese Networks for Object Tracking" in ECCV Workshop 2016.
5. Goutam Bhat, Joakim Johnander, Martin Danelljan, Fahad Shahbaz Khan, Michael Felsberg."Unveiling the Power of Deep Tracking" European Conference on Computer Vision (ECCV) 2018.