基于并行點檢測和點匹配的單階段實時HOI Detection方法
代碼鏈接:https://github.com/YueLiao/PPDM
論文鏈接:https://arxiv.org/abs/1912.12898
導讀:在CVPR2020上,商湯3D&AR-身份認證與視頻感知團隊聯合北京航空航天大學Colab(可樂實驗室)提出了基于并行點檢測和點匹配的單階段HOI Detection方法,為學術界首次在HOI Detection領域達到實時性能的深度學習算法,并且在公開數據集HICO-DET上性能取得了大幅度提升。同時本文還構建了一個以實際應用場景為導向的HOI Detection數據庫HOI-A。
動機與背景
問題定義: HOI Detection (人和物體的動作交互檢測) 是一個針對靜態圖片對人體動作的精細化理解,任務要求檢測出圖片中產生動作的人以及和他產生動作交互的物體,同時還要將二者的動作關系預測出來并關聯起來。
傳統兩階段HOI Detection方法:第一階段,通過一個預訓練好的目標檢測網絡檢測出圖片中的人和物體,然后把人和物體框一一配對得到一系列的<人,物體>候選對 (HO Proposals)。第二階段,把每一個HO Proposal逐一送入到一個動作關系分類網絡,得到對應的預測出對應動作關系類別。
兩階段方法的局限性:從性能上,兩階段模型的結構是序列化和分離化的,第二階段分類的性能會依賴于第一階段檢測的性能。而第一階段在生成Proposals時僅考慮檢測置信度較高的人/物體,而忽視一個人/物體產生交互關系的可能性,從而會導致有交互關系的人/物體會被漏掉,或者在第二階段受到“輕視“。此外,一一組隊產生proposals的方式會生成大量負樣本,增大搜索空間,增加正樣本被檢出并賦予高置信度的難度。從效率上,第一階段產生的所有樣本,包括大量的負樣本,都要逐個串行的輸入到第二階段的關系預測網絡,線性的增加了時間復雜度。此外,為了取得較好的性能,第一階段往往會采用性能更好的檢測模型,也會增加時間開銷。
主要貢獻
1.基于兩階段方法的局限性,我們重新定義了HOI Detection為一個并行點檢測和并行點匹配的問題,并提出全新的單階段HOI Detection框架(PPDM)。
2.我們提出的PPDM框架不僅在公開數據集HICO-DET以及我們構建的HOI-A數據集上取得了最優的性能,還成為第一個在HOI Detection領域達到實時性能的深度學習框架。
3.我們構建了一個以實際應用為導向的HOI Detection數據庫。
方法介紹
問題重定義:
l 人/物體檢測框:檢測框的中心點+檢測框長寬以及中心點的偏差;
l 交互關系點:人和物體檢測框中心點連線的中點。為一個連接人和物體的錨點,也在此點來預測對應人和物體之間的關系。
l 匹配規則:首先定義了兩個偏差,分別從交互關系點到人和物體框的中心點。結合交互關系點和對應的偏差找到最符合匹配規則的人和物體中心點。匹配到同一個關系點的人和物體即可組成一個HOI三元組。
網絡結構:基于以上定義我們提出一個由并行雙支路組成的單階段框架。首先通過一個特征提取網絡,得到圖片的特征,然后經由兩條支路得到HOI三元組。第一條支路為“點檢測“支路,輸入圖片的特征,輸出人/物體/交互關系點的熱力圖以及對應人/物體檢測框的長寬。第二條支路為“點匹配” 支路,輸入圖片特征,輸出交互關系點到人/物體檢測框中點的偏差。
點匹配詳解:我們首先挑選出置信度最高個k個交互關系點以及對應的偏差,基于此,我們可以生成一系列“coarse human/object point”。然后,我們基于“離‘coarse point’最近且具有較高置信度”的匹配規則,找到每個交互關系點所匹配的人和物體中心點。最后結合人和物體中心點對應位置預測出來的長寬便可得到最后的HOI三元組。
HOI-A數據集
以實際落地應用場景為導向,我們選取了非常有限但極具實用價值的10種動作關系,通過攝像頭采集以及網絡爬取的方式,采集了將近4萬張以人為中心的場景圖片,并對所有圖片進行了精細的HOI Detection標注。為了增大類間差異,圖片包含豐富的場景(室內,室外,車內燈),不同的光照強度,不同的人物著裝,和同一類物體的不同形態,并采用兩種攝像頭來采集,RGB和IR。
實驗結果
我們選取了兩種不同的主干網絡DLA-34和Hourglass-104在兩個數據庫HICO-DET和HOI-A上對我們的方法PPDM進行一系列實驗。
從定量結果上可以得到,在HICO-DET數據庫上,我們在不采用額外信息,如人體姿態,語言特征等的情況下,取得了最優的性能,并且速度遠遠快于之前的方法,其中基于DLA-34的框架,為在HICO-DET上第一個達到實時性能的算法。
在下圖中我們對比了經典的兩階段方法iCAN,其中我們對每張圖片top-3得分HOI三元組進行了可視化,其中第一行為iCAN的結果,第二行為PPDM的結果。從定性結果可以分析得到,我們的算法可以檢測出真正具有關系的人和物體對并給出較高的置信度得分,而iCAN[]往往會偏向于給易于檢測但實際沒有實際關系的人和物體對較高的得分,從而產生誤檢。
總結與展望
在本文中,我們提出一套單階段實時的HOI Detection解決方案,并構建了一個以實際應用為導向的HOI Detection數據庫。希望我們提出的方法和數據庫可以縮小HOI Detection學術界和產業界的鴻溝。在方法層面,如何在我們的框架下高效合理的利用更加細粒度的人體姿態信息來提高動作識別的準確性是一個改進方向。在數據庫層面,在未來我們會不斷的擴大和豐富我們的HOI-A數據庫,來推動領域發展。