CVPR 2020 | 商湯提出兩種軌跡預測新方法
本次分享兩篇軌跡預測相關CVPR 2020poster論文:
基于候選軌跡的軌跡預測方法(TPNet: Trajectory Proposal Network for Motion Prediction)
基于遞歸目標關系圖的軌跡預測方法(Recursive Social Behavior Graph for Trajectory Prediction)
論文作者來自商湯自動駕駛分析與預測組、港中文MM Lab實驗室以及上海交通大學盧策吾老師團隊。
TPNet論文地址:https://arxiv.org/pdf/2004.12255.pdf
RSBG論文地址:https://arxiv.org/pdf/2004.10402.pdf
任務介紹
隨著自動駕駛的快速發展,如何理解自動駕駛周圍目標的行為成為自動駕駛系統中的重要一環。軌跡預測任務旨在根據目標(如行人、車輛等交通參與者)當前或者歷史軌跡與環境信息,對該目標未來的行駛軌跡進行預測。軌跡預測結果是自動駕駛系統進行提前決策的重要信息之一。
動機
軌跡預測任務有以下幾個難點:
1.預測結果多模態(multimodal)特性:對于同一條歷史軌跡,不同目標可能有不同的未來軌跡。例如在十字路口,A車可能左轉, B車可能直行。如何對不同意圖進行建模,使預測方法能夠生成較為完善的預測結果是軌跡預測任務較為關注的一點。
2.預測結果可解釋、可靠: 交通參與者一般會受到各種交通規則的約束,如何利用這些規則輸出安全可靠的預測結果對于自動駕駛系統而言至關重要。
3.目標間交互關系建模: 在自動駕駛場景中,目標間的行為不僅受到其自身的意圖影響,還會受到周圍其他目標行為的影響。
針對前兩個問題, 我們提出TPNet: Trajectory Proposal Network for Motion Prediction。為了輸出多模態的預測結果,之前的方法大多學習一個軌跡的分布,通過采樣、最大化后驗概率的方法得到一個或多個概率較大的軌跡。然而對于軌跡預測任務來說未來軌跡的分布空間可能非常大,如左轉和右轉兩種意圖對應的軌跡相差較大,導致基于數據驅動的方法難以學習到這種多模態預測。因此我們提出一種新型的兩階段軌跡預測方法TPNet。在第一階段,TPNet預測不同意圖的多個終點并基于這些終點生成不同的候選軌跡(proposals)。在第二階段,TPNet會對這些proposals進行分類和回歸,分類模塊對每個候選軌跡進行二分類,回歸模塊對候選軌跡進行修正得到更加精準的預測結果。值得一提的是,這種兩階段方法保證了兩種軌跡的多模態,首先針對不同意圖,TPNet會生成不同的軌跡;其次針對同一種意圖,TPNet也會生成一組候選軌跡。進一步的,這種兩階段框架也可以幫助我們將一些先驗知識融入進深度學習框架,我們提出對不在可行駛區域(如下圖,白色區域為車輛可行駛區域,灰色為行人可行駛區域)的候選軌跡與預測結果進行懲罰,衰減其置信度,從而保證預測結果的可靠性。
針對目標間交互關系建模,我們提出Recursive Social Behavior Graph for Trajectory Prediction。近年來基于RNN的算法極大的提升了預測的準確精度,但是在一些地方仍然有較大的提升空間。較為關鍵的一點是引入人群之間的交互關系來輔助預測。
早先的做法,例如pooling和attention,都是基于行人之間的歐式距離來判斷交互關系的強弱。這種基于歐氏距離的判斷方法,不能很好的處理現實生活中復雜的情況。例如下圖中所示,上圖兩人雖然相隔整個場景,但是表現出了很強的相遇的行為傾向。而下圖的三組行人,紅色兩組雖然距離較遠,但是表現出了跟隨的行為,而紅藍兩組雖然距離較近,但是沒有產生很強的相互作用。
我們提出了使用基于行人組層面的標注來解決這一困境。通過將有相似行為,目的地的行人分為小組,并對組內行人進行關系標注,可以對整個場景中的行人關系進行詳盡的抽取。同時,圍繞這一思路,我們提出了基于LSTM和GCN的神經網絡模型,來遞歸的對行人軌跡和關系進行分析,在ETH和UCY數據集上取得了超過10%的提升。
方法介紹
TPNet
我們提出的兩階段預測方法TPNet如上圖所示,主要分為四個模塊: 基礎特征提取模塊、終點預測模塊、軌跡生成模塊以及軌跡分類與修正模塊。
基礎特征提取模塊結合目標的歷史軌跡、環境信息(道路結構),使用基于CNN Encoder-Decoder的結構提取特征。并基于該特征對目標未來的終點進行初步預測。
候選軌跡生成模塊基于預測得到的終點,生成一系列候選軌跡。為了生成多模態特性的候選軌跡集,我們提出兩種候選軌跡生成方法:基于單個終點的候選軌跡生成、基于多個意圖的候選軌跡生成。為了減小軌跡的搜多空間,我們將軌跡建模為三次曲線,通過生成曲線簇來生成候選軌跡集合。基于單個終點的候選軌跡生成方法以預測得到的終點為中心生成一個固定大小的網格,通過遍歷網格的中心生成M個可能的終點。為了生成不同彎曲程度的候選軌跡,基于每個可能的終點,生成N個控制點。最終將M個可能終點與N個控制點兩兩組合,并結合歷史軌跡點,通過三次曲線擬合的方法,我們可以得到MxN個候選軌跡,如下左圖示(橙色實線為候選軌跡)。基于多個意圖的候選軌跡生成則針對目標的不同意圖,生成不同的終點,然后利用基于單個終點的候選軌跡生成生成不同的候選軌跡集合。以車輛預測為例,Argoverse數據集提供了車輛不同的可能行駛路線(參考線),我們針對每條參考線預測出不同終點并生成對應候選軌跡,如下右圖示(綠色虛線為參考線)。
在訓練階段,分類模塊利用候選軌跡與真值軌跡的平均距離劃分正負樣本,平均距離小于閾值的作為正樣本,其余作為潛在負樣本。平均距離計算公式如下:
其中 , 分別為未來預測時間點對應真值軌跡點坐標與候選軌跡點坐標。通過對潛在負樣本進行均勻采樣,保證正負樣本比例為1:3確定負樣本。
對于所有正樣本及部分隨機采樣的負樣本,軌跡修正模塊對候選軌跡的終點及控制點進行修正,修正公式定義為:
其中與
為候選軌跡終點坐標與真值終點坐標的偏差,
為控制的參數與真值的偏差。
最后對于不在可行駛區域的候選軌跡與預測軌跡,我們提出使用如下高斯衰減對其分類置信度進行衰減:
其中為預測軌跡點不在可行駛區域內的比例,
為高斯衰減系數。最終TPNet輸出分類置信度最高的軌跡作為預測結果。
RSBG
我們提出的方法RSBG如上圖所示,可以被分成三個子模塊: 個體表征模塊,群體表征模塊和解碼器。
1. 個體表征模塊是用來對每個人的歷史行為和周圍環境進行分析編碼。考慮到人類行為具有前后關聯的性質,我們使用雙向LSTM來提取行為特征;使用CNN來提取環境特征。最后將兩個拼接以得到個體表征向量。
2. 群體表征模塊用來提取行人之間的關系。主要可以分為構建行為關系圖和遞歸抽取兩部分。首先,我們將整個場景中的所有行人的歷史軌跡信息輸入到一個由MLP組成的關系生成器中,來分析每個人兩兩之間的關系,關系強弱使用0-1來表示。在訓練過程中,我們使用標注好的行人組來對其進行監督,當兩人處于同一組時,GT為1,反之為0。在得到兩兩行人之間的關系之后,我們將其看做邊,并把行人的歷史軌跡看做節點,構建行為關系圖。隨后,GCN網絡被用來遞歸地對該圖進行分析整合,為每一個行人得到其群體表征向量。
3. 最后,我們將個體表征向量和群體表征向量進行融合,使用LSTM解碼器來生成預測結果。
考慮到使用常見的L2 Loss對性能分析指標之一的FDE優化有限,我們提出了Exponential L2 Loss來作為損失函數,該函數可以表示為:
其中和
表示歷史軌跡,i表示人的id,t表示時間點,γ為超參數,指示了每個預測點隨著時間變化重要性的增強程度。
實驗結果
軌跡預測任務常用評價指標為終點預測誤差(FDE)、平均軌跡預測點預測誤差(ADE)。我們還使用了以下評估指標:
1.minFDE: 對于N個預測軌跡,選擇終點預測誤差最小的作為評估結果
2.minADE:對于N個預測軌跡,選擇平均軌跡預測點預測誤差最小的作為評估結果
3.DAC: 預測滿足可行駛區域程度
TPNet在多個軌跡預測數據集上進行了實驗: ETH、UCY、ApolloScape以及Argoverse,均取得了SOTA的效果。
通過下圖可視化分析,我們可以看出TPNet可以輸出多模態以及可靠的預測結果。其中紅色點為目標歷史軌跡,綠色點為真值軌跡,藍色點為TPNet預測軌跡。
RSBG在流行的ETH和UCY數據集上進行試驗,并與多個框架進行比較。結果顯示我們的方法在多個子數據集上均超過了之前的SOTA成績,并且從平均上來看,ADE和FDE得到了11.1%和10.8%的提升。
從可視化分析來看,使用我們的方法之后,可以對人群之后相遇,跟隨,避讓等行為都有一個更加合理的預測。
References
[1] Ming-Fang Chang, John W Lambert, Patsorn Sangkloy, Jagjeet Singh, Slawomir Bak, Andrew Hartnett, De Wang, Peter Carr, Simon Lucey, Deva Ramanan, and James Hays. Argoverse: 3d tracking and forecasting with rich maps. In Conference on Computer Vision and Pattern Recognition (CVPR), 2019.
[2] Stefano Pellegrini, Andreas Ess, Konrad Schindler, and Luc Van Gool. You’ll never walk alone: Modeling social behavior for multi-target tracking. In 2009 IEEE 12th International Conference on Computer Vision, pages 261–268. IEEE, 2009.
[3] Alon Lerner, Yiorgos Chrysanthou, and Dani Lischinski.Crowds by example. In Computer graphics forum, volume 26, pages 655–664. Wiley Online Library, 2007.
[4] Yuexin Ma, Xinge Zhu, Sibo Zhang, Ruigang Yang, Wenping Wang, and Dinesh Manocha. Traf?cpredict: Trajectory prediction for heterogeneous traf?c-agents. arXiv preprint arXiv:1811.02146, 2018.