1. 背景介紹
自動駕(jia)(jia)駛技術是近年來汽車工業和(he)人(ren)工智能領域的(de)一(yi)個(ge)重要發(fa)展方向,它(ta)涉及到車輛的(de)感(gan)知、決策和(he)控制等(deng)多個(ge)方面。在(zai)自動駕(jia)(jia)駛系統中,場(chang)景理(li)解(jie)是一(yi)個(ge)基(ji)礎而關(guan)鍵的(de)步(bu)驟(zou),它(ta)幫(bang)助車輛理(li)解(jie)周圍環境(jing)并做(zuo)出相應的(de)反(fan)應。
BEV(鳥瞰視圖)和(he)(he)PV(透(tou)視圖)是兩種不同的視角(jiao)模型,它們(men)在自(zi)動(dong)駕駛場(chang)景中被用來處理和(he)(he)解釋車輛(liang)周(zhou)圍的環境(jing)信息。BEV和(he)(he)PV模型在自(zi)動(dong)駕駛場(chang)景理解中扮演著重(zhong)要角(jiao)色(se),并(bing)且(qie)它們(men)的評測對于(yu)確保自(zi)動(dong)駕駛系統的安全(quan)性和(he)(he)有效性至關重(zhong)要。
2. BEV及PV模型技術原理
BEV模(mo)(mo)型(xing)和PV模(mo)(mo)型(xing)的基本概念如下:
-
BEV模型:鳥瞰視圖模(mo)型提供了一個從上方觀察(cha)車(che)輛(liang)(liang)及其(qi)周圍(wei)環境(jing)的(de)視角(jiao)。這種(zhong)視角(jiao)有助(zhu)于(yu)車(che)輛(liang)(liang)更好(hao)地理解交通流和(he)車(che)輛(liang)(liang)的(de)位置關系,常用于(yu)路(lu)徑(jing)規劃和(he)避障。
-
PV模型:透視圖模型則提供了一個更接近人類駕駛員視角的視圖,它模擬了車輛前方的視角,有助于車輛識別和理解道路上的交通標志、行人和其他車輛。
BEV(Bird's-Eye-View)感(gan)知領域涉及(ji)的細分任務類型主(zhu)要(yao)包括以下幾個(ge)方面:
1. 3D目標(biao)檢測(3D Object Detection):使用(yong)BEV視角進行目標檢測(ce),能夠(gou)更準確地識別和(he)定位場(chang)景中的對象。
2. 3D車道檢(jian)測(3D Lane Detection):檢(jian)測道路中(zhong)的(de)車道線,并在BEV視角下進行(xing)表示,這對于自動駕(jia)駛中(zhong)的(de)路徑(jing)規(gui)劃(hua)和控制至關重要。
3. 地(di)圖分(fen)割(Map Segmentation):對環(huan)境地圖進行像(xiang)素級別(bie)的(de)分割(ge),識別(bie)不同的(de)道路元素,如(ru)可行駛區域(yu)、人行道等。
4. 多目標跟(gen)蹤(Multi-Object Tracking, MOT):在(zai)BEV視角下跟(gen)蹤多個移動目(mu)標,這(zhe)對于理解動態環境和進行決策至關(guan)重要。
5. 運(yun)動(dong)預測(ce)(Motion Prediction):預測其他車輛(liang)和行人在(zai)未來一段時間內(nei)的運(yun)動軌(gui)跡,這對于自(zi)動駕駛中的安全決策非常重(zhong)要。
6. 場景理解(Scene Understanding):綜(zong)合理解整個交通場景(jing),包括(kuo)車(che)輛、行人、交通標志(zhi)等元素(su)的位置(zhi)和行為。
7. 傳感器(qi)融合(Sensor Fusion):將(jiang)來自不同傳感器(如攝像頭、激光(guang)雷達、雷達等)的數據融合到(dao)BEV視(shi)角中(zhong),以獲得更全面和準確的環境感知。
8. 自(zi)動駕(jia)駛挑(tiao)戰(Autonomous Driving Challenge):這是(shi)一(yi)個綜合性任務(wu),涉及上述所(suo)有任務(wu)類型,目的是(shi)在(zai)復雜的交通環(huan)境中實現自(zi)動駕(jia)駛。
9. 深度估(gu)計(ji)(Depth Estimation):在BEV視(shi)角中估(gu)計(ji)場(chang)景中各(ge)元(yuan)素的深度信息(xi),這對于3D目標檢測和場(chang)景理(li)解至關重要(yao)。
10. 特征(zheng)提(ti)取與建模(Feature Extraction and Modeling):在(zai)BEV視角(jiao)下(xia)提取和構(gou)建環境(jing)特(te)征(zheng)圖,用(yong)于識別和追蹤路面(mian)、車輛(liang)、行人、交通標志(zhi)等關鍵(jian)元素。
11. 端(duan)到(dao)端(duan)優化(End-to-End Optimization):最新的BEV感(gan)知(zhi)技術如LSS(Lift, Splat, Shoot)或BEVFormer等,實現了從原始(shi)傳感(gan)器輸入(ru)到BEV特征的生成,同時(shi)進(jin)行感(gan)知(zhi)任(ren)務的學習和(he)優(you)化。
這些任(ren)務類型涵蓋了從基礎(chu)的(de)感(gan)知任(ren)務到(dao)復(fu)雜的(de)決策和(he)預(yu)測任(ren)務,體現了BEV感(gan)知在自動駕駛系統中的(de)廣(guang)泛應用和(he)重要性。
3. 評測數據集
在自動駕駛領域,鳥瞰(kan)圖(Bird's-Eye-View,簡稱BEV)感(gan)(gan)知(zhi)(zhi)技(ji)術的發展離不開(kai)各種數據(ju)集(ji)的支持,這些數據(ju)集(ji)提(ti)供(gong)了豐富的傳感(gan)(gan)器(qi)數據(ju)和標注信息,用于訓(xun)練和評估BEV感(gan)(gan)知(zhi)(zhi)算(suan)法。根據(ju)提(ti)供(gong)的文獻內容,以下是一些主流的BEV感(gan)(gan)知(zhi)(zhi)數據(ju)集(ji):
1. KITTI數據集:KITTI是(shi)一個(ge)早期的(de)自動(dong)駕(jia)駛(shi)數(shu)(shu)據集(ji)(ji),提供(gong)了7481張訓練(lian)圖(tu)像和(he)7518張測(ce)試(shi)圖(tu)像,用于(yu)3D目標(biao)檢測(ce)任(ren)務。它還包括由Velodyne激光(guang)掃(sao)描儀捕獲的(de)點云數(shu)(shu)據。KITTI數(shu)(shu)據集(ji)(ji)是(shi)第一個(ge)全(quan)面的(de)自動(dong)駕(jia)駛(shi)任(ren)務數(shu)(shu)據集(ji)(ji),引起(qi)了社區的(de)廣泛關注。
2. Waymo開放數據(ju)集(Waymo Open Dataset):Waymo數(shu)(shu)據(ju)集(ji)1.3版本(ben)(ben)包含了798,202個(ge)(ge)訓練視(shi)頻(pin)序列,80,080個(ge)(ge)驗證序列和(he)(he)80,080個(ge)(ge)測試(shi)序列。每(mei)個(ge)(ge)序列包含5個(ge)(ge)激光雷達和(he)(he)5個(ge)(ge)視(shi)角的(de)(de)圖像(xiang)。Waymo數(shu)(shu)據(ju)集(ji)是大(da)規模(mo)和(he)(he)多樣化的(de)(de),并(bing)且隨著數(shu)(shu)據(ju)集(ji)版本(ben)(ben)的(de)(de)更新(xin)而(er)不(bu)斷發展(zhan)。Waymo開放挑戰賽每(mei)年都會定義(yi)新(xin)任(ren)務,鼓勵社(she)區解(jie)決(jue)這些問題。
3. nuScenes數(shu)據(ju)集:nuScenes是一(yi)個(ge)(ge)大(da)規模自動駕駛數據(ju)集(ji),包含兩個(ge)(ge)城(cheng)市中的(de)1000個(ge)(ge)駕駛場景,其中850個(ge)(ge)用于(yu)訓練(lian)/驗證,150個(ge)(ge)用于(yu)測試。每個(ge)(ge)場景持(chi)續20秒,并提供了(le)包括6個(ge)(ge)攝像(xiang)頭(tou)、1個(ge)(ge)激(ji)光雷達和5個(ge)(ge)雷達的(de)完整傳感器套件(jian),以及相應(ying)的(de)高清(qing)地圖和CAN總線數據(ju)。
4. Argoverse數(shu)據集(ji):Argoverse是第(di)一個(ge)帶有高清(qing)地圖(tu)的(de)自動駕駛數據集,包含2個(ge)激光雷(lei)達(da)、7個(ge)環視(shi)攝像(xiang)頭和(he)兩(liang)個(ge)立(li)體(ti)攝像(xiang)頭的(de)傳感器設置。Argoverse 1支持(chi)3D跟蹤和(he)運動預(yu)測任務(wu),而(er)更新的(de)Argoverse 2支持(chi)更多(duo)任務(wu),包括(kuo)3D目標檢(jian)測、無監督學習(xi)、運動預(yu)測和(he)地圖(tu)感知任務(wu)。
5. 其他數據集:文獻中還提到了(le)其他一些數(shu)據集,如ApolloScape、OpenLane、Lyft L5、A* 3D、H3D、SemanticKITTI、A2D2、Cityscapes 3D、PandaSet、KITTI-360、Cirrus、ONCE、AIODrive和DeepAccident等,這些數(shu)據集提供了(le)不同(tong)場景(jing)、不同(tong)傳(chuan)感器配置(zhi)和不同(tong)標注(zhu)類型(xing)的數(shu)據,用于支持BEV感知研(yan)究。
這些(xie)數據集不僅為BEV感知算法的研(yan)究提供了豐富的實驗平臺,同時(shi)也推動了自動駕駛(shi)技術的發展。通過對這些(xie)數據集的深(shen)入分(fen)析和使用,研(yan)究人員能夠更好地理解BEV感知任務,并開發出(chu)更加精確和魯棒(bang)的算法。
4. 評測指標
BEV和PV感知的評測指標主要包括以下(xia)幾(ji)種:
1. LET-3D-APL (Longitudinal Error Tolerant 3D Average Precision): 這是針對只有(you)攝(she)像頭的(de)3D檢測(ce)任務的(de)評估指(zhi)標。與傳統的(de)3D IoU(Intersection over Union)不同,LET-3D-APL允許預(yu)測(ce)的(de)邊界框在(zai)縱向(xiang)定(ding)位上有(you)一定(ding)的(de)誤差容忍度。它通過縮放精度值來(lai)懲罰縱向(xiang)定(ding)位誤差,從而考慮預(yu)測(ce)框與真(zhen)實(shi)框在(zai)縱向(xiang)上的(de)距離。
2. mAP (mean Average Precision): 類似于(yu)2D目標(biao)檢測中眾(zhong)所周知的(de)AP(Average Precision)指標(biao),但匹(pi)配策(ce)略從(cong)IoU改(gai)為BEV平面(mian)上的(de)2D中心距離(li)。mAP在不同的(de)距離(li)閾(yu)值(zhi)下計(ji)算,通常是(shi)0.5米(mi)、1米(mi)、2米(mi)和4米(mi),然后計(ji)算這(zhe)些(xie)閾(yu)值(zhi)下AP的(de)平均值(zhi)。
3. NDS (nuScenes Detection Score): nuScenes檢測分數是多(duo)個指標的組合(he),包括mAP、mATE(平(ping)(ping)均(jun)平(ping)(ping)移(yi)誤差(cha))、mASE(平(ping)(ping)均(jun)尺度誤差(cha))、mAOE(平(ping)(ping)均(jun)方(fang)向誤差(cha))、mAVE(平(ping)(ping)均(jun)速度誤差(cha))和mAAE(平(ping)(ping)均(jun)屬(shu)性(xing)誤差(cha))。NDS通過(guo)上(shang)述指標的加權和來計算(suan),其中(zhong)mAP的權重為5,其余為1。
4. PKL (Planning KL-Divergence): PKL是一個用于(yu)神經網絡(luo)規劃(hua)任務(wu)的新(xin)指標(biao)(biao),基于(yu)規劃(hua)器(qi)生(sheng)成(cheng)的軌(gui)(gui)跡與真實軌(gui)(gui)跡之間的KL散度。PKL指標(biao)(biao)始(shi)終非負,較小的PKL得(de)分(fen)意味著檢測性能更(geng)好。
5. Localization Affinity: 用于LET-3D-APL中的定(ding)(ding)(ding)位(wei)親(qin)(qin)和(he)度定(ding)(ding)(ding)義(yi),根據預測框(kuang)的縱向(xiang)定(ding)(ding)(ding)位(wei)誤差(cha)來調整(zheng)精(jing)度值(zhi)。如(ru)果沒有縱向(xiang)定(ding)(ding)(ding)位(wei)誤差(cha),則定(ding)(ding)(ding)位(wei)親(qin)(qin)和(he)度為1.0;如(ru)果誤差(cha)等于或超過最大縱向(xiang)定(ding)(ding)(ding)位(wei)誤差(cha),則為0.0;親(qin)(qin)和(he)度在0.0和(he)1.0之間(jian)線(xian)性(xing)插值(zhi)。
這(zhe)些評估指標(biao)用于衡量BEV感(gan)知算法在不同方(fang)面的表現,包括目標(biao)檢測的準確(que)性、魯棒性以及與(yu)真實情況的接近程度。通(tong)過(guo)這(zhe)些指標(biao),研究人(ren)員可(ke)以全面地評估和比較不同BEV感(gan)知方(fang)法的性能(neng)。