行人重識別的任務是在跨非重疊多攝像機情況下的跨時間、跨空間場景下非連續幀的特定行人檢索問題,即對同一個人在不同攝像機或同一攝像機不同時間段中的圖像建立相關性的過程。人臉識別和虹膜識別等生物獨特特征識別可以確定兩個實例是否為同一身份。不幸的是,人臉識別和虹膜識別往往需要高分辨率的圖像和精確的輪廓分割,而監控系統通常使用低分辨率和低幀率,通常無法獲得這些詳細信息。視頻數據中最容易獲得的實例描述就是外貌,其包括形狀、顏色和紋理等特征。紋理和顏色特征可能因為交叉視角變化、姿態變化和跨攝像頭內部設置中尺度變化而發生改變;人體關節的鉸接性也會帶來行人輪廓的變形,不同的攝像頭的形狀參數也會使行人形狀特征的區別性降低。因此,如何通過行人外觀信息建模進行行人重識別具有很大的挑戰。
早起手工制作的行人重識別方法不夠準確,迅速被基于深度學習的重識別方法替代。
2014年,Krizhevsky等人研究的AlexNet橫空出世,由于深度卷積網絡強大的特征學習和細粒度挖掘能力,其往往能學習到具有更好的鑒別性和魯棒性的特征表征,將行人重識別性能推向了新的高峰。近年來,基于卷積神經網絡的深度學習迅速主導了重識別領域,在高識別率和平均精度方面取得了突破性成果。
行人重識別主要包括全局特征表征學習和局部特征表征學習。
由于早期深度神經網絡針對的任務是圖像分類,因此從圖像整體獲得具有鑒別性的全局行人表征是最直觀的方法。全局特征表征學習的往往能捕捉到較為顯著的外觀特征,但一些不頻繁的細節線索信息常常會被忽略。學習局部特征能夠捕獲更為細粒的特征,并可以對全局特征表征進行重要補充。