2011年播出的高分美國電視劇“Penson of Interest”講述了一個殘疾編程天才通過發明一套算法,并利用算法從城市監控攝像頭網絡中識別篩選可能進行犯罪的人員,從而與另一位特工阻止了多起可能發生的惡性犯罪事件的故事。現實生活中,多攝像頭視頻監控是一個涉及計算機視覺、模式識別、通信、嵌入式計算存儲和圖像傳感器的多學科研究領域。智能分析監控視頻數據也一直是計算機領域備受關注的領域之一。
隨著近年來圖像傳感器、處理器和存儲設備的快速發展,視頻采集和存儲設備成本不斷下降,同時基于公共安全保障的期望和需求不斷上升,越來越多的監控攝像機在許多公共場所和私人場所都進行了部署,構建起了大型的安全保障監控網絡。視頻監控的在各個領域的應用前景是非常廣泛的。司法執法部門可以通過監控高風險可疑人員和搜索目標人員,進行國土安全保障、失蹤人員搜尋、犯罪預防以及事故預測和檢測;交通運輸部門可以了解監管環境中人員的長期行為和移動情況,從而能夠進行更高效的交通管理和流量控制;幼兒園和養老院可以分析兒童和老人的行為與環境情況,從而提供更好的安全和服務保障;零售公司和超市可以通過分析客戶行為來預測客戶喜好和軌跡,從而改善客戶服務以及為購物空間優化提供建議。如今,每個城市里都有大量的視頻監控設備,其每天都在收集大量的圖像視頻數據。
單攝像機的視場是有限的,其視野往往受所在場景的結構限制。多攝像機的視頻流是廣闊區域監控的基礎。為了使這些攝像機覆蓋盡量大的地理空間區域,在全力保障安全防控的同時,各個攝像機之間通常也存在不重疊的視覺空間。大型的安全保障監控網絡提供了海量的視頻安防數據,這些數據通常由政府執法人員或者經政府許可的安防公司進行保管。由于視頻數據是海量的,只由人工進行視頻數據監控往往是低效且成本昂貴的,這也大大地降低了監控的實用性和有效性。通常,安全人員管控的攝像機數量往往遠超過他們能夠承擔的數量;調查人員對視頻進行司法分析也存在各種困難,如注意力有限導致錯過目標事件或人物、缺乏背景知識對目標搜索進行指導、數據過載以及無法利用非視覺領域知識進行輔助檢索等。通過計算機視覺算法對大量的視頻數據進行理解分析的需求是非常迫切的,算法在更快地處理視頻數據的同時,也顯著提高了視頻監控的質量和實用性。計算機視覺算法分析可以對人員在場景中的長期活動和行為進行充分描述和預測,這往往是高級安防監控任務所必需的。當算法檢測出可疑行動和不良事件時,可以對安防人員及時發出提醒,使得監控行為更加主動。
跨多攝像機跟蹤行人是廣域場景分析的關鍵,而行人重識別正是跨多攝像機跟蹤行人的關鍵。如圖1-1所示,行人重識別(Person Re-Identification)指的是對同一個人在不同攝像機或同一攝像機不同時間段中的圖像建立相關性的過程。人臉識別和虹膜識別等生物獨特特征識別可以確定兩個實例是否為同一身份。不幸的是,人臉識別和虹膜識別往往需要高分辨率的圖像和精確的輪廓分割,而監控系統通常使用低分辨率和低幀率,通常無法獲得這些詳細信息。因此,如何通過行人全局信息建模進行行人重識別具有很大的挑戰。

圖1-1 行人重識別的目標
在行人重識別任務中,視頻數據中最容易獲得的實例描述就是外貌,其包括形狀、顏色和紋理等特征。如圖1-2所示,紋理和顏色特征可能因為交叉視角變化、姿態變化和跨攝像頭內部設置中尺度變化而發生改變;人體關節的鉸接性也會帶來行人輪廓的變形,不同的攝像頭的形狀參數也會使行人形狀特征的區別性降低。2014年,Krizhevsky等人研究的AlexNet橫空出世,從此為深度卷積神經網絡在計算機視覺領域的應用拉開序幕。深度神經網絡在圖像分類、圖像檢索、語義分割和實例分割等領域已經取得了顯著的成就。深度神經網絡對圖像分類的強大能力非常適合處理行人重識別任務。

圖1-2 不同攝像頭下行人外貌的顯著變化