亚欧色一区w666天堂,色情一区二区三区免费看,少妇特黄A片一区二区三区,亚洲人成网站999久久久综合,国产av熟女一区二区三区

  • 發布文章
  • 消息中心
點贊
收藏
評論
分享
原創

SiamRPN:建議區域網絡與孿生網絡 High Performance Visual Tracki

2023-02-22 01:52:43
23
0

 

論文地址://openaccess.thecvf.com/content_cvpr_2018/papers/Li_High_Performance_Visual_CVPR_2018_paper.pdf

摘要

大多數性能優越的視覺目標跟蹤器很難有實時速度。在這篇文章中,我們提出了孿生候選區域生成網絡(Siamese region proposal network),簡稱Siamese-RPN,它能夠利用大尺度的圖像對離線端到端訓練。具體來講,這個結構包含用于特征提取的孿生子網絡(Siamese subnetwork)和候選區域生成網絡(region proposal subnetwork),其中候選區域生成網絡包含分類回歸兩條支路。在跟蹤階段,我們提出的方法被構造成為單樣本檢測任務(one-shot detection task)。

我們預先計算孿生子網絡中的模板支路,也就是第一幀,并且將它構造成一個檢測支路中區域提取網絡里面的一個卷積層,用于在線跟蹤。得益于這些改良,傳統的多尺度測試和在線微調可以被舍棄,這樣做也大大提高了速度。Siamese-RPN跑出了160FPS的速度,并且在VOT2015,VOT2016和VOT2017上取得了領先的成績。

1.引言

與適當設計的最先進的基于相關濾波器的方法相比,基于離線訓練的基于深度學習的跟蹤器可以獲得較好的結果。關鍵是候選的孿生候選區域生成網絡(Siamese-RPN)。它由模板分支檢測分支組成,它們以端到端的方式對大規模圖像對進行離線訓練。受到最先進的候選區域提取方法RPN 的啟發,我們對相關feature map進行提議提取。與標準RPN不同,我們使用兩個分支的相關特征映射進行提議提取。在跟蹤任務中,我們沒有預定義的類別,因此我們需要模板分支將目標的外觀信息編碼到RPN要素圖中以區分前景和背景。

在跟蹤階段,作者將此任務視為單目標檢測任務(one-shot detection),什么意思呢,就是把第一幀的bb視為檢測的樣例,在其余幀里面檢測與它相似的目標。

綜上所述,作者的貢獻有以下三點:

1.提出了Siamese region proposal network,能夠利用ILSVRC和YouTube-BB大量的數據進行離線端到端訓練。

2.在跟蹤階段將跟蹤任務構造出局部單目標檢測任務。

3.在VOT2015, VOT2016和VOT2017上取得了領先的性能,并且速度能都達到160fps。

2.相關工作

2.1 RPN

RPN即Region Proposal Network,是用RON來選擇感興趣區域的,即proposal extraction。例如,如果一個區域的p>0.5,則認為這個區域中可能是80個類別中的某一類,具體是哪一類現在還不清楚。到此為止,網絡只需要把這些可能含有物體的區域選取出來就可以了,這些被選取出來的區域又叫做ROI(Region of Interests),即感興趣的區域。當然RPN同時也會在feature map上框定這些ROI感興趣區域的大致位置,即輸出Bounding Box。

RPN詳細介紹

2.2 One-shot learning

最常見的例子就是人臉檢測,只知道一張圖片上的信息,用這些信息來匹配出要檢測的圖片,這就是單樣本檢測,也可以稱之為一次學習。

3 Siamese-RPN framework

3.1 SiamFC

SiamFC詳細介紹

所謂的Siamese(孿生)網絡,是指網絡的主體結構分上下兩支,這兩支像雙胞胎一樣,共享卷積層的權值。上面一支(z)稱為模板分支(template),用來提取模板幀的特征。φ表示一種特征提取方法,文中提取的是深度特征,經過全卷積網絡后得到一個6×6×128的feature map φ(z)。下面一支(x)稱為檢測分支(search),是根據上一幀的結果在當前幀上crop出的search region。同樣提取了深度特征之后得到一個22×22×128的feature map φ(x)。模版支的feature map在當前幀的檢測區域的feature map上做匹配操作,可以看成是φ(z)在φ(x)上滑動搜索,最后得到一個響應圖,圖上響應最大的點就是對應這一幀目標的位置。

Siamese網絡的優點在于,把tracking任務做成了一個檢測/匹配任務,整個tracking過程不需要更新網絡,這使得算法的速度可以很快(FPS:80+)。此外,續作CFNet將特征提取和特征判別這兩個任務做成了一個端到端的任務,第一次將深度網絡和相關濾波結合在一起學習。

Siamese也有明顯的缺陷:

1.模板支只在第一幀進行,這使得模版特征對目標的變化不是很適應,當目標發生較大變化時,來自第一幀的特征可能不足以表征目標的特征。至于為什么只在第一幀提取模版特征,我認為可能因為:

(1)第一幀的特征最可靠也最魯棒,在tracking過程中無法確定哪一幀的結果可靠的情況下,只用第一幀特征足以得到不錯的精度。

(2)只在第一幀提取模板特征的算法更精簡,速度更快。

2.Siamese的方法只能得到目標的中心位置,但是得不到目標的尺寸,所以只能采取簡單的多尺度加回歸,這即增加了計算量,同時也不夠精確。

網絡訓練原理

如圖所示,上一幀的目標模板與下一幀的搜索區域可以構成很多對的模板-候選對(exemplar-candidate pair), 但是根據判別式跟蹤原理,僅僅下一幀的目標與上一幀的目標區域(即 exemplar of T frame-exemplar of T+1 frame)屬于模型的正樣本,其余大量的exemplar-candidate pair都是負樣本。這樣就完成了網絡結構的端到端的訓練。

3.2 Siamese-RPN

左邊是孿生網絡結構,上下支路的網絡結構和參數完全相同,上面是輸入第一幀的bounding box,靠此信息檢測候選區域中的目標,即模板幀。下面是待檢測幀,顯然,待檢測幀的搜索區域比模板幀的區域大。中間是RPN結構,又分為兩部分,上部分是分類支路,模板幀和檢測幀的經過孿生網絡后的特征再經過一個卷積層,模板幀特征經過卷積層后變為2k×256通道,k是anchor數量,因為分為兩類,所以是2k。下面是邊界框回歸支路,因為有四個量[x, y, w, h],所以是4k右邊是輸出。

3.3 孿生特征提取子網絡

預訓練的AlexNet,剔除了conv2 conv4兩層 。φ(z)是模板幀輸出,φ(x)是檢測幀輸出。

3.4 候選區域提取子網絡

分類支路和回歸支路分別對模板幀和檢測幀的特征進行卷積運算。

?包含2k個通道向量,中的每個點表示正負激勵,通過交叉熵損失分類;?包含4k個通道向量,每個點表示anchor和gt之間的dx,dy,dw,dh,通過smooth L1 損失得到。

Ax, Ay, Aw, Ah是anchor boxes中心點坐標和長寬; Tx, Ty, Tw, Th是gt boxes,為什么要這樣呢,因為不同圖片之間的尺寸存在差異,要對它們做正規化。

3.5 訓練階段:端到端訓練孿生RPN

因為跟蹤中連續兩幀的變化并不是很大,所以anchor只采用一種尺度,5種不同的長寬比(與RPN中的3×3個anchor不同)。當IoU大于0.6時是前景,小于0.3時是背景。

4. Tracking as one-shot detection

如圖,紫色的部分像原始的Siamese網絡,經過同一個CNN之后得到了兩個feature map,藍色的部分是RPN。模板幀在RPN中經過卷積層,?? 當作檢測所用的核。

簡單的說,就是預訓練模版分支,利用第一幀的目標特征輸出一系列weights,而這些weights,包含了目標的信息,作為檢測分支RPN網絡的參數去detect目標。這樣做的好處是:

(1)模板支能學到一個encode了目標的特征,用這個特征去尋找目標,這會比直接用第一幀的feature map去做匹配更魯棒。

(2)相比原始的Siamese網絡,RPN網絡可以直接回歸出目標的坐標和尺寸,既精確,又不需要像multi-scale一樣浪費時間。

經過網絡后,我們將分類和回歸特征映射表示為點集。

用余弦窗(抑制距離過大的)和尺度變化懲罰(抑制尺度大變化)來對proposal進行排序,選最好的。具體公式可看論文。

用這些點對應的anchor box結合回歸結果得出bounding box:

an就是anchor的框,pro是最終得出的回歸后的邊界框 至此,proposals set就選好了。

然后再通過非極大抑制(NMS),顧名思義,就是將不是極大的框都去除掉,由于anchor一般是有重疊的overlap,因此,相同object的proposals也存在重疊。為了解決重疊proposal問題,采用NMS算法處理:兩個proposal間IoU大于預設閾值,則丟棄score較低的proposal。

IoU閾值的預設需要謹慎處理,如果IoU值太小,可能丟失objects的一些 proposals;如果IoU值過大,可能會導致objects出現很多proposals。IoU典型值為0.6。

5.實施細節

我們使用從ImageNet [28]預訓練的改進的AlexNet,前三個卷積層的參數固定,只調整Siamese-RPN中的最后兩個卷積層。這些參數是通過使用SGD優化等式5中的損耗函數而獲得的。共執行了50個epoch,log space的學習率從10-2降低到10-6。我們從VID和Youtube-BB中提取圖像對,通過選擇間隔小于100的幀并執行進一步的裁剪程序。如果目標邊界框的大小表示為(w,h),我們以大小A×A為中心裁剪模板補丁,其定義如下:

其中p =(w + h)/2

之后將其調整為127×127。以相同的方式在當前幀上裁剪檢測補丁,其大小是模板補丁的兩倍,然后調整為255×255。

在推理階段,由于我們將在線跟蹤制定為一次性檢測任務,因此沒有在線適應。我們的實驗是在帶有Intel i7,12G RAM,NVidia GTX 1060的PC上使用PyTorch實現的。

 

 

0條評論
0 / 1000
代碼的路
100文章數
1粉絲數
代碼的路
100 文章 | 1 粉絲
代碼的路
100文章數
1粉絲數
代碼的路
100 文章 | 1 粉絲
原創

SiamRPN:建議區域網絡與孿生網絡 High Performance Visual Tracki

2023-02-22 01:52:43
23
0

 

論文地址://openaccess.thecvf.com/content_cvpr_2018/papers/Li_High_Performance_Visual_CVPR_2018_paper.pdf

摘要

大多數性能優越的視覺目標跟蹤器很難有實時速度。在這篇文章中,我們提出了孿生候選區域生成網絡(Siamese region proposal network),簡稱Siamese-RPN,它能夠利用大尺度的圖像對離線端到端訓練。具體來講,這個結構包含用于特征提取的孿生子網絡(Siamese subnetwork)和候選區域生成網絡(region proposal subnetwork),其中候選區域生成網絡包含分類回歸兩條支路。在跟蹤階段,我們提出的方法被構造成為單樣本檢測任務(one-shot detection task)。

我們預先計算孿生子網絡中的模板支路,也就是第一幀,并且將它構造成一個檢測支路中區域提取網絡里面的一個卷積層,用于在線跟蹤。得益于這些改良,傳統的多尺度測試和在線微調可以被舍棄,這樣做也大大提高了速度。Siamese-RPN跑出了160FPS的速度,并且在VOT2015,VOT2016和VOT2017上取得了領先的成績。

1.引言

與適當設計的最先進的基于相關濾波器的方法相比,基于離線訓練的基于深度學習的跟蹤器可以獲得較好的結果。關鍵是候選的孿生候選區域生成網絡(Siamese-RPN)。它由模板分支檢測分支組成,它們以端到端的方式對大規模圖像對進行離線訓練。受到最先進的候選區域提取方法RPN 的啟發,我們對相關feature map進行提議提取。與標準RPN不同,我們使用兩個分支的相關特征映射進行提議提取。在跟蹤任務中,我們沒有預定義的類別,因此我們需要模板分支將目標的外觀信息編碼到RPN要素圖中以區分前景和背景。

在跟蹤階段,作者將此任務視為單目標檢測任務(one-shot detection),什么意思呢,就是把第一幀的bb視為檢測的樣例,在其余幀里面檢測與它相似的目標。

綜上所述,作者的貢獻有以下三點:

1.提出了Siamese region proposal network,能夠利用ILSVRC和YouTube-BB大量的數據進行離線端到端訓練。

2.在跟蹤階段將跟蹤任務構造出局部單目標檢測任務。

3.在VOT2015, VOT2016和VOT2017上取得了領先的性能,并且速度能都達到160fps。

2.相關工作

2.1 RPN

RPN即Region Proposal Network,是用RON來選擇感興趣區域的,即proposal extraction。例如,如果一個區域的p>0.5,則認為這個區域中可能是80個類別中的某一類,具體是哪一類現在還不清楚。到此為止,網絡只需要把這些可能含有物體的區域選取出來就可以了,這些被選取出來的區域又叫做ROI(Region of Interests),即感興趣的區域。當然RPN同時也會在feature map上框定這些ROI感興趣區域的大致位置,即輸出Bounding Box。

RPN詳細介紹

2.2 One-shot learning

最常見的例子就是人臉檢測,只知道一張圖片上的信息,用這些信息來匹配出要檢測的圖片,這就是單樣本檢測,也可以稱之為一次學習。

3 Siamese-RPN framework

3.1 SiamFC

SiamFC詳細介紹

所謂的Siamese(孿生)網絡,是指網絡的主體結構分上下兩支,這兩支像雙胞胎一樣,共享卷積層的權值。上面一支(z)稱為模板分支(template),用來提取模板幀的特征。φ表示一種特征提取方法,文中提取的是深度特征,經過全卷積網絡后得到一個6×6×128的feature map φ(z)。下面一支(x)稱為檢測分支(search),是根據上一幀的結果在當前幀上crop出的search region。同樣提取了深度特征之后得到一個22×22×128的feature map φ(x)。模版支的feature map在當前幀的檢測區域的feature map上做匹配操作,可以看成是φ(z)在φ(x)上滑動搜索,最后得到一個響應圖,圖上響應最大的點就是對應這一幀目標的位置。

Siamese網絡的優點在于,把tracking任務做成了一個檢測/匹配任務,整個tracking過程不需要更新網絡,這使得算法的速度可以很快(FPS:80+)。此外,續作CFNet將特征提取和特征判別這兩個任務做成了一個端到端的任務,第一次將深度網絡和相關濾波結合在一起學習。

Siamese也有明顯的缺陷:

1.模板支只在第一幀進行,這使得模版特征對目標的變化不是很適應,當目標發生較大變化時,來自第一幀的特征可能不足以表征目標的特征。至于為什么只在第一幀提取模版特征,我認為可能因為:

(1)第一幀的特征最可靠也最魯棒,在tracking過程中無法確定哪一幀的結果可靠的情況下,只用第一幀特征足以得到不錯的精度。

(2)只在第一幀提取模板特征的算法更精簡,速度更快。

2.Siamese的方法只能得到目標的中心位置,但是得不到目標的尺寸,所以只能采取簡單的多尺度加回歸,這即增加了計算量,同時也不夠精確。

網絡訓練原理

如圖所示,上一幀的目標模板與下一幀的搜索區域可以構成很多對的模板-候選對(exemplar-candidate pair), 但是根據判別式跟蹤原理,僅僅下一幀的目標與上一幀的目標區域(即 exemplar of T frame-exemplar of T+1 frame)屬于模型的正樣本,其余大量的exemplar-candidate pair都是負樣本。這樣就完成了網絡結構的端到端的訓練。

3.2 Siamese-RPN

左邊是孿生網絡結構,上下支路的網絡結構和參數完全相同,上面是輸入第一幀的bounding box,靠此信息檢測候選區域中的目標,即模板幀。下面是待檢測幀,顯然,待檢測幀的搜索區域比模板幀的區域大。中間是RPN結構,又分為兩部分,上部分是分類支路,模板幀和檢測幀的經過孿生網絡后的特征再經過一個卷積層,模板幀特征經過卷積層后變為2k×256通道,k是anchor數量,因為分為兩類,所以是2k。下面是邊界框回歸支路,因為有四個量[x, y, w, h],所以是4k右邊是輸出。

3.3 孿生特征提取子網絡

預訓練的AlexNet,剔除了conv2 conv4兩層 。φ(z)是模板幀輸出,φ(x)是檢測幀輸出。

3.4 候選區域提取子網絡

分類支路和回歸支路分別對模板幀和檢測幀的特征進行卷積運算。

?包含2k個通道向量,中的每個點表示正負激勵,通過交叉熵損失分類;?包含4k個通道向量,每個點表示anchor和gt之間的dx,dy,dw,dh,通過smooth L1 損失得到。

Ax, Ay, Aw, Ah是anchor boxes中心點坐標和長寬; Tx, Ty, Tw, Th是gt boxes,為什么要這樣呢,因為不同圖片之間的尺寸存在差異,要對它們做正規化。

3.5 訓練階段:端到端訓練孿生RPN

因為跟蹤中連續兩幀的變化并不是很大,所以anchor只采用一種尺度,5種不同的長寬比(與RPN中的3×3個anchor不同)。當IoU大于0.6時是前景,小于0.3時是背景。

4. Tracking as one-shot detection

如圖,紫色的部分像原始的Siamese網絡,經過同一個CNN之后得到了兩個feature map,藍色的部分是RPN。模板幀在RPN中經過卷積層,?? 當作檢測所用的核。

簡單的說,就是預訓練模版分支,利用第一幀的目標特征輸出一系列weights,而這些weights,包含了目標的信息,作為檢測分支RPN網絡的參數去detect目標。這樣做的好處是:

(1)模板支能學到一個encode了目標的特征,用這個特征去尋找目標,這會比直接用第一幀的feature map去做匹配更魯棒。

(2)相比原始的Siamese網絡,RPN網絡可以直接回歸出目標的坐標和尺寸,既精確,又不需要像multi-scale一樣浪費時間。

經過網絡后,我們將分類和回歸特征映射表示為點集。

用余弦窗(抑制距離過大的)和尺度變化懲罰(抑制尺度大變化)來對proposal進行排序,選最好的。具體公式可看論文。

用這些點對應的anchor box結合回歸結果得出bounding box:

an就是anchor的框,pro是最終得出的回歸后的邊界框 至此,proposals set就選好了。

然后再通過非極大抑制(NMS),顧名思義,就是將不是極大的框都去除掉,由于anchor一般是有重疊的overlap,因此,相同object的proposals也存在重疊。為了解決重疊proposal問題,采用NMS算法處理:兩個proposal間IoU大于預設閾值,則丟棄score較低的proposal。

IoU閾值的預設需要謹慎處理,如果IoU值太小,可能丟失objects的一些 proposals;如果IoU值過大,可能會導致objects出現很多proposals。IoU典型值為0.6。

5.實施細節

我們使用從ImageNet [28]預訓練的改進的AlexNet,前三個卷積層的參數固定,只調整Siamese-RPN中的最后兩個卷積層。這些參數是通過使用SGD優化等式5中的損耗函數而獲得的。共執行了50個epoch,log space的學習率從10-2降低到10-6。我們從VID和Youtube-BB中提取圖像對,通過選擇間隔小于100的幀并執行進一步的裁剪程序。如果目標邊界框的大小表示為(w,h),我們以大小A×A為中心裁剪模板補丁,其定義如下:

其中p =(w + h)/2

之后將其調整為127×127。以相同的方式在當前幀上裁剪檢測補丁,其大小是模板補丁的兩倍,然后調整為255×255。

在推理階段,由于我們將在線跟蹤制定為一次性檢測任務,因此沒有在線適應。我們的實驗是在帶有Intel i7,12G RAM,NVidia GTX 1060的PC上使用PyTorch實現的。

 

 

文章來自個人專欄
文章 | 訂閱
0條評論
0 / 1000
請輸入你的評論
2
2