<bdo id='32uea'><sup id='32uea'><div id='32uea'><bdo id='32uea'></bdo></div></sup></bdo>

《SegFormer: Simple and Efficient Design for Semantic Segmentation with Transformers》
本(ben)文是(shi)將Transformer模型應用(yong)于(yu)語(yu)義分(fen)割任務的一個新的嘗試，主(zhu)要創新點如(ru)下：
● 使用(yong)分級的Transformer block設計，可(ke)以產生(sheng)多種尺度的特征。
● 使用重疊的(de)patch融合策略，解決了(le)各patch特征不連續問(wen)題。
● 輕量(liang)級全MLP解碼器設計(ji)，無需復雜(za)和(he)計(ji)算要求高的模塊即可(ke)產生強大的表(biao)示。
● 在三個公開可用的(de)語義分割數(shu)據集的(de)效率、準(zhun)確性和(he)魯棒(bang)性方面(mian)創(chuang)下了最新水平(ping)。

模型結構

SegFormer主要由(you)Encoder和Decoder組(zu)成。

Encoder: 一個多層的Transformer編碼器。由四(si)層的Transformer block組成。產生(sheng)從高分辨(bian)率到(dao)低分辨(bian)率的不同特征。

Decoder: 接收多尺度(du)的編碼特征，結構為一個結構簡單的解碼器，僅由上采(cai)樣(yang)和多層(ceng)感知機組成。

分級Transformer編(bian)碼器

作者設(she)計了一系(xi)列的(de)(de)Mix Transformer編碼(ma)器（MiT），MiT-B0到(dao)MiT-B5，具有相同的(de)(de)結構，但尺寸不同。MiT-B0是(shi)(shi)用(yong)于快(kuai)速推理的(de)(de)輕量(liang)級模(mo)型，而(er)MiT-B5是(shi)(shi)用(yong)于最佳性能(neng)的(de)(de)最大(da)模(mo)型。作者設(she)計的(de)(de)MiT部分靈感來自ViT。

Overlapped Patch Merging. 給定(ding)一個圖像塊(image patch)，ViT里用到的patch merging流程是將一個H * W * 3的圖像塊(kuai)resize為一個(ge)1*1*C的(de)向量。ViT最初(chu)是設計固定的(de)下采樣倍數，以及每個(ge)patch之間沒有重疊信息。因此，它無法保持這些塊周(zhou)圍的(de)局(ju)部連續(xu)性。

作者使(shi)用重疊的(de)塊合并(bing)過(guo)程(cheng)。為此，作者定義了K、S和P，其中K是卷積核大小(xiao)，S是兩個相(xiang)鄰(lin)塊之(zhi)間(jian)的步幅(fu)，P是填充大小。在實(shi)驗中，設置K=7，S=4，P=3，以(yi)及K=3，S=2，P=1來進行重(zhong)疊(die)的(de)塊合并(bing)，分別(bie)可以(yi)實(shi)現相對上一層特征的(de)4倍(bei)和2倍(bei)的(de)下(xia)采樣。

高效(xiao)的自注(zhu)意力。 編碼(ma)器的(de)(de)主要計(ji)算(suan)瓶頸是(shi)自(zi)(zi)注意(yi)力層。在原來的(de)(de)多頭(tou)自(zi)(zi)注意(yi)過程中，每個頭(tou)的(de)(de)Q，K，V都有(you)相(xiang)同的(de)(de)維數N*C、其(qi)中(zhong)N=H*W是序列的(de)長度，自注意(yi)力的(de)計算為(wei)：

作者使用PVT（Pyramid vision transformer ）中介(jie)紹(shao)的序列縮減(jian)過程(cheng)。此過程(cheng)使用縮減(jian)比R來縮(suo)短序列長度，如(ru)下所示：

MixFFN ViT使用(yong)位(wei)置編(bian)碼（PE）來引(yin)入位(wei)置信息。然而，PE的(de)(de)分辨(bian)(bian)率是固定(ding)的(de)(de)。因(yin)此(ci)，當測試分辨(bian)(bian)率與訓練(lian)分辨(bian)(bian)率不(bu)同時，需要對(dui)位(wei)置編(bian)碼進行插值，這常(chang)常(chang)導致精度下降(jiang)。為(wei)了緩解這個問題，作者認為(wei)，對(dui)于語義分割(ge)，位(wei)置編(bian)碼實際(ji)上是沒有必要的(de)(de)。相反，作者引(yin)入了Mix-FFN，在前饋網絡(luo)(FFN)中直(zhi)接使用(yong)3×3卷積。MixFFN可寫為(wei)：

其中Xin是自注意力輸出的特征。MixFFN將一個3×3卷積和MLP混入到每個FFN中。在作者的實驗中，作者將證明3×3卷積足以為Transformers提供位置信息。具體地，作者使用深度卷積以減少參數量和提高計算效率。

輕量級All-MLP解碼器(qi)

SegFormer集成(cheng)了(le)一個僅由MLP層組成(cheng)的輕(qing)量級(ji)解(jie)碼(ma)器，這(zhe)避免了(le)其他方法中通常(chang)用的手工制作(zuo)和計算要求很高的組件(jian)。實現這(zhe)種(zhong)簡(jian)單解(jie)碼(ma)器的關鍵是作(zuo)者(zhe)的分層Transformer編碼(ma)器比傳統的CNN編碼(ma)器具有更(geng)大的有效感(gan)受(shou)野（ERF）。

作(zuo)者提(ti)出的全MLP解碼器由四個(ge)主要(yao)步驟(zou)組成。

1) 來自MiT編碼器的多級特(te)征Fi會通(tong)(tong)過(guo)MLP層來統一(yi)通(tong)(tong)道維度(du)。

2) 特征(zheng)上采樣到原圖像的1/4尺(chi)寸并拼接在一起。

3) 采用MLP層融合(he)拼接(jie)后的特征F。

4) 最后用一個MLP層進行類(lei)別預測(ce)，輸公式為：

其中M表示預測的掩(yan)碼。

下(xia)圖是與DeepLabV3+進(jin)行的有(you)效感受(shou)野對比，SegFormer可以產(chan)生更大的有(you)效感受(shou)野。

與SETR的關系。

與SETR(基于ViT的架構(gou))相(xiang)比，SegFormer包含了多種更高效、更強(qiang)大的設計：

• 只使用(yong)ImageNet-1K進行預訓(xun)練(lian)。SETR中的(de)ViT在較大的(de)ImageNet-22K上預訓(xun)練(lian)。

• SegFormer的編碼器(qi)具(ju)有分(fen)層結構(gou)，比ViT更小，可以捕獲高分(fen)辨(bian)(bian)率(lv)粗特(te)征(zheng)(zheng)(zheng)和低(di)分(fen)辨(bian)(bian)率(lv)精特(te)征(zheng)(zheng)(zheng)。相比之下，SETR的ViT編碼器(qi)只能(neng)生成(cheng)單(dan)一的低(di)分(fen)辨(bian)(bian)率(lv)特(te)征(zheng)(zheng)(zheng)圖。

• 本文去除(chu)了位置編碼(ma)，而SETR使用固定(ding)尺寸的(de)位置編碼(ma)，當(dang)推(tui)理(li)的(de)分(fen)辨率(lv)與(yu)訓練(lian)的(de)分(fen)辨率(lv)不同(tong)時，會降低精度。

• 本(ben)文的(de)(de)MLP解(jie)碼器比SETR中的(de)(de)更(geng)緊湊，計算要求更(geng)低。這導(dao)致了可(ke)以忽(hu)略(lve)不計的(de)(de)計算開銷。相反，SETR需要多個3×3卷積的(de)(de)計算量大的(de)(de)解(jie)碼器。

《SegFormer: Simple and Efficient Design for Semantic Segmentation with Transformers》
本文是將Transformer模型應用于語義分割任(ren)務的一個新(xin)的嘗試，主要創新(xin)點如下：
● 使(shi)用分級的(de)Transformer block設計，可以(yi)產(chan)生多(duo)種尺度的(de)特征。
● 使用(yong)重疊的(de)patch融合策略，解決(jue)了各patch特征不(bu)連續(xu)問題。
● 輕量(liang)級全MLP解(jie)碼(ma)器設計，無(wu)需(xu)復雜和計算要求高的(de)模塊即(ji)可產生(sheng)強大(da)的(de)表示(shi)。
● 在三個(ge)公開(kai)可用(yong)的(de)語義(yi)分(fen)割數據(ju)集的(de)效(xiao)率、準確性(xing)和(he)魯(lu)棒性(xing)方面創下了最新水平。

模型結構

SegFormer主要由Encoder和Decoder組成。

Encoder: 一個多(duo)層的(de)Transformer編碼(ma)器。由(you)四層的(de)Transformer block組成。產生從(cong)高(gao)分(fen)辨(bian)率到低分(fen)辨(bian)率的(de)不(bu)同特征。

Decoder: 接收多尺度的編碼(ma)特(te)征，結構為一個結構簡單的解(jie)碼(ma)器，僅由上采(cai)樣和多層感知機(ji)組成(cheng)。

分(fen)級Transformer編(bian)碼器

作者(zhe)(zhe)設計了一系列的Mix Transformer編碼器（MiT），MiT-B0到MiT-B5，具有(you)相同(tong)的結構，但尺(chi)寸(cun)不同(tong)。MiT-B0是(shi)用(yong)于(yu)快速推(tui)理(li)的輕量級模(mo)型，而MiT-B5是(shi)用(yong)于(yu)最佳性能的最大模(mo)型。作者(zhe)(zhe)設計的MiT部分靈感(gan)來自ViT。

Overlapped Patch Merging. 給定(ding)一(yi)個圖像(xiang)塊(image patch)，ViT里用到的patch merging流程是(shi)將一(yi)個H * W * 3的圖像塊resize為一個1*1*C的向量。ViT最初是設(she)計固(gu)定的下采樣倍數(shu)，以及(ji)每(mei)個patch之(zhi)間沒有重疊信息。因此，它無法保持這些塊周圍(wei)的局(ju)部(bu)連(lian)續性。

作者(zhe)使用重(zhong)疊的塊合并過程。為此(ci)，作者(zhe)定(ding)義了(le)K、S和P，其中K是卷積核大小，S是兩個相鄰塊之(zhi)間的步(bu)幅(fu)，P是填充大小。在實驗(yan)中，設置K=7，S=4，P=3，以及K=3，S=2，P=1來進行(xing)重(zhong)疊的塊合并，分別可以實現相對(dui)上(shang)一(yi)層(ceng)特征的4倍和(he)2倍的下采樣(yang)。

高(gao)效的自注意(yi)力。 編碼器的(de)主要(yao)計(ji)算瓶頸(jing)是(shi)自(zi)(zi)注(zhu)意(yi)力層。在原來的(de)多頭自(zi)(zi)注(zhu)意(yi)過程中，每個頭的(de)Q，K，V都有相同(tong)的(de)維數N*C、其中N=H*W是序(xu)列的長度，自注意力(li)的計算為：

作者使(shi)用(yong)PVT（Pyramid vision transformer ）中介紹的序列縮(suo)減(jian)過程。此過程使(shi)用(yong)縮(suo)減(jian)比(bi)R來縮短(duan)序列長度，如(ru)下所示：

MixFFN ViT使用位置編碼（PE）來(lai)引入位置信息(xi)。然而，PE的(de)分(fen)辨(bian)率是固(gu)定的(de)。因此，當測試分(fen)辨(bian)率與訓練分(fen)辨(bian)率不同(tong)時，需要(yao)(yao)對位置編碼進(jin)行插值(zhi)，這常常導致精(jing)度下降。為了(le)緩解這個問(wen)題，作者認(ren)為，對于語(yu)義分(fen)割，位置編碼實(shi)際上是沒有必要(yao)(yao)的(de)。相(xiang)反，作者引入了(le)Mix-FFN，在前饋網絡(FFN)中直接使用3×3卷積。MixFFN可寫為：

輕量級All-MLP解碼器

SegFormer集(ji)成(cheng)了(le)一個(ge)僅由(you)MLP層(ceng)(ceng)組(zu)成(cheng)的(de)(de)(de)輕量級(ji)解(jie)碼(ma)(ma)器(qi)，這避免了(le)其他方法中通常用的(de)(de)(de)手工(gong)制作(zuo)和計算要求(qiu)很高(gao)的(de)(de)(de)組(zu)件。實現這種簡(jian)單解(jie)碼(ma)(ma)器(qi)的(de)(de)(de)關鍵是作(zuo)者的(de)(de)(de)分層(ceng)(ceng)Transformer編碼(ma)(ma)器(qi)比傳統的(de)(de)(de)CNN編碼(ma)(ma)器(qi)具有(you)更大(da)的(de)(de)(de)有(you)效感受野（ERF）。

作者提出(chu)的全(quan)MLP解碼器由四個主要步驟組成。

1) 來自MiT編碼器的多級特征Fi會(hui)通過MLP層來統一通道維度。

2) 特征上(shang)采樣到(dao)原圖像(xiang)的1/4尺寸并拼(pin)接(jie)在一(yi)起。

3) 采用MLP層融合拼(pin)接(jie)后的特征(zheng)F。

4) 最后用一(yi)個MLP層進行類(lei)別預(yu)測(ce)，輸公式為(wei)：

其中M表示預測(ce)的(de)掩碼。

下圖是與DeepLabV3+進行的有效感(gan)(gan)受野對(dui)比，SegFormer可以(yi)產(chan)生更大的有效感(gan)(gan)受野。

與SETR的(de)關系。

與SETR(基于(yu)ViT的架構)相(xiang)比(bi)，SegFormer包含(han)了多種更(geng)高效(xiao)、更(geng)強大的設計：

• 只使用ImageNet-1K進行(xing)預(yu)訓(xun)練。SETR中(zhong)的(de)(de)ViT在較大的(de)(de)ImageNet-22K上預(yu)訓(xun)練。

• SegFormer的編碼(ma)器具有分層(ceng)結構，比ViT更小，可以捕獲高分辨(bian)率(lv)粗(cu)特征(zheng)和低(di)分辨(bian)率(lv)精特征(zheng)。相比之下，SETR的ViT編碼(ma)器只能生(sheng)成(cheng)單一的低(di)分辨(bian)率(lv)特征(zheng)圖。

• 本文去(qu)除了位置編碼，而SETR使用固定尺寸(cun)的位置編碼，當推理的分辨率(lv)與訓練的分辨率(lv)不同(tong)時(shi)，會(hui)降低精(jing)度。

• 本文的MLP解(jie)碼器比SETR中的更(geng)緊湊，計(ji)算(suan)(suan)要(yao)求更(geng)低。這導致(zhi)了可以忽略不(bu)計(ji)的計(ji)算(suan)(suan)開(kai)銷。相反，SETR需要(yao)多個(ge)3×3卷積的計(ji)算(suan)(suan)量大(da)的解(jie)碼器。

亚欧色一区w666天堂,色情一区二区三区免费看,少妇特黄A片一区二区三区,亚洲人成网站999久久久综合,国产av熟女一区二区三区

應用商城

定價

合作伙伴

開發者

支持與服務

了解天翼云

語義分割模型segFormer方案介紹

模型結構

分級Transformer編(bian)碼器

輕量級All-MLP解碼器(qi)

與SETR的關系。

語義分割模型segFormer方案介紹

模型結構

分(fen)級Transformer編(bian)碼器

輕量級All-MLP解碼器

與SETR的(de)關系。

亚欧色一区w666天堂,色情一区二区三区免费看,少妇特黄A片一区二区三区,亚洲人成网站999久久久综合,国产av熟女一区二区三区

活動

應用商城

定價

合作伙伴

開發者

支持與服務

了解天翼云

語義分割模型segFormer方案介紹

模型結構

分級Transformer編(bian)碼器

輕量級All-MLP解碼器(qi)

與SETR的關系。

語義分割模型segFormer方案介紹

模型結構

分(fen)級Transformer編(bian)碼器

輕量級All-MLP解碼器

與SETR的(de)關系。