基于全卷積網絡的圖像語義分割算法

2021-12-17 23:52陳孝如
電腦知識與技術 2021年33期

陳孝如

摘要:計算機視覺中圖像處理及圖像理解是重要技術,圖像語義分割對于圖像理解具有直接影響。為能夠進一步提高圖像語義分割準確性以及效率,提出一種基于全卷積網絡的圖形語義分割可將任意尺寸圖片輸入其中,端對端實施像素級分割,能夠顯著提高分割準確度。但是在實際應用中,容易出現分辨率低問題,為提升圖像語義分割精度,該文從FCN基礎實施改進,減少池化步長、實現多尺度池化和疊加高層語義因此以及改進代價函數。針對研究算法在PASCAL VOC 2012數據集上對其實施驗證以及評測,研究結果發現這一算法和原有算法相比平均交并比得到相助提升,達到0.6%。

關鍵詞:全卷積網絡;圖像語義;分割算法

中圖分類號:TP393? ? ? ? 文獻標識碼:A

文章編號:1009-3044(2021)33-0012-02

開放科學(資源服務)標識碼(OSID):

在深度學習以及全卷積網絡發展中,有效促進了圖像語義分割發展,在無人駕駛、機器導航以及醫療診斷等中有廣泛應用。圖像語義分割算法能夠實現圖像的像素級分類,以此得到圖像整體信息。全卷積網絡是當前一個重要圖像語義分割算法,效果好,具有創新性,能夠將卷積神經網絡全連接層采用卷積層進行替換,且在像素級分類任務中具有應用價值。但是全卷積神經網絡圖像語義分割算法在實際應用中,也存在一定問題,例如分辨率低、前景和背景分布不平衡、上下文推斷能力不足等等,為進一步提高圖像語義分割算法準確度,需要實現對其算法實施改進,本次基于FCN基礎實施改進,對其算法和應用效果實施驗證及評測。

1 全卷積神經網絡結構設計

應用最廣泛的語義分割算法為全卷積神經網絡FCN,將全連接層采用卷積層進行替換,將最后輸出特征灰度到圖像輸入尺寸,以能夠預測分析各像素。全卷積神經網絡對于圖像位移、形變和縮放存在有高度不變性,在圖像分割中具有應用價值。另外本身的學習能力以及特征表達能力較強,能夠實現端對端處理,減少了中間的復雜處理步驟,有助于顯著提高圖像分割精度。其中全卷積神經網絡結構簡化設計見圖1。卷積包括有卷積1和卷積2兩部分。在卷積2中采用卷積實現對神經網絡全連接的替代,且轉置卷積最后卷積層的輸出特征圖,以能夠實現上采樣目的,確保輸出特征圖和輸入圖像尺寸的一致性,以此實施像素級語義分割。在上采樣操作中,針對輸入的任何尺寸圖像均可以實施分割,傳統圖像分割也就轉變為了像素級分割,也能夠得到具有語義信息的分割圖像,進而顯著提升分割精度。但是實際應用中,也存在問題即為網絡連續池化導致特征圖分辨率不高,輸出稀疏,上下文推斷能力弱以及復雜樣本關注度低等等。本次針對這一問題實施改進分析。

2 空洞卷積及感受野

全卷積神經網絡實施圖形語義分割中,需要通過5次池化層,每次均為一次下采樣,實現對特征圖尺寸降低基礎上也可以加大節點感受野。FCN中各個池化層池化步長都是2,通過一次池化層輸入特征分辨率會降低到當前層輸入特征分辨率的1/2。進過5次池化層后,所得最終輸出特征和輸入圖像相比為1/32。在轉置卷積上采樣應用下,能夠將其輸出特征圖像恢復到輸入尺寸,進而實施像素級預測。在這一過程中會導致輸出特征非常稀疏,特征提取及分類中難度較大,對分割結果具有不良影響。想要得到更稠密特征,想要對其進行改進,確保前3層池化層池化步長沒有改變,將第4池化層池化步長從2降到1,改進后可以將輸出特征圖提高到輸入圖像的1/8,提高輸出特征稠密性,也能夠有效確保圖像的更多信息。但是將第4層池化層池化步長進行降低后,會降低神經元節點感受野,掌握全局信息難度較大,因此需要采用能夠將特征圖變稠密,同時感受野沒有編校方式,最佳方式即為空洞卷積。

空洞卷積能夠從輸入特征圖和卷積核兩個視域理解?;谳斎胩卣鲌D,空洞卷積在實施采樣,采樣頻率即為空洞卷積dilation rate,之后針對采樣后特征圖和標準卷積核實施卷積操作;基于卷積核分析,空洞卷積即為實現卷積核擴大的一個尺寸,將其和特征圖實施卷積操作??斩淳矸e感受野大小表示方式為:

rn=rn-1+(kn-1)×dn×[i=1n-1Si],n≥2

在以上公式中,rn為第n個卷積層各階段感受野,kn為第n個卷積層卷積核大小,Si為第i個卷積層卷積核步長,dn即為第n個卷積層空洞卷積的dilation rate,計算公式如下所示:

dn=dn×Sn-1

通過以上公式能夠發現,空洞卷積dilation rate隨著指數的增長而增長,在其為1,2,4的第3個空洞卷積后神經元節點感受野大小具體為15×15。通過上分析能夠發現,隨著層數增加標準卷積感受野呈現出線性增長趨勢,空洞卷積感受野隨之增長。如果是在網絡深度一致情況下,空洞卷積感受野和標準卷積相比明顯偏大。所以,可以實現對以上問題的有效解決。

3 多尺度池化及多層特征融合策略

在研究過程中,想要在疊加過程中融合特征圖,需要實現對各個特征圖尺寸一致性的分析,特別是確保通道數的一致性。本次研究針對特征圖第三維數據分析,比如7×7×512特征圖的通道數即為512。想要實現對通道數一致性提供保障,也就需要采用1×1×128卷積核實現對4種不同尺寸特征圖實施卷積,所得卷積結果為:1×1×128、2×2×128、4×4×128以及7×7×128,之后在雙線性插值方法的應用下,對其實施上采樣,實現對特征圖尺寸的統一,也就能夠獲取4個28×28×128特征圖,最后將其和多尺度池化前特征實施疊加,以能夠實現相互融合,即可以得到上下文信息。其中多尺度池化和上采樣見圖2。

多尺度池化和特征圖融合中,能夠得到更多信息,如果各層軍采用多尺度池化,也容易導致出現問題,即為特征維度小以及深度提取不佳等等。所以,本次研究僅在最后一層池化層實施多尺度池化,以實現對以上問題的防范,也能夠實現對不同區域上下文信息的聚合,進而提升網絡結構得到全局信息的能力。

4 改進代價函數

卷積神經網絡分類器訓練中,默認各像素權重為均勻分布,模型對于圖像中樣本數量較大類別更有偏向性,對于樣本數量較少類別有所忽視。如果圖像中負樣本數量較多,且黑色背景部分分類容易,容易導致模型優化發橫偏差,分類無法實現對前景目標的準確語義分割,影響分割準確性。針對這一問題,本次研究中最大化減少易分類樣本權重,提高模型對難分類樣本的關注,以免出現偏向。卷積神經網絡中多分類問題研究中,通常為代價函數,如下所示:

L(y,[y])=-[1mi=1my]ln(softmax(x(i)))

以上公式中L{}為指數函數,m為訓練樣本,[y]為真實概率分布。本次對其改進,如下所示,一般情況下會給常用代價函數增加一個調制系數,實現對簡單樣本權重分布的調節,以能夠實現對分類器偏向問題的解決。

L(y,[y])=-[1mi=1my]×[(1-softmax(x(i)))γ]×ln(softmax(x(i)))

以上公式中[γ]為超參數,即為權值系數對代價函數的一個影響作用,取值不同音響作用也具有差異;[(1-softmax(x(i)))]為調制系數,主要實現對易分類樣本權重的減低。

5 實驗驗證

本次研究采用數據集PASCAL VOC 2012對其算法應用實施驗證。在算法優劣分析中具有多種評價方法,本次采用的是網絡訓練時間以及平均并交比兩個指標,后者即為真實值和預測值交集和并集的比值所得平均值。將本次研究算法和DeepLab v3算法訓練時間和平均并交比對比,所得結果見表1。

6 結語

通過以上分析能夠看出,本次算法顯著降低了總訓練時間和平均并交比,中平均并交比降低0.6,相較而言這一算法分割精度高,訓練時間短,應用范圍更加廣泛。

參考文獻:

[1] 李瀚超,蔡毅,王嶺雪.全局特征提取的全卷積網絡圖像語義分割算法[J].紅外技術,2019,41(7):595-599,615.

[2] 鄧寒冰,周云成,許童羽,等.基于RGB-D的肉牛圖像全卷積網絡語義分割優化[J].農業工程學報,2019,35(18):151-160.

[3] 吳止鍰,高永明,李磊,等.類別非均衡遙感圖像語義分割的全卷積網絡方法[J].光學學報,2019,39(4):393-404.

[4] 郭亞男.基于全卷積神經網絡的圖像語義分割技術的發展及應用綜述[J].數碼世界,2019(7):10.

[5] 王朵.基于全卷積神經網絡的遙感圖像語義分割及變化檢測方法研究[D].西安:西安電子科技大學,2018.

[6] 孫海川.基于全卷積網絡的圖像語義分割算法研究[D].哈爾濱:哈爾濱工業大學,2018.

[7] 于倩倩,黃文龍,付世榮.基于全卷積神經網絡的圖像語義分割[J].電腦與信息技術,2019,27(5):16-18,21.

【通聯編輯:代影】