基于RCF的精細邊緣檢測模型

2019-10-31 09:21:33 計算機應用 2019年9期

景年昭 楊維

摘 要:針對目前基于深度學習的邊緣檢測技術生成的邊緣粗糙及模糊等問題,提出一種基于更豐富特征的邊緣檢測(RCF)模型(Richer Convolutional Features for Edge Detection)的端到端的精細邊緣檢測模型。該模型以RCF模型為基礎,在主干網絡中引入“注意力”機制,采用SE(Squeeze-and-Excitation)模塊提取圖像邊緣特征,并且去掉主干網絡部分下采樣,避免細節信息過度丟失,使用擴張卷積技術增大模型感受野,并利用殘差結構將不同尺度的邊緣圖進行融合。對伯克利分割數據集(BSDS500)進行增強,使用一種多步驟的訓練方式在BSDS500和PASCAL VOC Context數據集上進行訓練,并用BSDS500進行測試實驗。實驗結果表明,該模型將全局最佳(ODS)和單圖最佳(OIS)指標分別提高到了0.817和0.838,在不影響實時性的前提下可以輸出更精細的邊緣,同時還具有較好的魯棒性。

關鍵詞:邊緣檢測;更豐富的卷積特征檢測;深度學習;擴張卷積;注意力機制

中圖分類號:TP391.41

文獻標志碼:A

Fine edge detection model based on RCF

JING Nianzhao*, YANG Wei

School of Electronic and Information Engineering, Beijing Jiaotong University, Beijing 100044, China

Abstract:

Aiming at the roughness and blur of edges generated by edge detection technology based on deep learning, an end-to-end fine edge detection model based on RCF (Richer Convolutional Features for edge detection) was proposed. In this model based on RCF model, attention mechanism was introduced in the backbone network, Squeeze-and-Excitation (SE) module was used to extract image edge features. In order to avoid excessive loss of detail information, two subsampling in the backbone network were removed. In order to increase the receptive field of the model, dilation convolution was used in the backbone. A residual module was used to fuse the edge images in different scales. The model was trained on the Berkeley Segmentation Data Set (BSDS500)and PASCAL VOC Context dataset by a multi-step training approach and was tested on the BSDS500. The experimental results show that the model improves the ODS (Optimal Dataset Scale) and OIS (Optimal Image Scale) to 0.817 and 0.838 respectively, and it not only generates finer edges without affecting real-time performance but also has better robustness.

Key words:

edge detection; Richer Convolutional Features for edge detection (RCF); deep learning; dilation convolution; attention mechanism

0 引言

圖像的邊緣是圖像的重要特征之一,準確的邊緣檢測是圖像分割、目標區域識別、區域形狀提取等圖像分析工作的基礎[1-2],是機器視覺系統中必不可少的重要環節[3-5]。

早期的邊緣檢測算法建立在圖像梯度運算的基礎上,利用圖像的一階或二階梯度信息提取圖像的邊緣,代表方法有Sobel算子[6]、Canny算子[7]等。這一類基于梯度的方法實時性好,但魯棒性不強,容易受噪聲、光照等因素的影響。隨著統計學和信息理論的引入以及機器學習領域的發展,許多基于手工特征的方法被提出。Konishi等[8]基于數據驅動技術,將邊緣檢測表述為統計推斷,利用圖像特征的聯合概率分布實現邊緣的提取;Martin等[9]把圖像的亮度、光照、紋理等局部特征輸入到邏輯回歸分類器中進行邊緣的判定。這一類方法基于手工提取的圖像特征,利用濾波器技術或分類器技術進行邊緣的檢測,性能比傳統方法有了很大的提升,但是其成本高,步驟繁瑣,實時性不好。后來,隨著神經網絡的復興以及計算機算力的提升,基于深度學習的算法成為了該領域的主流方法。Ganin等[10]提出將卷積神經網絡與最近鄰算法結合起來進行邊緣檢測,該方法先利用卷積神經網絡(Convolutional Neural Network, CNN)自動提取圖像特征,然后再利用最近鄰算法實現邊緣的聚類;Shen等[11]將邊緣檢測看作一個多分類問題,根據邊緣的不同形態將邊緣分成多個子類,利用CNN進行邊緣子類的檢測,之后再利用隨機森林技術將子類聚合形成最終輪廓圖;Bertasius等[12]提出使用更多的高級特征可以提升模型的性能,將參與分類任務的預訓練模型遷移到邊緣檢測模型中,并將網絡分為兩個支路,利用多尺度技術分別進行邊緣的分類學習和回歸學習,使模型的魯棒性得到很大提升;Xie等[13]提出了第一個端到端的邊緣檢測模型HED(Holistically-nested Edge Detection),該模型基于全卷積神經網絡[14]框架并嘗試利用深監督技術[15]和多尺度學習技術解決邊緣的模糊問題;Liu等[16]在HED模型的基礎上提出基于更豐富特征的邊緣檢測(Richer Convolutional Features for edge detection, RCF)模型,通過融合更豐富的特征使輸出的邊緣更精細。

由于其強大的特征自動提取能力,基于深度學習的邊緣檢測技術比之前的算法在性能上有很大提升,對光照、陰影等影響因素的魯棒性也隨之增強。但是,像RCF或HED這類端到端的邊緣檢測模型以VGG16(Visual Geometry Group)[17]等傳統分類網絡為基礎,不能提取圖片的全局特征,因此表達能力受到一定的影響。另外,這一類模型采用過多的下采樣并且沒有充分融合多尺度特征,導致圖像中的許多細節信息丟失,使輸出的邊緣線條粗糙且模糊。針對這些問題,本文提出一種基于RCF的精細邊緣檢測模型。該模型在RCF的基礎上,引入SE(Squeeze-and-Excitation)結構[18],提取全局特征,去掉主干網絡的后兩個下采樣,避免細節信息多度丟失,并使用擴張卷積技術[19]增加主干網絡的感受野,提高主干網絡的表達能力,然后使用一個殘差結構[20]充分融合深監督模塊輸出的多尺度特征,生成最終的邊緣圖。此外,該模型使用一種多階段的訓練方式在增強的伯克利分割數據集(Berkeley Segmentation Data Set, BSDS500)[21]和PASCAL VOC Context數據集[22]上進行訓練,并在測試時使用圖像金字塔技術,使模型性能進一步提升。

1 細邊緣檢測模型

1.1 RCF網絡

RCF[16]以HED[13]為基礎,實現了端到端邊緣檢測,是目前性能最好的邊緣檢測算法之一。如圖1所示,RCF的結構分為三大部分:主干網絡、深監督模塊(Deeply-Supervised nets, DS)和特征融合模塊(fuse)。RCF使用VGG16[17]的全部卷積層作為自己的主干網絡,分為5個stage。通過這種全卷積結構[14],主干網絡實現了邊緣特征的自動提取。RCF的深監督模塊對每一個stage進行監督學習,并使每個stage輸出一張邊緣圖,使該模型可以更好更快地收斂。RCF的融合模塊則利用一個1×1的卷積層將深監督模塊輸出的5張邊緣圖融合并輸出最終的邊緣圖。RCF輸出的邊緣圖融合了主干網絡每一層的特征,其效果要好于只使用部分特征的HED網絡。

1.2 本模型

本模型的設計思想來源于RCF網絡,并對RCF各個模塊進行了針對性的改進。如圖2所示,本模型可大致分為主干網絡、深監督模塊、特征融合模塊三部分。

1.2.1 基于SE結構的主干網絡

如圖2中的虛線左邊部分所示,本模型的主干網絡以RCF的主干網絡為基礎,也分為5個stage,負責邊緣特征的自動提取。然而RCF的主干網絡采用的是VGG16的傳統卷積結構(convolution, conv),由多個卷積層簡單的堆疊而成。這種傳統的卷積結構只能對局部感受野中的空間維度和特征維度的信息進行處理,不能提取圖片的全局特征,表達能力會受到限制。因此,本模型引入可提取全局特征的SE結構并將主干網絡分為前后兩部分:前一部分(前兩個stage)與RCF一樣,采用傳統的卷積和下采樣組合的結構,充分提取邊緣的低級特征;后一部分(后面三個stage)則采用類似“注意力機制”的SE(Squeeze-and-Excitation)結構[18],提取更多的語義特征和全局特征。如圖3所示,每個SE結構先通過全局平均池化操作Fsq把卷積層IN的每個二維的feature map壓縮成一個實數ai,這個實數ai具有全局感受野,然后利用可學習的參數W為每一個實數ai生成權重,通過可學習的方式顯式地建模feature map間的相關性,最后用學習后的全局特征B與原始feature map進行元素相乘,使OUT中每一個feature map的特征包含全局的信息 [18]。使用這種SE結構后,本模型可以提取全局特征來衡量feature map的重要程度,通過學習的方式提升有用的特征并抑制對當前任務用處不大的特征,從而提升主干網絡的表達能力。另外,RCF主干網絡有4次下采樣,模型輸出的圖片精度只有原始圖片的1/16,導致圖片的許多細節信息丟失,使輸出的邊緣模糊不清。因此,本模型去掉主干網絡后2個下采樣,使用3×3的池化(pool)并將步長設為1。這樣,本模型只有2次下采樣,輸出圖片的精度是原始圖片的1/4,保留了更多的細節信息,使輸出的邊緣更精細。與此同時,為了解決去掉下采樣后感受野變小的問題,本模型在后兩個stage中使用擴張卷積技術(dilation, dil)[19],將擴張參數分別設為2和4,在不增加參數的情況下增大模型的感受野。

1.2.2 深監督模塊

圖2中的主干網絡在提取特征的過程中,由于自身參數過多,訓練時網絡收斂速度慢,收斂效果也不太理想。因此,為了使主干網絡能夠更高效地提取特征,改善模型訓練效果,本模型使用與RCF相同的深監督技術。如圖2中的虛線右側部分所示,將主干網絡中的每一層特征通過1×1的卷積層進行特征壓縮,并以stage為單位相加,然后再使用1×1的卷積進一步壓縮特征,最后通過利用雙線性插值技術初始化的反卷積(deconvolution, deconv)實現上采樣,使每一個stage都輸出一張邊緣圖;并且本模型對每一個stage輸出的邊緣圖都進行監督學習,實現深監督學習。

1.2.3 基于殘差結構的特征融合

圖2中的特征融合模塊負責對深監督模塊輸出的5個邊緣圖進行融合處理。每個stage生成的邊緣圖都使用了不同層次的特征,第1個stage生成的邊緣圖使用了大量的低級特征和很少的語義特征,而第5個stage生成的邊緣圖則使用了大量的語義特征和很少的細節特征。因此將每個stage輸出的邊緣圖融合起來,可以更充分地使用模型特征,使輸出的邊緣更精確。然而RCF只采用一層1×1的卷積簡單地按比例融合,對多尺度的信息處理得不充分,輸出的邊緣比較粗。另外,通過實驗發現后兩個stage輸出的邊緣圖與標簽圖(ground truth)已經很相近,這就意味著后兩個stage輸出的邊緣圖與標簽圖之間的殘差已經很小,因此,本模型的融合模塊使用一種殘差結構[20],通過對每個stage輸出的邊緣圖與標簽圖之間的殘差進行處理,使多尺度特征更高效地融合。如圖4所示,融合模塊的輸入是深監督模塊輸出的5張邊緣圖,將輸入分成兩個分支,其中一個分支通過3個卷積層對殘差進行充分處理,然后與輸入相加,實現多尺度信息的融合,再經過一個1×1的卷積進行特征壓縮后便輸出最終的邊緣圖。融合后的邊緣圖既保留大量的細節信息,在語義上也是完整的。此外,通過實驗發現,在特征融合模塊中使用非線性結構,比如ReLU(Rectified Linear Units)[21]等,會損失一些細節信息,導致輸出的邊緣圖包含噪聲,因此,該模塊沒有添加任何非線性結構。

1.3 精細邊緣檢測模型訓練

1.3.1 數據集增強

本模型使用增強版的BSDS500[22]數據集和PASCAL VOC Context[23]數據集進行訓練。傳統的邊緣檢測數據集BSDS500由訓練集、驗證集和測試集三部分組成。其中,訓練集包含200張圖片,驗證集包含100張圖片,測試集包含200張圖片。為了防止模型出現過擬合現象,對BSDS500數據集進行了增強處理。通過使用OpenCV工具包,對訓練集和驗證集的300張圖片進行旋轉、擴大、剪裁等操作,將數據集增強到28800張。另外,由于本模型對輸入圖片的大小信息不敏感,為了減少模型訓練時的內存消耗,并實現批量訓練,將所有的訓練圖片剪裁為209×273的統一大小。

1.3.2 像素級分類的損失函數

針對邊緣檢測這種像素級的分類問題,通常將圖片的每個像素點的分類看作是一個二分類問題(邊緣點與非邊緣點),因此,本模型使用交叉熵作為每個像素點分類的代價函數。另外, BSDS500數據集中的每一個標簽圖(ground truth)都是由多個標記者標注而成,由于每個標記者對于邊緣的認知不統一,因此該數據集中的邊緣含有一些噪聲。為了提高模型魯棒性,本模型使用文獻[16]中閾值法,即對標簽圖中的像素值進行歸一化處理,將標簽圖變為邊緣的概率圖,并將概率值大于閾值η的像素點作為邊緣點,將概率值為0的像素點作為非邊緣點,而其他像素點作為有爭議點,排除在外。與文獻[16]相同,本模型每個像素點的損失函數表示為:

l(Xi ;W)= α·lb(1-P(Xi;W)); yi =0

0,??????? 0 < yi≤η

β·lb(P(Xi;W),yi>η(1)

α=λ·Y+Y++Y-

β=Y-Y++Y-(2)

其中:|Y+|和|Y-|分別代表正負樣本的數量,α、 β和超參數λ用來平衡正負樣本數量差,Xi代表神經網絡的激活值,yi代表標簽圖中像素點i是邊緣點的概率值,W代表神經網絡中可學習的參數。這種損失函數可以促使模型作出最有把握的判斷,將有爭議的像素點排除在外,提高模型的魯棒性。另外,通過實驗發現:如果將超參數η設為0.5或更大的值,有些標簽圖出現邊緣不連續的現象;而將超參數η減小時,有些標簽圖的邊緣開始受到噪聲的影響。因此,超參數η大小的設定要根據該模型具體的使用場景而定。

1.3.3 多階段訓練方式

RCF使用單階段的訓練方式,將深監督模塊每個stage的損失與融合模塊的損失之和作為整個模型的損失函數。然而,這兩部分損失的重要程度是不一樣的,深監督模塊輸出邊緣圖并計算損失只是為了輔助主干網絡更好地優化,起輔助作用;而融合模塊輸出的邊緣圖為模型最終的輸出,這部分損失起決

定作用。RCF的這種簡單相加的損失函數并沒有體現出融合模塊損失的重要性,因此,本模型使用一種多階段的訓練方式,先使用RCF的訓練方式使網絡達到一個較優的狀態,然后去掉深監督模塊的損失,只使用融合模塊的損失繼續進行訓練,使模型達到最優的狀態。通過這種多階段訓練方式,顯式地提升融合模塊輸出的邊緣圖的重要性。具體過程如下:

1)先采用RCF的訓練方式,損失函數為:

L(W)=∑Ii=1(∑Kk=1l(X(k)i;W)+l(Xfusei;W))(3)

其中:X(k)i代表第k個stage輸出圖片中的第i個像素點的激勵值,而Xfusei代表融合模塊輸出的圖片中的第i個像素點的激勵值,|I|代表每張圖片像素點的總數,K代表主干網絡stage的數量,在這里K =5。利用該損失函數通過隨機梯度下降算法訓練本模型10個epoch,batch size設為16,基準學習率設為1E-6,每一層的學習率略有差異,momentum設為0.9,weight decay設為0.0002。另外,與HED和RCF網絡不同,本模型在訓練過程中沒有使用任何預訓練模型,只對參數進行Gaussian分布的初始化。

2)在第一步的基礎上,只使用融合模塊的損失繼續對模型進行優化,此時本模型的損失函數為:

L(W)=∑Ii=1l(Xfusei;W)(4)

其中:l(Xfusei;W)代表融合模塊輸出的圖片中的第i個像素點的損失函數,|I|代表每張圖片像素點的總數。用該損失函數繼續訓練模型直至收斂,顯式地提升融合模塊輸出的邊緣圖的重要性,基準學習率設為1E-7,其他的參數設置與第1)步相同。

1.4 與RCF比較

本模型與RCF的區別主要體現在3個方面:首先,RCF的主干網絡采用傳統的VGG16的全部卷積層,而本模型將主干網絡分為兩部分:前半部分采用下采樣結構充分提取邊緣特征;后半部分考慮到圖片的精度問題不進行下采樣,采用空洞卷積技術增大感受野并且采用SE結構提取圖片全局特征。然后,在特征融合部分,RCF只使用一層1×1卷積進行特征融合,而本模型使用一種多層的殘差結構,實現多尺度特征的充分融合。最后,RCF使用的是單階段的訓練方式,而本模型使用了一種多階段的訓練方式。通過上述幾點的改進,本模型性能比RCF網絡有了一定程度的提升。

2 實驗

本文中的實驗以Pytorch 0.4.0作為開發框架,系統為Linux,硬件設備包括一塊NVIDIA TITAN Xp GPU,顯卡內存為12GB和一塊Intel i7-6800k CPU,內存為64GB。

2.1 圖像金字塔技術

圖像金字塔技術是計算機視覺領域中的一種重要技術,文獻[16]和[24]均使用該技術并取得了很好的效果。在測試階段,本模型也使用圖像金字塔技術,將測試集圖片分別剪裁為0.8×、1.0×、1.2×三種規模,分別輸入到模型,然后將同一圖片三種不同規模的結果加權求平均,得出最終的邊緣圖,增強模型的魯棒性。

2.2 實驗分析

邊緣檢測模型的檢測指標主要包括:全局最佳(Optimal

Dataset Scale, ODS)和單圖最佳(Optimal Image Scale, OIS)等。其中:ODS指測試集中所有圖片使用固定同一閾值時的檢測結果;OIS指對每一幅圖像使用針對當前圖片最佳閾值時的檢測結果[25]。本文模型輸出的邊緣圖通過非最大抑制[26]處理后,用Edge Box[27]工具包進行指標測量,各項指標與其他相關算法的對比如表1所示。

通過對比可以看出,本文模型通過對RCF和HED的改進,性能比RCF和HED有了一定的提高。本文模型的ODS分別比RCF和HED提高0.6%和2.9%,而OIS分別比RCF和HED提高0.8%和3.4%。另外,本文模型輸出的邊緣圖與原始圖片的對比如圖5所示。

通過對比可知,本文模型可以精確地將圖片中物體的邊緣提取出來,并且在未使用圖像金字塔技術和未進行非最大抑制處理的情況下,本文模型生成的邊緣線條也非常清晰,達到了目前靠前的水平。

為了進一步查看本文模型各模塊的改進效果,進行了相關實驗,實驗結果如表2所示。針對主干網絡,將使用SE結構和空洞卷積的模型與RCF進行對比實驗,實驗結果表明使用SE結構和空洞卷積的模型分別使ODS和OIS指標提升了0.33%和0.42%,這也證明了本模型的主干網絡能夠提取更多的全局信息并且會保留更多的邊緣細節信息。另外,本模型主干網絡每個stage輸出的邊緣圖與HED和RCF的對比如圖6所示。從左到右,前兩列為HED與本模型各個stage輸出邊緣圖的對比,后兩列為RCF與本模型各個stage輸出邊緣圖的對比。從上到下,每一列的5張圖分別為主干網絡1~5 stage輸出的邊緣圖。通過對比可以看出,HED和RCF各個stage輸出的邊緣圖線條粗糙且模糊,對細節的處理欠佳;而本文模型生成的邊緣圖保留了更多細節信息,線條更清晰。

針對融合模塊,在使用殘差結構后,模型的ODS和OIS指標分別提升了0.21%和0.28%,這說明該融合模塊可以更充分地融合多尺度的特征。另外,當去掉殘差結構中的shortcut支路而只保留層疊結構時,發現模型收斂情況變差,邊緣圖出現很多噪聲并且變得不清晰。這也證明了殘差結構可以使網絡參數更好地優化,避免梯度消失和梯度爆炸等問題。此外,當對融合模塊增添ReLU等非線性元素時,邊緣圖會變得模糊,這說明該模塊的非線性結構會損壞很多有用的邊緣信息,造成網絡性能下降。

最后,對本模型的多階段訓練方式進行實驗,發現使用多階段的訓練方式后,深監督模塊每個stage輸出的邊緣圖會受到一定的影響,變得不清晰,但融合模塊輸出的邊緣圖卻更精確,ODS和OIS分別提升了0.09%和0.12%,這也符合預期。

3 結語

本文提出了一個新的邊緣檢測模型。該模型基于RCF和HED的思想,在主干網絡上加入SE模塊,提升主干網絡的表達能力,舍棄部分下采樣,避免圖片精度過度降低;采用空洞卷積技術提升網絡的感受野,采用一種殘差結構使多尺度特征充分融合;最后采用多階段訓練的方式使模型性能進一步提升。實驗表明,本模型可以生成高質量的邊緣圖。

參考文獻

[1]REN X F, BO L F. Discriminatively trained sparse code gradients for contour detection[C]// NIPS 2012: Proceedings of the 25th International Conference on Neural Information Processing Systems. North Miami Beach, FL, USA: Curran Associates, 2012, 1: 584-592.

[2]張廣燕, 王俊平, 邢潤森,等.PSLIP新模型及在邊緣檢測和圖像增強中的應用[J].電子學報,2015,43(2):377-382.(ZHANG G Y, WANG J P, XING R S, et al. A new PSLIP model and its application in edge detection and image enhancement[J]. Acta Electronica Sinica, 2015, 43(2): 377-382.)

[3]KOHLI P, LADICKY L, TORR P H S. Robust higher order potentials for enforcing label consistency [J]. International Journal of Computer Vision, 2009, 82(3): 302-324.

[4]石美紅,李青,趙雪青,等.一種基于保角相位的圖像邊緣檢測新方法[J].電子與信息學報,2015,37(11):2594-2600.(SHI M H, LI Q, ZHAO X Q, et al. A new approach for image edge detection based on conformal phase [J]. Journal of Electronics and Information Technology, 2015, 37(11): 2594-2600.)

[5]PANTOFARU C, SCHMID C, HERBERT M. Object recognition by integrating multiple image segmentations [C]//ECCV 2008: Proceedings of the 10th European Conference on Computer Vision, LNCS 5304. Berlin: Springer, 2008: 481-494.

[6]FELDMAN J A, FELDMAN G M, FALK G, et al. The Stanford hand-eye project [C]// IJCAI ‘69: Proceedings of the 1st International Joint Conference on Artificial Intelligence. San Francisco, CA: Morgan Kaufmann, 1969: 521-526.

[7]CANNY J. A computational approach to edge detection [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1986, 8(6): 679-698.

[8]KONISHI S, YUILLE A L, COUGHLAN J M, et al. Statistical edge detection: learning and evaluating edge cues [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2003, 25(1): 57-74.

[9]MARTIN D R, FOWLKES C C, MALIK J. Learning to detect natural image boundaries using local brightness, color, and texture cues[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2004, 26(5): 530-549.

[10]GANIN Y, LEMPITSKY V. N4-Fields: neural network nearest neighbor fields for image transforms [C]// Proceedings of the 2014 Asian Conference on Computer Vision, LNCS 9004. Berlin: Springer, 2014: 536-551.

[11]SHEN W, WANG X G, WANG Y, et al. DeepContour: a deep convolutional feature learned by positive-sharing loss for contour detection[C]// Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2015: 3982-3991.

[12]BERTASIUS G, SHI J, TORRESANI L. DeepEdge: a multi-scale bifurcated deep network for top-down contour detection [C]// Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2015: 4380-4389.

[13]XIE S, TU Z. Holistically-nested edge detection [J]. International Journal of Computer Vision, 2017, 125(1/2/3): 3-18.

[14]SHELHAMER E, LONG J, DARRELL T. Fully convolutional networks for semantic segmentation [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(4): 640-651.

[15]LEE C-Y, XIE S, GALLAGHER P, et al. Deeply-supervised nets [EB/OL]. [2019-01-02]. https://arxiv.org/pdf/1409.5185.pdf.

[16]LIU Y, CHENG M, HU X, et al. Richer convolutional features for edge detection [C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2017: 5872-5881.

[17]SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition [EB/OL]. [2018-08-12]. https://arxiv.org/pdf/1409.1556.pdf.

[18]HU J, SHEN L, ALBANIE S, et al. Squeeze-and-excitation networks [EB/OL]. [2018-08-12]. https://arxiv.org/pdf/1709.01507.pdf.

[19]YU F, KOLTUN V. Multi-scale context aggregation by dilated convolutions [EB/OL]. [2018-08-12]. https://arxiv.org/pdf/1511.07122.pdf.

[20]HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition [C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ:IEEE, 2016: 770-778.

[21]NAIR V, HINTON G E. Rectified linear units improve restricted Boltzmann machines [C]// ICML ‘10: Proceedings of the 27th International Conference on Machine Learning. Madison, WI: Omnipress, 2010: 807-814.

[22]MARTIN D R, FOWLKES C C, TAL D, et al. A database of human segmented natural images and its application to evaluating segmentation algorithms and measuring ecological statistics [C]// ICCV 2001: Proceedings of the 8th IEEE International Conference on Computer Vision. Washington DC: IEEE Computer Society, 2001, 2: 416-423.

[23]MOTTAGHI R, CHEN X, LIU X, et al. The role of context for object detection and semantic segmentation in the wild [C]// Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Washington DC: IEEE Computer Society, 2014: 891-898.

[24]FARABET C, COUPRIE C, NAJMAN L, et al. Learning hierarchical features for scene labeling [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(8): 1915-1929.

[25]劉勝男,寧紀鋒. 基于超像素的點互信息邊界檢測算法[J]. 計算機應用, 2016, 36(8): 2296-2300. (LIU S N, NING J F. Super-pixel based pointwise mutual information boundary detection algorithm[J]. Journal of Computer Applications, 2016, 36(8): 2296-2300.)

[26]DOLLR P, ZITNICK C L. Fast edge detection using structured forests [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(8): 1558-1570.

[27]ZITNICK C L, DOLLR P. Edge boxes: locating object proposals from edges [C]// Proceedings of the 2014 European Conference on Computer Vision, LNCS 8693. Berlin:Springer, 2014:391-405.

This work is partially supported by the National Key Research and Development Program of China (2016YFC0801800).

JING Nianzhao, born in 1994, M.S. candidate. His research interests include computer vision, information processing.

YANG Wei, born in 1964, Ph.D., professor. His research interests include wireless communication, information processing.

福建36选7走势图幸
股票行情实时查询000610 河南四方麻将下载 云南快乐十分开奖号 新疆队cba赛程 星悦内蒙麻将新版 长春麻将微乐下载新版 河北十一选五*结果 模拟炒股心得 长沙麻将二五八 股票分析师 老师 四川快乐12前三走 同花顺炒股软件使用教程 温州麻将规则 贵州茅台股票行情走势预测 哈尔滨麻将机一条街 欧冠积分榜