什麼是語意分割?應用場景與原理解析

04/02/2025

語意分割是電腦視覺領域中的核心任務之一,也是實現完整場景理解的關鍵技術。若要讓機器具備類似人眼的視覺能力,必須經歷影像分類、物件偵測,再到影像分割等多個階段。其中,影像分割的技術門檻最高、挑戰也最大。

隨著技術演進,越來越多的應用仰賴影像分類與分割技術,全場景理解在電腦視覺中的重要性也日益提升。語意分割已被廣泛應用於自動駕駛、人機互動、擴增實境(AR)、虛擬實境(VR)等多種場景。

近年來,深度學習快速發展,許多語意分割任務皆透過深度網路架構來實現。其中最常見的模型為 CNN(卷積神經網路),不僅大幅提升了預測準確率,也大大改善了處理效率,成為目前語意分割的主流解法。

語意分割是從粗略分類到精細理解圖像的一個自然演進步驟。它的起點可以視為圖像分類,也就是對整張圖像預測其所屬的類別;接著是物體定位與偵測,不僅判斷圖像中有哪些類別,還標示出這些類別在圖像中的位置;而語意分割則更進一步,透過對圖像中每個像素進行預測,為其分配對應的類別標籤,實現細緻的語意理解。

更具體來說,語意圖像分割的目標是為圖像中的每個像素貼上代表其所屬內容的類別標籤。由於這項任務需要對每個像素進行分類,因此也被稱為「密集預測」。值得注意的是,語意分割不同於圖像分類,它不是為整張圖像分配單一標籤,而是將圖像中的每一個像素精確歸類至對應的物件或區域所屬的類別中。

語意分割的應用

語意分割技術目前已廣泛應用於多個產業場景中,為各行各業帶來極大便利。

自動駕駛:語意分割為車輛提供關鍵的環境感知能力,讓自駕系統能夠「看懂」道路情況與周遭環境,提升行駛安全性。此技術可用於辨識行人、交通標誌、其他車輛、可通行區域、停車區域等元素,並可應用於 2D 圖像、影片與 3D 點雲數據中。例如,Appen 的 3D 點雲車道線自動標註技術,可快速有效地在 3D 點雲數據中辨識車道線,為大規模數據標註與模型訓練提供更多可能性。

醫學影像診斷:配備 AI 程式進行病灶辨識的醫療裝置能強化放射科醫師的分析效率,顯著縮短診斷時間。語意分割技術在 X 光、內視鏡等醫學影像中被廣泛應用,協助醫師更快速且準確地進行診斷。

語意分割任務建構步驟

一、代表任務說明

語意分割的核心任務是:

將一張 RGB 彩色影像(高 × 寬 × 3)或 灰階影像(高 × 寬 × 1)作為輸入,並輸出一張 分割圖,其中每個像素都被賦予一個代表類別的整數標籤(高 × 寬 × 1)。

也就是說,輸入影像中的每一個像素點,最終都會被模型分類為特定的一類,例如:天空、道路、人、車等。這是語意分割中「密集標註」的概念核心。

二、建立神經網路架構

在建立語意分割任務的神經網路時,一個最簡單的方式是直接堆疊多層卷積層(使用相同的 padding 以保留影像尺寸),並輸出一張分割圖。

這種方法透過多層特徵圖的轉換,試圖學習輸入圖像到對應分割圖之間的對應關係。

但問題在於,若要保留影像的完整解析度,整個網路的運算成本會非常高。

三、增加取樣的方法

為了提升模型對空間細節的掌握,語意分割任務中會採用多種取樣方法來調整特徵圖的解析度。這些方法包括:

  • 池化(Pooling):例如最大池化或平均池化,將影像特徵區域內的資訊摘要為單一值。
  • 下採樣(Downsampling):常透過池化(Pooling)操作,如最大池化或平均池化,將區域特徵進行壓縮,提取關鍵資訊。
  • 上採樣(Upsampling):為了恢復空間解析度,常用方法有反池化(Unpooling)、雙線性插值、最近鄰插值、反卷積(Transpose Convolution)等。

這些取樣方式的設計,有助於模型在分割任務中兼顧準確性與解析度,使每個像素的分類更加精準。

四、全卷積網路(FCN)

2014 年底,Long 等人提出了「全卷積網路(Fully Convolutional Network, FCN)」,實現了端對端、像素級別的圖像分割訓練架構。

這種方法取消了全連接層,整個網路只包含卷積層與反卷積層(deconvolution),可輸出與輸入相同解析度的像素標籤圖。

五、加入跳接連結(Skip Connections)

透過階段性地對編碼後的特徵圖進行上採樣,並從淺層網路加入跳接連結,將早期層的特徵圖與上採樣結果相加,有助於補足細節資訊,改善分割結果的精準度。

六、高階 U-Net 變體

標準的 U-Net 模型由架構中每個「區塊」所組成的多層卷積操作構成。進一步的變體則可能引入擴張卷積(Dilated Convolution)等技術,以擴大感受野、提升特徵提取能力,同時保留解析度。

七、定義損失函數

Appen 語意分割工具:高效語意標註服務

Appen 擁有超過 25 年的數據標註經驗,結合 AI 輔助智慧標註平台,為客戶量身打造專屬標註團隊,並配備專業人工智慧專家,以「人機協作」方式,提供部署 AI 模型所需的高品質訓練數據。

我們的數據標註平台支援多元工具與流程,涵蓋各式應用情境。語意分割工具具備圈選、塗選、點選、自訂屬性表單、單人操作模式(Solo Mode),並整合質檢與交付流程,實現高效率與一致性的標註體驗。

若您有智慧標註工具需求,歡迎隨時聯繫我們的專家團隊

Appen 提供支援電腦視覺 AI 全生命週期的數據服務,涵蓋數據收集、數據標註、數據集建置與模型測試,為您部署更優質的電腦視覺 AI 提供完整數據支援。