Deep Learning

CBAM: Convolutional Block Attention Module

Jongmin Lim 2025. 2. 10. 20:09

Abstract

  • Feed-forward convolutional neural networks를 위한 Attention Module을 제안
  • intermediate feature map이 주어졌을 때, Attention module은 channel과 spatial 차원에서 attention map을 계산
  • attention map이 계산되면, Attention map이 input feature map에 곱해져서 adaptive하게 feature를 refinement한다

1 Introduction

  • 본 논문의 목표는 attention mechanism을 사용해서 representation power를 증가시키는 것이다.
    • important feature에 집중하고 unnecessary feature를 억누른다.

3 Convolutional Block Attention Module

  • intermediate feature map $\mathbf{F} \in \mathbb{R}^{C\times H \times W}$이 주어졌을 때
  • CBAM은 1D channel attention map $\mathbf{M}_c \in \mathbb{R}^{C \times 1 \times 1}$과
  • 2D Spatial attention map $\mathbf{M}_s \in \mathbb{R}^{1 \times H \times W}$을 sequentially하게 추론

Channel attention module.

  • Channel attention에서는 input feature map의 spatial dimenstion을 MaxPool과 AvgPool을 이용해서 squeeze한다
  • 그리고 shared neural network를 이용해서 spatial information을 aggregate한다

Spatial attention module.

4 Experiments

4.1 Ablation studies

Channel attention.

  • spatial dimension을 squeeze할 때, AvgPool & MaxPool을 모두 사용하는게 좋다

Spatial attention.

  • Channel dimmension을 Squeeze할 때, standard 1x1 conv보다 channel pooling인 avg&max가 더 좋다
    • 즉 modeled pooling이 learnable weighted channel pooling보다 좋다
  • kernel size는 3보다 7이 좋다
    • 즉, kernel size가 클수록 좋다는 것인데,
    • 이는 중요한 지역을 결정하기 위해 폭넓은 관점(즉, large receptive field)이 필요하다는 것을 의미

Arrangement of the channel and spatial attention.

  • channedl and sparital attention의 순서를 다양한 방식으로 비교

4.3 Network Visualization with Grad-CAM

  • $P$는 각 network의 ground-truth class에 대한 softmax score

 

 


Reference

https://arxiv.org/abs/1807.06521

 

CBAM: Convolutional Block Attention Module

We propose Convolutional Block Attention Module (CBAM), a simple yet effective attention module for feed-forward convolutional neural networks. Given an intermediate feature map, our module sequentially infers attention maps along two separate dimensions,

arxiv.org