연령별 성별 추정
본 논문은 공간 주파수 영역 비평가 네트워크와 나이·성별 교차 학습 전략을 통해 기존 방법 대비 우수한 분류 성능을 달성하였으며, 주파수 필터링으로 생성 이미지 내 나이·성별 정보를 효과적으로 보존했다는 점에서 주목할 만하다.
작성자
AI Research Team | 김세훈
원문 논문
Adversarial Spatial Frequency Domain Critic Learning for Age and Gender Classification
제안된 방법
본 논문에서 주요한 아이디어는 공간 주파수 영역에 우세하게 드러나는 나이, 성별 정보를 생성 이미지에 조합하는 것입니다. 한가지 더 시도된 테크닉은 학습시 나이와 성별을 번갈아가며 손실(loss)을 계산하는 방식으로 학습을 시켰습니다. 자세한 내용은 다음과 같습니다.

1. 인코더-제네레이터
인코더-제네레이터는 DCGAN과 유사합니다. 인코더는 CNN 네트워크로서 입력되는 실제 이미지로 부터 특성을 추출하고, 제네레이터는 입력값을 이용하여 가짜 이미지를 생성합니다. 여기서 DCGAN과 다른 점은 인코더의 출력값과 나이 및 성별의 라벨을 조합하여 제네레이터의 입력값으로 사용한다는 점입니다. 나이와 성별 정보를 입력받은 제네레이터는 이를 이용하여 나이와 성별 속성이 추가된 얼굴 이미지를 생성하려고 노력합니다.
2. 적대적 공간 주파수 영역 비평가
적대적 공간 주파수 영역 비평가(Adversarial spatial frequency domain critic)는 생성된 이미지의 외모적인 식별성과 노이즈는 줄이는 반면에 나이와 성별의 특성치는 유지시키는 역할을 합니다.
Fig. 2. (a), (b)와 같이 공개된 이미지 데이터셋을 나이와 성별의 클래스별로 구분하여 평균치를 계산하고, 이에 대해 CNN 출력 레이어 activation의 경사도를 조사해보니 각각 다른 영역이 활성화되었습니다. Fig. 2 (c), (d)에서 보여지는 것처럼 나이로 분류한 activation에서는 주름과 같은 질감이 두드러지게 드러나고, 성별로 구분한 activation에서는 눈, 코, 입등의 얼굴의 랜드마크들이 두드러지게 드러났습니다.

나이와 성별의 특성치는 각 클래스별 activation과 퓨리에 변환된 이미지를 곱한 Fig. 3 (a), (b) 이미지에 보이는 것처럼 각각 다른 공간 주파수 영역에서 우세하게 드러났습니다.

이러한 공간 주파수의 특성을 이용하여 나이와 성별의 특성치를 보존하고, 그 외의 특성치는 줄이는 마스크를 생성합니다. 마스크는 나이와 성별 각각 다르게 생성하고, 나이와 성별의 특성치가 우세한 공간 주파수 영역에는 1을 곱하는 반면 그 이외의 공간 주파수 영역에는 1과 0사이의 상수를 곱하여 특성치를 줄여주는 역할을 합니다.


3. 멀티 태스크 판별자
본 논문에 제안된 판별자(discriminator)는 크게 두가지의 역할을 합니다. GAN과 마찬가지로 판별하는 이미지의 진위 여부를 가리는 것과 나이, 성별 분류하는 것입니다. 손실함수도 역할 별로 계산하며 나이와 성별도 별도로 계산합니다. 나이는 크로스 엔트로피(cross entropy) 손실함수를 이용하여 8개의 클래스로 분류하도록 학습니다.
4. Alternating learning
나이와 성별을 분류하는 학습은 동일한 네트워크에서 진행되지만 학습은 번갈아가면서 진행하는 전략입니다. Algorithm 1과 같이 인코더-제네레이터 손실과 성별 비평가 손실(critic loss for gender)을 줄이는 인코더-제네레이터 학습, 그리고 성별 분류에 대한 판별자의 손실을 줄이는 학습이 끝나면 인코더-제네레이터 손실과 나이 비평가 손실(critic loss for age)을 줄이는 인코더-제네레이터 학습, 그리고 나이에 대한 판별자의 손실을 줄이는 학습을 합니다. 매 에포크마다 이렇게 번갈아가며 학습합니다.

실험결과
Adience banchamark 데이터셋과 LFW 데이터셋을 이용하여 실험을 진행했습니다. 각각의 데이터를 수작업 기반의 방법들과 CNN 기반의 방법들을 대상으로 비교한 결과 본 논문에 소개된 마스크를 사용한 방법이 다른 방법보다 더 높은 정확도를 보여줬습니다. 심지어 나이를 분류하는 정확도는 본 논문에 소개된 마스크를 사용하지 않더라도 다른 방법에 비해 우수한 성능을 보여줬습니다.

결론
본 논문에서 제안한 공간 주파수 영역 비평가 네트워크와 나이, 성별을 번갈아 가며 훈련하는 전략으로 비교했던 다른 방법들보다 나이, 성별을 분류하는 태스크에 우수한 성능을 내는 것으로 확인했습니다. 공간 주파수 영역의 특정 영역을 필터링 함으로써 생성된 이미지에 나이와 성별 정보가 더욱 보존되었고, 번갈아 가며 학습하는 전략으로 나이와 성별이 분류하는 능력을 더욱 높일 수 있었습니다.
참고문헌
[5] Eidinger et al., "Age and Gender Estimation of Unfiltered Faces," IEEE TIFS 2014.
[11] Levi et al., "Age and Gender Classification Using Convolutional Neural Networks," CVPRW 2015.
[12] Hsieh et al., "Multi-Task Learning for Face Identification and Attribute Estimation," ICASSP 2017.
[20] Hassner et al., "Effective Face Frontalization in Unconstrained Images," CVPR 2015.