[Machine Learning] 데이터 증강 (Data Augmentation) 이란?

데이터 증강 (Data Augmentation)이란?
본격적으로 들어가기전 내용을 간략하게 요약하자면 다음과 같다. 요약을 바탕으로 본문에서는 좀더 깊이있게 설명하도록 하겠다.

이미지 데이터의 증강은 회전, 크기 조절, 색생 변화 등 다양한 변환을 통해 학습데이터의 다양성을 인위적으로 늘려 모델의 성능을 형상시키는 방법
시계열 데이터의 증강은 시간 축 변환, 크기 조절, 시간 이동 등 다양한 기법을 통해 원본 데이터를 변형하여 학습 데이터의 다양성을 높이고 모델의 일반화를 향상시키는 기법

CNN, R-CNN, YOLO 등 모델의 성능을 높이고 오버피팅을 극복할 수 있는 가장 좋은 방법은 다양한 유형의 학습 이미지 불균형 극복을 위한 데이터 양을 늘리는 것입니다. 하지만 사진, 동영상과 같은 이미지 데이터의 경우 학습 데이터 량을 늘리는 것은 쉽지가 않다. 이미지 데이터의 양을 늘리긴 위해서는 결국 클라스(라벨링)의 수도 증가하며, 이는 곧 엄청난 노가다가 필요하기 때문이다. 데이터 증강은 학습 이미지의 개수를 늘리는 것이 아니고 학습 시(epoch) 마다 개별 원본 이미지를 변형해서 학습하는 것이다. 아래 첨부의 그림과 같이 학습 이미지를 변형할 수 있다.

(출처: https://blog.insightdatascience.com/automl-for-data-augmentation-e87cf692c366)

데이터 증강을 우리 일상생활로 쉽게 설면하자면 우리가 핸드폰 카메라를 통해 사진을 촬영하고 사진의 밝기, 크기, 좌우반전 등을 행하는 것을 이미지 데이터의 증강으로 이해하면 쉽다.

tensorflow에서 간단한 예제를 활용하여 이미지 데이터의 증강을 설명하고 있다. 본 블로그에서는 몇 가지 대표적인 데이터 증강 종류를 간단히 설명하고 마무리 하겠다. 기회가 된다면 텍스트 및 시계열 데이터의 증강 방법도 간략히 소개 후 마무리 하겠다.

이미지 데이터의 증강

(출처: https://www.invivoo.com/)

이미지에 아래와 같이 약간의 변형을 주는 방법으로 데이터를 증강시킬 수 있다.

- 랜덤하게 이미지를 자르기

- 병진 이동(translation)

- 회전 (rotation)

- 각도 (degree)

- 전단 이동(shear)

- 밝기 조절

- 블러 처리

- 노이즈 삽입

- RGB 조절

YOLO 모델에서는 첨부와 같은 데이터 증강법이 있으며 model.train()시 하이퍼 파라미터 값으로 컨트롤 할 수 있다. YOLO에서 사용하는 데이터 증강(Augmentation Settings and Hyperparameters) 기법이 모든 이미지 모델에서 사용 가능한 것은 아니므로, 모델 별로 제공하는 증강 기법을 잘 활용해보자. 본인의 경우 아래 표와 같이 YOLOv8 모델에서 회전, 전단 및 믹스 업(mixup) 등을 사용한 경우 그렇지 않은 경우 보다 Recall 과 Precision 값이 일반적으로 더 좋게 나왔었다. 객체 감지 속도 측면에서도 데이터 증강 기법을 활용할 경우 더 좋은 성능을 가졌었다. 이래 표는 YOLOv8 coco 모델에서 데이터 증강을 통한 성능 변화를 보여주고 있다. Angle을 사용할 경우 precision 성능은 내려가지만 recall 성능은 올라가는 것을 확인 할 수 있었다. 이러한 결과로 미루어볼때 머신러닝 개발자가 어떤 성능 지표를 중요시하는지에 따라 다양한 데이터 증강 기법을 활용해 모델을 tuning 할 수 있을 것으로 생각한다.

Epoch	300	300
Batch	32	32
Degrees	0	90
Precision	0.982	0.929
Recall	0.898	0.908
mAP50	0.942	0.943
mAP95	0.794	0.776

시계열 데이터 증강

여기서 시계열 데이터란, 일정 시간 간격으로 배치된 데이터들을 말하며, 대표적인 예로 우리가 아는 코스피 지수 등이 대표적인 시계열 데이터이다. 해당 데이터를 통해 ‘시계열 분류(5분, 10분, 일, 주 등)’와 ‘이상치 탐지(캔들상자, 상한가, 하한가 등)’라는 작업를 수행할 수 있다. 시계열 데이터는 시간 영역과 주파수 영역으로 나누어 분석할 수 있다.

. 시간 영역 (time domain)

일정 기간 동안의 데이터를 분석하는 것이다. 예를 들면, 시간에 따른 해영 파고의 높이, 시간에 따른 인구 변화 등 이다.

. 주파수 영역 (frequency domain)

주파수에 대한 수학적 함수 또는 신호를 주파수와 관련하여 분석하는 것이다. 즉 빈도와 주기로 정리 할 수 있다.

. 푸리에 변환

푸리에 변환이란 시간 영역을 주파수 영역으로의 변환이다. 변환 방법은 시간 도메인에서의 연속적 신호를 여러 sin 곡선들의 합으로 나타내어 주파수 도메인으로 변환할 수 있다. 역 푸리에 변환은 말 그대로 주파수 영역을 시간 영역으로의 역변환이다.

(출처: 데이터 사이언스를 위한 푸리에 변환
https://medium.com/crocusenergy/%EB%8D%B0%EC%9D%B4%ED%84%B0-%EC%82%AC%EC%9D%B4%EC%96%B8%EC%8A%A4%EB%A5%BC-%EC%9C%84%ED%95%9C-%ED%91%B8%EB%A6%AC%EC%97%90-%EB%B3%80%ED%99%98-d7800805f80b)

하지만, 이미지 데이터와 다르게 시계열 데이터 증강의 어려움이 있다. 어려운 이유는 현재의 시계열 데이터 증강 기법은 시간에 종속적이라는 시계열의 본질적인 특성을 활용하지 못해 자칫 데이터의 왜곡이 일어날 수 있다.

시계열 데이터 증강 기법은 일(task)에 의존적이기 때문에 ‘시계열 분류’에 적용 가능한 증강 기법이 ‘이상치 탐지’에는 적용되기 힘들 수 있다. 여기서 시계열 분류로는 시간에 따른 분류(classification)으로 생각할 수 있고 이상치 탐지는 시계열 데이터의 변곡점으로 생각할 수 있다. 따라서 이러한 이유로 단순히 기존의 데이터 증강을 적용하는 것은 효과적이지 않으므로 시계열 데이터를 위한 증강 방법을 고안할 필요가 있다.

. 시계열 데이터 증강의 분류

Time Series Data Augmentation For Deep Learning : A Survey [3]에서는 시계열 데이터 증강 기법을 아래 그림과 같이 분류하고 있다.

관련하여 향후 내용 추가하도록 하겠다.

참고문헌

[1] Tensorflow 데이터증강

[2] Time Series Data Augmentation for Deep Learning: A Survey

[3] Model Training with Ultralytics YOLO

LEO & CHLOE Patio

이 블로그 검색