데이터 증강 (Data Augmentation)이란? 본격적으로 들어가기전 내용을 간략하게 요약하자면 다음과 같다. 요약을 바탕으로 본문에서는 좀더 깊이있게 설명하도록 하겠다. 이미지 데이터의 증강은 회전, 크기 조절, 색생 변화 등 다양한 변환을 통해 학습데이터의 다양성을 인위적으로 늘려 모델의 성능을 형상 시키는 방법 시계열 데이터의 증강은 시간 축 변환, 크기 조절, 시간 이동 등 다양한 기법을 통해 원본 데이터를 변형하여 학습 데이터의 다양성을 높이고 모델의 일반화를 향상 시키는 기법 CNN, R-CNN, YOLO 등 모델의 성능을 높이고 오버피팅을 극복할 수 있는 가장 좋은 방법은 다양한 유형의 학습 이미지 불균형 극복을 위한 데이터 양을 늘리는 것입니다. 하지만 사진, 동영상과 같은 이미지 데이터의 경우 학습 데이터 량을 늘리는 것은 쉽지가 않다. 이미지 데이터의 양을 늘리긴 위해서는 결국 클라스(라벨링)의 수도 증가하며, 이는 곧 엄청난 노가다가 필요하기 때문이다. 데이터 증강은 학습 이미지의 개수를 늘리는 것이 아니고 학습 시(epoch) 마다 개별 원본 이미지를 변형해서 학습하는 것 이다. 아래 첨부의 그림과 같이 학습 이미지를 변형할 수 있다. (출처: https://blog.insightdatascience.com/automl-for-data-augmentation-e87cf692c366) 데이터 증강을 우리 일상생활로 쉽게 설면하자면 우리가 핸드폰 카메라를 통해 사진을 촬영하고 사진의 밝기, 크기, 좌우반전 등을 행하는 것을 이미지 데이터의 증강으로 이해하면 쉽다. tensorflow 에서 간단한 예제를 활용하여 이미지 데이터의 증강을 설명하고 있다. 본 블로그에서는 몇 가지 대표적인 데이터 증강 종류를 간단히 설명하고 마무리 하겠다. 기회가 된다면 텍스트 및 시계열 데이터의 증강 방법도 간략히 소개 후 마무리 하겠다. 이미지 데이터의 증강 (출처: https://www.invivoo.com/ ) 이미지에 아래와 같이...