기본 콘텐츠로 건너뛰기

[Machine Learning] 데이터 증강 (Data Augmentation) 이란?

데이터 증강 (Data Augmentation)이란? 본격적으로 들어가기전 내용을 간략하게 요약하자면 다음과 같다. 요약을 바탕으로 본문에서는 좀더 깊이있게 설명하도록 하겠다. 이미지 데이터의 증강은 회전, 크기 조절, 색생 변화 등 다양한 변환을 통해 학습데이터의 다양성을 인위적으로 늘려 모델의 성능을 형상 시키는 방법 시계열 데이터의 증강은 시간 축 변환, 크기 조절, 시간 이동 등 다양한 기법을 통해 원본 데이터를 변형하여 학습 데이터의 다양성을 높이고 모델의 일반화를 향상 시키는 기법 CNN, R-CNN, YOLO 등 모델의 성능을 높이고 오버피팅을 극복할 수 있는 가장 좋은 방법은 다양한 유형의 학습 이미지 불균형 극복을 위한 데이터 양을 늘리는 것입니다. 하지만 사진, 동영상과 같은 이미지 데이터의 경우 학습 데이터 량을 늘리는 것은 쉽지가 않다. 이미지 데이터의 양을 늘리긴 위해서는 결국 클라스(라벨링)의 수도 증가하며, 이는 곧 엄청난 노가다가 필요하기 때문이다. 데이터 증강은 학습 이미지의 개수를 늘리는 것이 아니고 학습 시(epoch) 마다 개별 원본 이미지를 변형해서 학습하는 것 이다. 아래 첨부의 그림과 같이 학습 이미지를 변형할 수 있다. (출처:  https://blog.insightdatascience.com/automl-for-data-augmentation-e87cf692c366) 데이터 증강을 우리 일상생활로 쉽게 설면하자면 우리가 핸드폰 카메라를 통해 사진을 촬영하고 사진의 밝기, 크기, 좌우반전 등을 행하는 것을 이미지 데이터의 증강으로 이해하면 쉽다. tensorflow 에서 간단한 예제를 활용하여 이미지 데이터의 증강을 설명하고 있다. 본 블로그에서는 몇 가지 대표적인 데이터 증강 종류를 간단히 설명하고 마무리 하겠다. 기회가 된다면 텍스트 및 시계열 데이터의 증강 방법도 간략히 소개 후 마무리 하겠다. 이미지 데이터의 증강 (출처:  https://www.invivoo.com/ ) 이미지에 아래와 같이...

[CUDA] 딥러닝의 필수 GPU와 CUDA

들어가기전 본문을 요약하면 아래와 같습니다. 요약을 숙지하고 본문의 내용을 관심있게 봐주시길 부탁드립니다. CUDA는 GPU를 사용한 병렬 컴퓨팅 을 위해 제공되는 S/W  플랫폼이자 API 이다. 또 Nvidia에서 생산한 GPU를 잘 돌리기위한 H/W 아키텍처이다. Tensor Core는 AI/Deep Learning 작업을 가속화 하기 위해 행렬 연산에 최적화된 GPU내의 특수한 연산 유닛 이다. RT Core는 실시간 레이트레이싱 을 가속화하기 위해 광선 추적 계산을 전용 으로 처리하는 GPU 내의 하드웨어 유닛 이다. 본 블로그에서 소개한 오차역전파 를 각 노드 별로 많은 단순 연산을 필요로 한다. 이때 흔히 직렬 연산에 강점을 둔 중앙 처리 장치 (CPU, Central Processing Unit)를 활용하면 굉장히 비효율 적이다. 대신 그래픽 처리 장치 (GPU, Graphics Processing Unit)를 사용하면 병렬 계산이 가능합니다. GP GPU 본격적인 AI시대 이전 GPU를 이용한 범용 계산(매트릭스, 벡터 연산 등)외 다른 부분은 기술적으로 많은 부분이 제한적이였다. 하지만 이제 OpenGL, DirectXL과 같은 그래픽 가속 API가 나오면서 NVIDIA, ARM등 GPU를 잘 제어할 수 있게 됬다. 단순한 연산 작업이 아니라 범용 목적의 병렬 계산 프로세서를 활용 하게 되었고 이것을 범용 목적 그래픽 처리 장치 (GP GPU, General Purpose computing on Graphics Processing Units)라고 말한다. 이런 범용 목적의 병렬 계산 프로세스를 무료로 사용할 수 있는 기술이 NVIDIA사의 쿠다(CUDA)라는 것이다. 여기서 ALU는 덧샘, 뺄샘 같은 두 숫자의 산술 연산과 배타적 논리합, 논리곱, 논리합 같은 논리연산을 계산하는 디지털 회로이며, 흔히 산술 논리 장치를 말합니다. CUDA 2006년 NVIDIA는 Fermi Architecture를 발표하며 CUDA(Computed U...

[Machine Learning] 오차역전파 (Back propagation)

오차역전파 (Back propagation)란? 컴퓨터는 주어진 입력 값을 신경망을 거쳐 출력 값으로 반환합니다. 신경망은 [입력층 <> 은닉층 <> 출력층]과 같이 좌측에서 우측으로의 진행 방향을 가지며 순전파(Forward propagation)라고 합니다. 이와 반대로 진행 방향을 가지는 것을 역전파(Back propagation)라고 합니다. 오차 역전파 과정은 컴퓨터가 예측 값의 정확도를 높이기 위해 출력 값과 실제 값을 비교하여 가중치를 변경하는 작업 을 말합니다. 여기서 오차란 모델의 예측 값과 실제 값의 차이 를 말하고, 구체적인 오차의 값은 loss function을 통해 계산합니다. 오차는 왜 계산할까? 오차는 우리가 예측하고자 하는 실제 함수를 모르기 때문에 발생합니다.  이해를 돕기 위해 일상 생활에서 경험할 수 있는 날씨를 예로 들어봅시다. 만약 오늘 습도가 67%일 때 내일 비가 올 확률을 100% 정확하게 알 수 있다면 굳이 머신러닝이 필요하지 않습니다. 하지만 우리는 오늘의 습도와 내일의 강수 확률의 상관관계를 알 수 없습니다. (물론 통계기반으로 데이터가 많이 있어서 어느정도 규명은 가능하지만, 이해를 돕기위해 알 수 없다고 합시다.) 그래서 이들의 관계를 근사하는 함수(선,면 등 따위)를 만들고, 이를 우리는 모델이라고 합니다. 그런데 과연 강수 확률이 습도에만 영향을 받을까요? 당연히 그렇지 않습니다. 강수 확률에 영향을 미치는 다양한 기상 변수가 존재합니다. 그래서 우리가 만든 모델은 필연적으로 여러 변수가 존재하는 다변수 함수의 형태를 갖게 됩니다. 만약 각 변수가 결과에 미치는 영향력을 알 수 있다면 함수를 더 정확하게 근사할 수 있습니다. 경사하강법과 오차역전파 다변수 함수의 계수를 구하기 위해 사용하는 방법이 바로 경사하강 법입니다. 어떤 변수의 계수(가중치)를 바꿨는데 오차가 줄어든다면 이는 이전보다 더 정확한 함수를 찾은 것과 같습니다. 이러한 과정을 통해 가중치를 계속...

[Git] LFS로 대용량 파일 업로드 하기

객체 탐지 AI를 학습하면서 고해상도의 용량이 큰 사진 파일을 깃허브에 업로드( push )하는 과정에서 아래와 같은 오류가 발생했다. error: GH001: Large files detected. You may want to try Git Large File Storage - https://git-lfs.github.com About large files on GitHub 에서 말하는 바와 같이 100Mb 이상의 파일은 올릴 수 없기 때문에 위와 같은 오류 문가가 발생한 것이다. 따라서 GitHub의 Large File Storage(LFS) 를 사용해서 업로드를 진행해야 한다. 사용 방법은 무척이나 쉽다. 아래 그림은 이해를 쉽게 돕기 위해  Large File Storage(LFS) 의 절차를 그림으로 표현한 것이다. 대용량 파일 업로드 방법 Git 공식 사이트 에서 Git 클라이언트 설치 파일을 다운로드하여 개인 PC에 설치하기. Git LFS 공식 사이트 에서 Git LFS 클라이언트 설치 파일을 다운로드하여 개인 PC에 설치하기. 작업 중인 리포지토리 경로 에서 Git LFS를 초기화하기. 본인은 Jupyter Notebook의 Terminal에서 다음 명령어를 실행했다. 1 2 3 git lfs install   > >  Git LFS initialized. cs 업로드할 대용량 파일에 Tracking을 설정한 후 " .gitattributes " 파일을 커밋 목록에 추가하기. 1 2 3 4 git lfs track  "*.png" > >  Tracking  "*.png"   git add .gitattributes cs 와일드카드(*)를 지정해 복수의 파일을 지정할 수 있으며, " .gitattributes " 파일에는 대용량 파일에 대한 트래킹 내역이 기록되어 있음. 업로드할 대용량 파일을 ...

[Python] 파이썬 무적 스케줄러 소개 - APScheduler

APScheduler란? APScheduler는 Advanced Python Scheduler의 줄임말로 스케줄을 예약하여 실행할 수 있도록 돕는 파이썬 라이브러리이다. 특정 작업에 주기성을 스케쥴링하는 Airflow등이 있지만, 직관적이며 기존 어플리케이션에서 사용 가능한 큰 장점이있다. 기존 스케줄러 라이브러리와 가장 큰 차이점이자 장점은 while문과 같은 무한루프를 돌리지 않아도 코드를 비동기적으로 실행시킬 수 있다. 여기서 비 동기적이란 코드의 실행 순서에 맞춰 진행하는 것이 아닌 동시 다발적으로 실행하는 것을 말한다. 예를 들면, p2p 사이트에서 다운 받을때 하나씩 받는 것을 동기적, 다수를 한번에 받는것을 비동기적이라 할 수 있다. 본 포스트에서는 본인의 경험을 바탕으로 주요 내용만을 이야기하겠다. 자세한 내용은  apscheduler  공식 user guide에서 확인 가능하다. ✔ 스케줄러 종류 BlockingScheduler : 하나의 프로세스에서만 동작하며 스케쥴링 된 작업이 실행될때 다른 작업은 일시중단된다. BackgroundScheduler : 백그라운드에서 동작하며 스케쥴링 된 작업이 실행될때 다른 작업도 할 수 있다. ✔ 실행방식 Cron : 주기의 시간(time)에 실행. Date 및 Time 지정이 가능하다 Interval : 일정 주기로 실행 Date : 특정 날짜로 실행(사실상 Cron과 동일 함) APScheduler 라이브러리 설치는 아래와 같이 1번줄 명령어로 수행하며, 설치 실패 시 2번줄과 같이 강제로 설치 가능하다. 1 2 pip install APScheduler pip install  - - user APScheduler Blocking Scheduler Blocking Scheduler의 사용 방법은 다음과 같다. 주의할 점은 sched.start()다음은 실행되지 않는다. Scheduler.job 함수의 자세한 내용은 ...