기본 콘텐츠로 건너뛰기

[CUDA] 딥러닝의 필수 GPU와 CUDA


들어가기전 본문을 요약하면 아래와 같습니다. 요약을 숙지하고 본문의 내용을 관심있게 봐주시길 부탁드립니다.
  • CUDA는 GPU를 사용한 병렬 컴퓨팅을 위해 제공되는 S/W 플랫폼이자 API이다.
  • 또 Nvidia에서 생산한 GPU를 잘 돌리기위한 H/W 아키텍처이다.
  • Tensor Core는 AI/Deep Learning 작업을 가속화 하기 위해 행렬 연산에 최적화된 GPU내의 특수한 연산 유닛이다.
  • RT Core는 실시간 레이트레이싱을 가속화하기 위해 광선 추적 계산을 전용으로 처리하는 GPU 내의 하드웨어 유닛이다.
본 블로그에서 소개한 오차역전파를 각 노드 별로 많은 단순 연산을 필요로 한다. 이때 흔히 직렬 연산에 강점을 둔 중앙 처리 장치 (CPU, Central Processing Unit)를 활용하면 굉장히 비효율 적이다. 대신 그래픽 처리 장치 (GPU, Graphics Processing Unit)를 사용하면 병렬 계산이 가능합니다.

GP GPU

본격적인 AI시대 이전 GPU를 이용한 범용 계산(매트릭스, 벡터 연산 등)외 다른 부분은 기술적으로 많은 부분이 제한적이였다. 하지만 이제 OpenGL, DirectXL과 같은 그래픽 가속 API가 나오면서 NVIDIA, ARM등 GPU를 잘 제어할 수 있게 됬다. 단순한 연산 작업이 아니라 범용 목적의 병렬 계산 프로세서를 활용하게 되었고 이것을 범용 목적 그래픽 처리 장치 (GP GPU, General Purpose computing on Graphics Processing Units)라고 말한다. 이런 범용 목적의 병렬 계산 프로세스를 무료로 사용할 수 있는 기술이 NVIDIA사의 쿠다(CUDA)라는 것이다. 여기서 ALU는 덧샘, 뺄샘 같은 두 숫자의 산술 연산과 배타적 논리합, 논리곱, 논리합 같은 논리연산을 계산하는 디지털 회로이며, 흔히 산술 논리 장치를 말합니다.


CUDA

2006년 NVIDIA는 Fermi Architecture를 발표하며 CUDA(Computed Unified Device Architecture)를 세상에 내놓았다. 이전까지는 전문가들이 아니면 그래픽 처리 장치를 이용한 프로그래밍이 어려웠는데 쿠다의 등장 이후 많은 프로그래머들이 그래픽 처리 장치를 이용한 프로그래밍이 가능하게 되었다. 쉽게 말하면 CUDA는 NVIDIA 사에서 개발한 GP GPU개발 툴이다[2]. 지난 18년동안 CUDA는 다양한 영역에서 끊임없이 진화해왔고 이런 결과로 AI시대에 필수로 쓰이는 것 같다. 향후 NVIDIA의 GPU를 대항할 수 있는 대체자가 등장할 것인지 같이 지켜봅시다.


이어서 계속 이야기를 하자면, 2006년 11월 GeForce 8800 GTX 제품 이후로 CUDA를 이용하면 피보나치 수열과 같이 순차적으로 처리되는 많은 양의 데이터를 CPU가 아닌 병렬처리 작업이 가능한 GPU를 활용함으로서 Google, IBM등의 슈퍼컴퓨터에서나 가능했던 작업이 일반 데스크탑에서 가능하게되었다. 즉 각자 병렬적으로 처리가 가능한 여러개의 Thread를 하나의 Block 단위로 구성하고, 더 나아가 여러개의 Block을 하나의 Streaming Process 로 범위를 구분한다. 여기서 Streaming Process는 하나의 CUDA Core와 같다. 다른말로 SIMD architecture 라 할 수도 있다. 자세한 인텔의 SIMD는 추후 다루도록 하겠다.

“GeForce의 의미는 일반적인 그래픽 카드를 말하며, Quadro는 고성능 그래픽 작업 전용이며 Tesla는 그래픽 기능 없는 고성능 연산 전용 GPU이다.”

여기서 CUDA는 C/C++ 프로그래밍 언어를 기반으로하며 CPU에서 병렬 코드를 작성하고 실행할 수 있는 컴파일러 역할을 수행한다. 즉 CPU가 하던 수 계산의 일부를 GPU가 계산하개끔, 또는 메모리상 어떤 데이터를 어떻게 가져오라는 등 중간 다리 역할을 한다. CUDA 이전에는 Direct3D나 OpenCV 등을 직접 코딩하여 사용해야하는 단점이 있었으나, CUDA로 일반인들도 쉽게 사용할 수 있는 길을 만든것으로 생각한다. 또한 다양한 연산 라이브러리와 도구를 제공함에따라 딥러닝 시대의 시작을 알렸다고 생각한다. 앞서 말한 컴파일러란 컴퓨터가 이해할 수 있는 원시 언어로 번역해주는 프로그램이라고 이해하면 좋을 것 같다. 이를 위해NVIDIA에서 제공하는 CUDA를 사용하기 위해서는 쿠다 툴킷(CUDA Toolkit)을 설치해 사용해야 한다. 설치 방법은 차후 다루도록 하겠다.

“라이브러리 예로 cuRAND(랜덤수 생성기), CUFFT(FFT 연산 라이브러리), CUBLAS(선형대수학 연산 라이브러리) 등이 있다.”

CUDA Toolkit

CUDA Toolkit은 GPU 가속화 애플리케이션 (예로 Tensorflow, PyTorch 등) 개발에 필요한 모든것을 제공한다[3]. 이밖에도 쿠디 툴킷의 역할을 정리하면 다음과 같다.
먼저 CUDA를 사용하여 C/C++, Python 등 개발 프로그램을 GPU에서 실행할 수 있도록하는 컴파일러 역할과 선형대수, 확률, 통계, 행렬, 벡터 및 이미지처리 등 계산을 위한 GPU 가속 라이브러리 제공 역할을 한다. 또한 GPU 연산을 관리하고 실행하는데 필요한 런타임 횐경 제공하며 CUDA에 필요한 GPU 설치 드라이버 제공한다. 마지막으로 코드 샘플, 프로그래밍 가이드 API 참조사항 및 기타 설명서도 함께 제공한다.

Tensor Cores

Tensor core란 NVIDIA에서 개발한 행렬 곱셈 프로세스를 가속하는 처리 장치 이다 [4]. 이래 그림 처럼 CUDA Cores가 1 Core Clock에 하나의 FP32 부동소수점 연산을 수행하는 것에 비해 Tensor Cores는 같은 Term 동안 4 x 4 크기의 FP16 행렬 두 개를 곱하고 그 결과를 4 x 4 FP32 행렬에 더하는 Matrix multiply-accumulate 연산을 합니다.


즉 A와 B 행렬은 FP16으로 곱셈 연산을 하고, 그 결과를 FP32로 더하기 연산을 수행합니다. 이 경우 곱하기 연산 시 FP16을 사용하여 계산 속도를 높이며 동시에 더하기에서는 FP32 연산을 수행하여 정확도를 유지하는 방법으로 혼합 정밀도(Mixed Precision)를 지원한다.
해당 연산은 Rounding이 한번 일 때 FMA(Fused Multiply-Add)라고 불리기도 한다. 아래 그림과 같이 FMA에서 각 Tensor core는 한 번의 GPU Clock에 64개의 부동소수점 연산을 하는데 이는 출력 행렬의 한 요소를 계산하기 위해 4개의 FMA 연산이 필요하고 총 4x4개의 요소가 존재하기 때문이다. 예를 들면, 2개의 4x4 행렬의 곱셈을 수행하려면 64개의 곱셈 연산과 48개의 덧샘 연산이 필요하다. 그렇기 때문에 NVIDIA에서는 연산의 정확도를 희생(FP16)하여 더 많은 연산을 빠르게 수행할 수 있는 Tensor Core를 출시하였다. 최초로 Volta Architecture에서 이 기술을 최초 적용하였고 이후 Architecture에도 이를 적용하여 훨신 빠른 연산을 수행 할 수 있도록 하였다.


아래 그림의 왼쪽은 행렬 내의 각 요소를 개별적으로 계산하는 파스칼 아키텍처이고 오른쪽은 전체 작업을 한번에하는 볼티 아키텍처를 그림으로 나타낸 것이다.


지금까지 간략하게 GPU와 NVIDIA의 CUDA, Tensor Cores에 대하야 이야기 하였다. 다음은 NVIDIA의 GPU 아키텍처의 예를 활용하여 이야기하도록 하겠습니다.

여기서 CUDA core는 Tensor core 로도 변환 가능한데, 보통 다음과 같이 계산한다. Tensor Core 1개는 CUDA Core 32개와 같다. 또한 RT Core 1개는 Tensor Core 4개와 같다. 머신러닝과 같은 AI를 학습하기 위해서는 많은 Tensor Core 수를 가지는 것이 유리하다고 생각한다.
즉 정리하자면,
RT Core(1개) = Tensor Core(4개) = CUDA Core(128개)


참고문헌
[2] CUDA

댓글

이 블로그의 인기 게시물

[AI] RAG란 무엇인가?

자고 일어나면 인공지능 관련 기사와 내용이 참 많습니다. 소위 AI시대 대격변 속에서 무엇을 해야할지 고민이 많습니다. AI의 기본적인 이론도 중요하지만, 최근 트렌드를 잘 알고 잘 써먹을 수 있는 것도 개인의 역량이 아닐까 싶습니다. 즉 AI를 하나의 도구로 생각하고 도구를 잘 써먹으면 좋지 않을까요? 오늘은 RAG(검색-증강-생성)이란 무엇인지 간략하게 끄적여보겠습니다. 3줄 요약 ⓐ 검색(Retrieval)은 요청된 외부 지식 을 가져온다. ⓑ 증강(Augmented)은 질문 것에 요청된 것을 더한다 . ⓒ 생성(Generation)은 사용자의 질문에 더한 것을 받아 텍스트로 생성 한다.   ⅰ RAG(검색-증강-생성)이란 무엇인가? 최근 인공지능 기술의 발전은 다양한 분야에서 혁신을 일으키고 있으며, 그 중에서도 텍스트 기반의 생성형 AI는 특히 주목받고 있습니다. 하지만 이러한 인공지능 기술이 가진 정확성과 신뢰성의 문제는 사용자와 개발자 모두에게 중요한 과제로 남아 있습니다. 이 문제를 해결하기 위해 등장한 기술 중 하나가 바로 RAG(Retrieval-Augmented Generation)입니다. 자세한 기술적 내용은 RAG 용어가 등장한 2020년 아래의 논문을 참고하기 바랍니다. Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks(2020) (본지는 간단한 내용 만을 기술할 목적이기 때문에 IT 기업의 설명 자료를 참고하여 본인이 이해한 내용을 작성 하였습니다. 혹시나 잘못된 정보가 있다면 알려주세요.) RAG(Retrieval-Augmented Generation)는 단어 풀이 그대로 '검색 증강 생성'이란 뜻 입니다. 먼저 Retrieval 이란 의미는 검색이란 뜻보다는 외부 지식 데이터베이스에서 가져오는 것, 어딘가에서 요청된 무엇인가를 가져오는 것 을 이야기합니다. 그리고 Augmented 는 증강이란 뜻으로 원래 것에 뭔가를 더하거나 보태어 더 실해졌다 는 ...

[Machine Learning] 경사 하강법 (Gradient Descent)

모델의 오류는 왜 중요할까? 들어가기 전에 한 줄 요약해보겠습니다. 의심하며 본문의 내용을 읽어주세요. 혹시나 다른 내용이 있다면 덧글 부탁드립니다. 모델의 계수를 구하기 위해 가중치를 바꿔가며 전역(global) 기울기가 0인 곳을 잘 찾아보자 . 들어가기 머신러닝 혹은 딥러닝의 가장 적합한 모델 이라 함은 대부분 모델의 오류(error)를 최소화 하는 것을 의미한다. 즉, 어떤 모델(단변량 함수)의 계수의 최적값을 찾는 것으로 생각 할 수 있다. 최적화 문제를 풀기위해 경사 하강법 이라 부르는 방법을 사용할텐데, 이는 곧 함수의  기울기 를 계산하고 경사의 이동방향의 반대 방향으로 이동하여 극값 (=0) 을 찾는 문제 와 같다. 접선의 오류를 찾는 손실함수는 다음 포스트에서 다루도록 하겠다. (즉 머신러닝/딥러닝 최적 모델은 함수의  기울기와 접선의 오차를 줄이는  것이다) 본 포스트에서는 경사 하강법의 기본 개념에 한하여 설명하도록 하겠다. 우리가 생각하는 1차원 혹은 2차원에서의 기울기 최소값이 아닌 아래 그림과 같이 3차원 이상의 다차원에서는 함수에 하나의 전역 최소값(global minimum) 이 존재하는 경우 꽤 쓸만하지만, 함수에 지역 최소값(local minimum) 여러 개 있는 경우에는 시작점을 어디에 잡냐에 따라 잘못된 곳으로 빠질 수 있다. (*딥러닝의 경우 때에 따라 다차원 함수의 최소값을 찾아야 한다. 이는 인간의 머리로는 한계가 있다.) Python 코드를 활용해 간단한 그라디언트 함수를 만들어 보자. f가 단변수 함수인 경우, 점 x 에서의 미분값은 x가 아주 조금 변했을 때 f(x)의 변화량 을 의미한다. x의 변화량을 식에서는 h로 표기한다. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 from  typing  import  Callable def  difference_quoitemt(f: Callab...

[Machine Learning] 데이터 증강 (Data Augmentation) 이란?

데이터 증강 (Data Augmentation)이란? 본격적으로 들어가기전 내용을 간략하게 요약하자면 다음과 같다. 요약을 바탕으로 본문에서는 좀더 깊이있게 설명하도록 하겠다. 이미지 데이터의 증강은 회전, 크기 조절, 색생 변화 등 다양한 변환을 통해 학습데이터의 다양성을 인위적으로 늘려 모델의 성능을 형상 시키는 방법 시계열 데이터의 증강은 시간 축 변환, 크기 조절, 시간 이동 등 다양한 기법을 통해 원본 데이터를 변형하여 학습 데이터의 다양성을 높이고 모델의 일반화를 향상 시키는 기법 CNN, R-CNN, YOLO 등 모델의 성능을 높이고 오버피팅을 극복할 수 있는 가장 좋은 방법은 다양한 유형의 학습 이미지 불균형 극복을 위한 데이터 양을 늘리는 것입니다. 하지만 사진, 동영상과 같은 이미지 데이터의 경우 학습 데이터 량을 늘리는 것은 쉽지가 않다. 이미지 데이터의 양을 늘리긴 위해서는 결국 클라스(라벨링)의 수도 증가하며, 이는 곧 엄청난 노가다가 필요하기 때문이다. 데이터 증강은 학습 이미지의 개수를 늘리는 것이 아니고 학습 시(epoch) 마다 개별 원본 이미지를 변형해서 학습하는 것 이다. 아래 첨부의 그림과 같이 학습 이미지를 변형할 수 있다. (출처:  https://blog.insightdatascience.com/automl-for-data-augmentation-e87cf692c366) 데이터 증강을 우리 일상생활로 쉽게 설면하자면 우리가 핸드폰 카메라를 통해 사진을 촬영하고 사진의 밝기, 크기, 좌우반전 등을 행하는 것을 이미지 데이터의 증강으로 이해하면 쉽다. tensorflow 에서 간단한 예제를 활용하여 이미지 데이터의 증강을 설명하고 있다. 본 블로그에서는 몇 가지 대표적인 데이터 증강 종류를 간단히 설명하고 마무리 하겠다. 기회가 된다면 텍스트 및 시계열 데이터의 증강 방법도 간략히 소개 후 마무리 하겠다. 이미지 데이터의 증강 (출처:  https://www.invivoo.com/ ) 이미지에 아래와 같이...