기본 콘텐츠로 건너뛰기

[Machine Learning] 오차역전파 (Back propagation)


오차역전파 (Back propagation)란?

컴퓨터는 주어진 입력 값을 신경망을 거쳐 출력 값으로 반환합니다. 신경망은 [입력층 <> 은닉층 <> 출력층]과 같이 좌측에서 우측으로의 진행 방향을 가지며 순전파(Forward propagation)라고 합니다. 이와 반대로 진행 방향을 가지는 것을 역전파(Back propagation)라고 합니다. 오차 역전파 과정은 컴퓨터가 예측 값의 정확도를 높이기 위해 출력 값과 실제 값을 비교하여 가중치를 변경하는 작업을 말합니다. 여기서 오차란 모델의 예측 값과 실제 값의 차이를 말하고, 구체적인 오차의 값은 loss function을 통해 계산합니다.

오차는 왜 계산할까?


오차는 우리가 예측하고자 하는 실제 함수를 모르기 때문에 발생합니다. 
이해를 돕기 위해 일상 생활에서 경험할 수 있는 날씨를 예로 들어봅시다. 만약 오늘 습도가 67%일 때 내일 비가 올 확률을 100% 정확하게 알 수 있다면 굳이 머신러닝이 필요하지 않습니다. 하지만 우리는 오늘의 습도와 내일의 강수 확률의 상관관계를 알 수 없습니다. (물론 통계기반으로 데이터가 많이 있어서 어느정도 규명은 가능하지만, 이해를 돕기위해 알 수 없다고 합시다.) 그래서 이들의 관계를 근사하는 함수(선,면 등 따위)를 만들고, 이를 우리는 모델이라고 합니다.

그런데 과연 강수 확률이 습도에만 영향을 받을까요? 당연히 그렇지 않습니다. 강수 확률에 영향을 미치는 다양한 기상 변수가 존재합니다. 그래서 우리가 만든 모델은 필연적으로 여러 변수가 존재하는 다변수 함수의 형태를 갖게 됩니다. 만약 각 변수가 결과에 미치는 영향력을 알 수 있다면 함수를 더 정확하게 근사할 수 있습니다.

경사하강법과 오차역전파


다변수 함수의 계수를 구하기 위해 사용하는 방법이 바로 경사하강법입니다. 어떤 변수의 계수(가중치)를 바꿨는데 오차가 줄어든다면 이는 이전보다 더 정확한 함수를 찾은 것과 같습니다. 이러한 과정을 통해 가중치를 계속 갱신한다면 다변수 함수의 최적점에 도달하게 됩니다. 관련해서 자세한 내용은 본 포스트의 경사하강법 내용을 참고하면 더욱 좋을 것 같습니다.

그런데 지금 이야기하고 있는 경사하강법은 [입력층 <> 출력층]만 존재할 때 가능합니다. 은닉층이 생기면 여러 번의 경사하강법을 수행해야합니다. 수천만개의 가중치 알기 위해 일일이 경사하강법을 계산하는 건 매우 비효율적입니다. 이 때 오차역전파를 이용하면 간단하고 효율적으로 계산할 수 있습니다.

출력층의 오차 업데이트

출력층에서의 오차 역전파를 수학적으로 계산해보겠습니다. 각 노드 하나 안에서 일어나는 일을 세분화하여 그림으로 표시하였습니다. 각 노드 내부에서는 입력 값을 이용해 가중합을 만드는 단계와 이 가중합을 활성화 함수를 적용해 출력하는 단계로 구분하였습니다.

오차 역전파는 \( Y_{out} \) 값에서 거꾸로 거슬러 올라가며 가중치 \( W^2 \)와 가중치 \( W^1 \)이 더는 업데이트 되지 않을 때까지 반복해 계산하는 것입니다.
먼저 \( W^2 \)의 값 중 하나인 \( w_{31} \)을 업데이트 하는 과정을 자세히 알아보겠습니다. 오차 역전파의 공식을 이용해 \( w_{31} \)을 다음 공식으로 업데이트합니다.

\( w_{31}(t+1)=w_{31}t-\frac{\partial Y_{out,error}}{\partial w_{31}} \)

여기서 \( t \)는 한 단계 앞,  \( t+1 \)은 현재 단계의 계산을 의미합니다. \( w_{31}t \)는 한 단계 앞에서 이미 계산된 값을 의미하므로 여기서는 구할 필요가 없습니다. 따라서 우리가 실제고 계산해야 하는 값은 \( \frac{\partial Y_{out,error}}{\partial w_{31}} \)입니다. \( w_{31}t \)로 편미분 하기전에 먼저 \( Y_{out,error} \)을 구해 보겠습니다.

1. 오차 공식

두 개의 출력 값이 있습니다. 각각의 평균 제곱의 오차를 이용하면 다음과 같이 계산할 수 있습니다.

\( y_{o1,error}=\frac{1}{2}(y_{t1}-y_{o1})^2 \)
\( y_{o2,error}=\frac{1}{2}(y_{t2}-y_{o2})^2 \)

여기서  \( (y_{t1} \), \((y_{t2} \)에 해당하는 실제 값은 도출해야 하는 정답 값을 의미합니다. 결국 여기서 계산해서 나오는 출력 값이 실제 값과 같아지도록 가중치를 조절해 주는 것입니다.
두 식을 원식에 대입하면 다음과 같은 식을 계산할 수 있습니다.

\( Y_{out,error}=\frac{1}{2}(y_{t1}-y_{o1})^2+\frac{1}{2}(y_{t2}-y_{o2})^2 \)

2. 체인 룰

\( w_{31}(t+1)=w_{31}t-\frac{\partial Y_{out,error}}{\partial w_{31}} \)의 계산은 합성 함수 미분 공식을 따르므로 체인 룰(chain rule)에 의해 다음과 같이 계산할 수 있습니다.

\( \frac{\partial Y_{out,error}}{\partial w_{31}}=\frac{\partial Y_{out,error}}{\partial y_{o1}}\cdot \frac{\partial y_{o1}}{\partial \Sigma w_{3}}\cdot \frac{\partial \Sigma w_{3}}{\partial w_{31}} \)

이제 체인 룰을 사용해서 주어진 식이 의미하는 것을 하나씩 직접 계산해보겠습니다.
①은 아래와 같이 계산합니다.

②를 계산하기 앞서 출력층의 오차 업데이트 그림을 다시 보면, 가중합 \( \Sigma w_{3} \)이 활성화 함수를 통해 \( y_{o1} \)이 됩니다. 이말은 \( y_{o1} \)을 \( \Sigma w_{3} \)에 대하여 미분하라는 것이며, 이는 곧 \( y_{o1} \)을 배출한 활성화 함수를 미분하라는 의미가 됩니다.


여기서 활성화 함수를 시그모이드(sigmoid) 함수라 가정하면,


와 같습니다. 다시 말해 시그모이드 함수의 미분은 시그모이드 값과 그 값을 1에서 뺀 값을 곱하면 됩니다. 이제 주어진 \( \frac{\partial y_{o1}}{\partial \Sigma w_{3}} \)을 정리하면 다음과 같습니다.


③식을 편미분하기 전 가중합부터 알아보겠습니다.가중합 \( \Sigma w_{3} \)은 \( n_{1} \)과 \( n_{2} \) 노드로부터 전달된 \( y_{h} \)값과 \( w_{(2)} \)값을 통해 만들어지며 아래와 같이 식으로 표현할 수 있습니다.

\( \Sigma w_{3}=w_{31}y_{h1}+w_{32}y_{h2}+1 \)

여기서 1은 바이어스입니다. 바이어스는 그래프를 좌표에서 좌우로 움직이는 역할을 합니다. ③식을 편미분하면 다음과 같습니다.


이제 각각 편미분한 ①, ②, ③식을 정리하면 다음과 같습니다.


3. 가중치 수정하기

출력층의 가중치를 업데이트하는 방법은 다음과 같이 앞서 구한 값을 \( w_{31} \)에서 빼 주면 새로운 \( w_{31} \)값을 구할 수 있습니다.

\( w_{31}(t+1)=w_{31}t-(y_{o1}-y_{t1}) \cdot y_{o1}(1-y_{o1}) \cdot y_{h1} \)

위 식의 \( (y_{o1}-y_{t1}) \cdot y_{o1}(1-y_{o1})\) 형태는 다음 오차를 업데이트 할때도 반복적으로 나타납니다. 따라서 이식을 한 번 구해 놓으면 이후는 그대로 사용해서 오차를 구할 수 있습니다. 이를 \( n_{3} \)의 델타(delta)식이라고 합니다.

\( \delta y=(y_{o1}-y_{t1}) \cdot y_{o1}(1-y_{o1})\) 

델타식으로 오차의 업데이트는 다음 식으로 구할 수 있습니다.

\( w_{31}(t+1)=w_{31}t-\delta y \cdot y_{h1} \)

은닉층의 오차 업데이트

출력층을 거쳐 은닉층의 오차가 업데이틑 과정을 살펴보도록 하겠습니다. 마찬가지로 은닉층의 오차 \( W^{(1)} \) 중 하나인 \( w_{11} \) 값을 업데이트 하는 방법을 설명하겠습니다. 


마찬가지로 그림과 같이 가중치에 기울기를 뺀 값을 구해야 합니다. 구하려는 값인 \( w_{11} \)은 다음과 같이 계산합니다.

\( w_{11}(t+1)=w_{11}t-\frac{\partial Y_{out,error}}{\partial w_{11}} \)

여기서 \( Y_{h,error} \)가아닌 \( Y_{o,error} \)닌 이유는 은닉충 값을 없기 때문입니다. 앞서 출력층의 오차 업데이트에서 계산했던 바와 마찬가지로 기울기에 해당하는 \( \frac{\partial Y_{out,error}}{\partial w_{11}} \)을 체인 룰을 적용해 다음과 같이 계산합니다. 


은닉층에서 ①항은 오차 \( y_{o1} \)과 오차 \( y_{o2} \)의 형성에 모두 관계가 있으므로 다음과 같이 계산과정이 조금 복잡해집니다. 



②항과 ③항은 기존과 동일한 방법을 활용하여 최종 은닉층의 오차 업데이트 식을 완성하면 다음과 같습니다.


앞서 출력층과 은닉층의 오차 업데이트 식은 모두 '오차 x out (1 - out)'의 델타식 형태로 단순화 할 수 있습니다. 이렇게 해서 모든 출력층과 은닉층의 가중치가 각각 업데이트되는 과정을 수식을 통해 알아보았습니다.

 
출처

댓글

이 블로그의 인기 게시물

[AI] RAG란 무엇인가?

자고 일어나면 인공지능 관련 기사와 내용이 참 많습니다. 소위 AI시대 대격변 속에서 무엇을 해야할지 고민이 많습니다. AI의 기본적인 이론도 중요하지만, 최근 트렌드를 잘 알고 잘 써먹을 수 있는 것도 개인의 역량이 아닐까 싶습니다. 즉 AI를 하나의 도구로 생각하고 도구를 잘 써먹으면 좋지 않을까요? 오늘은 RAG(검색-증강-생성)이란 무엇인지 간략하게 끄적여보겠습니다. 3줄 요약 ⓐ 검색(Retrieval)은 요청된 외부 지식 을 가져온다. ⓑ 증강(Augmented)은 질문 것에 요청된 것을 더한다 . ⓒ 생성(Generation)은 사용자의 질문에 더한 것을 받아 텍스트로 생성 한다.   ⅰ RAG(검색-증강-생성)이란 무엇인가? 최근 인공지능 기술의 발전은 다양한 분야에서 혁신을 일으키고 있으며, 그 중에서도 텍스트 기반의 생성형 AI는 특히 주목받고 있습니다. 하지만 이러한 인공지능 기술이 가진 정확성과 신뢰성의 문제는 사용자와 개발자 모두에게 중요한 과제로 남아 있습니다. 이 문제를 해결하기 위해 등장한 기술 중 하나가 바로 RAG(Retrieval-Augmented Generation)입니다. 자세한 기술적 내용은 RAG 용어가 등장한 2020년 아래의 논문을 참고하기 바랍니다. Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks(2020) (본지는 간단한 내용 만을 기술할 목적이기 때문에 IT 기업의 설명 자료를 참고하여 본인이 이해한 내용을 작성 하였습니다. 혹시나 잘못된 정보가 있다면 알려주세요.) RAG(Retrieval-Augmented Generation)는 단어 풀이 그대로 '검색 증강 생성'이란 뜻 입니다. 먼저 Retrieval 이란 의미는 검색이란 뜻보다는 외부 지식 데이터베이스에서 가져오는 것, 어딘가에서 요청된 무엇인가를 가져오는 것 을 이야기합니다. 그리고 Augmented 는 증강이란 뜻으로 원래 것에 뭔가를 더하거나 보태어 더 실해졌다 는 ...

[Machine Learning] 경사 하강법 (Gradient Descent)

모델의 오류는 왜 중요할까? 들어가기 전에 한 줄 요약해보겠습니다. 의심하며 본문의 내용을 읽어주세요. 혹시나 다른 내용이 있다면 덧글 부탁드립니다. 모델의 계수를 구하기 위해 가중치를 바꿔가며 전역(global) 기울기가 0인 곳을 잘 찾아보자 . 들어가기 머신러닝 혹은 딥러닝의 가장 적합한 모델 이라 함은 대부분 모델의 오류(error)를 최소화 하는 것을 의미한다. 즉, 어떤 모델(단변량 함수)의 계수의 최적값을 찾는 것으로 생각 할 수 있다. 최적화 문제를 풀기위해 경사 하강법 이라 부르는 방법을 사용할텐데, 이는 곧 함수의  기울기 를 계산하고 경사의 이동방향의 반대 방향으로 이동하여 극값 (=0) 을 찾는 문제 와 같다. 접선의 오류를 찾는 손실함수는 다음 포스트에서 다루도록 하겠다. (즉 머신러닝/딥러닝 최적 모델은 함수의  기울기와 접선의 오차를 줄이는  것이다) 본 포스트에서는 경사 하강법의 기본 개념에 한하여 설명하도록 하겠다. 우리가 생각하는 1차원 혹은 2차원에서의 기울기 최소값이 아닌 아래 그림과 같이 3차원 이상의 다차원에서는 함수에 하나의 전역 최소값(global minimum) 이 존재하는 경우 꽤 쓸만하지만, 함수에 지역 최소값(local minimum) 여러 개 있는 경우에는 시작점을 어디에 잡냐에 따라 잘못된 곳으로 빠질 수 있다. (*딥러닝의 경우 때에 따라 다차원 함수의 최소값을 찾아야 한다. 이는 인간의 머리로는 한계가 있다.) Python 코드를 활용해 간단한 그라디언트 함수를 만들어 보자. f가 단변수 함수인 경우, 점 x 에서의 미분값은 x가 아주 조금 변했을 때 f(x)의 변화량 을 의미한다. x의 변화량을 식에서는 h로 표기한다. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 from  typing  import  Callable def  difference_quoitemt(f: Callab...

[Machine Learning] 데이터 증강 (Data Augmentation) 이란?

데이터 증강 (Data Augmentation)이란? 본격적으로 들어가기전 내용을 간략하게 요약하자면 다음과 같다. 요약을 바탕으로 본문에서는 좀더 깊이있게 설명하도록 하겠다. 이미지 데이터의 증강은 회전, 크기 조절, 색생 변화 등 다양한 변환을 통해 학습데이터의 다양성을 인위적으로 늘려 모델의 성능을 형상 시키는 방법 시계열 데이터의 증강은 시간 축 변환, 크기 조절, 시간 이동 등 다양한 기법을 통해 원본 데이터를 변형하여 학습 데이터의 다양성을 높이고 모델의 일반화를 향상 시키는 기법 CNN, R-CNN, YOLO 등 모델의 성능을 높이고 오버피팅을 극복할 수 있는 가장 좋은 방법은 다양한 유형의 학습 이미지 불균형 극복을 위한 데이터 양을 늘리는 것입니다. 하지만 사진, 동영상과 같은 이미지 데이터의 경우 학습 데이터 량을 늘리는 것은 쉽지가 않다. 이미지 데이터의 양을 늘리긴 위해서는 결국 클라스(라벨링)의 수도 증가하며, 이는 곧 엄청난 노가다가 필요하기 때문이다. 데이터 증강은 학습 이미지의 개수를 늘리는 것이 아니고 학습 시(epoch) 마다 개별 원본 이미지를 변형해서 학습하는 것 이다. 아래 첨부의 그림과 같이 학습 이미지를 변형할 수 있다. (출처:  https://blog.insightdatascience.com/automl-for-data-augmentation-e87cf692c366) 데이터 증강을 우리 일상생활로 쉽게 설면하자면 우리가 핸드폰 카메라를 통해 사진을 촬영하고 사진의 밝기, 크기, 좌우반전 등을 행하는 것을 이미지 데이터의 증강으로 이해하면 쉽다. tensorflow 에서 간단한 예제를 활용하여 이미지 데이터의 증강을 설명하고 있다. 본 블로그에서는 몇 가지 대표적인 데이터 증강 종류를 간단히 설명하고 마무리 하겠다. 기회가 된다면 텍스트 및 시계열 데이터의 증강 방법도 간략히 소개 후 마무리 하겠다. 이미지 데이터의 증강 (출처:  https://www.invivoo.com/ ) 이미지에 아래와 같이...