기본 콘텐츠로 건너뛰기

[AI] RAG란 무엇인가?


자고 일어나면 인공지능 관련 기사와 내용이 참 많습니다. 소위 AI시대 대격변 속에서 무엇을 해야할지 고민이 많습니다. AI의 기본적인 이론도 중요하지만, 최근 트렌드를 잘 알고 잘 써먹을 수 있는 것도 개인의 역량이 아닐까 싶습니다. 즉 AI를 하나의 도구로 생각하고 도구를 잘 써먹으면 좋지 않을까요? 오늘은 RAG(검색-증강-생성)이란 무엇인지 간략하게 끄적여보겠습니다.

3줄 요약

ⓐ 검색(Retrieval)은 요청된 외부 지식을 가져온다.
ⓑ 증강(Augmented)은 질문 것에 요청된 것을 더한다.
ⓒ 생성(Generation)은 사용자의 질문에 더한 것을 받아 텍스트로 생성한다. 

ⅰ RAG(검색-증강-생성)이란 무엇인가?

최근 인공지능 기술의 발전은 다양한 분야에서 혁신을 일으키고 있으며, 그 중에서도 텍스트 기반의 생성형 AI는 특히 주목받고 있습니다. 하지만 이러한 인공지능 기술이 가진 정확성과 신뢰성의 문제는 사용자와 개발자 모두에게 중요한 과제로 남아 있습니다. 이 문제를 해결하기 위해 등장한 기술 중 하나가 바로 RAG(Retrieval-Augmented Generation)입니다. 자세한 기술적 내용은 RAG 용어가 등장한 2020년 아래의 논문을 참고하기 바랍니다.

Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks(2020)

(본지는 간단한 내용 만을 기술할 목적이기 때문에 IT 기업의 설명 자료를 참고하여 본인이 이해한 내용을 작성 하였습니다. 혹시나 잘못된 정보가 있다면 알려주세요.)

RAG(Retrieval-Augmented Generation)는 단어 풀이 그대로 '검색 증강 생성'이란 뜻 입니다. 먼저 Retrieval이란 의미는 검색이란 뜻보다는 외부 지식 데이터베이스에서 가져오는 것, 어딘가에서 요청된 무엇인가를 가져오는 것을 이야기합니다. 그리고 Augmented는 증강이란 뜻으로 원래 것에 뭔가를 더하거나 보태어 더 실해졌다는 뜻입니다. 마지막으로 Generation프롬포트라고 하는 사용자 질문에 대한 응답을 생성하는 것을 의미합니다.

조금은 어려울 수도 있는 기술적인 의미로, RAG는 대규모 언어 모델의 출력을 최적화하여 응답을 생성하기 전에 학습 데이터 소스 외부의 신뢰할 수 있는 지식 베이스를 참조하도록 하는 프로세스입니다. 대규모 언어 모델(LLM)은 방대한 양의 데이터를 기반으로 학습되며 수십억 개의 매개 변수를 사용하여 질문에 대한 답변, 언어 번역, 문장 완성과 같은 작업에 대한 독창적인 결과를 생성합니다. RAG는 이미 강력한 LLM의 기능을 특정 도메인이나 조직의 내부 지식 기반으로 확장하므로 모델을 다시 교육할 필요가 없습니다. 이는 LLM 결과를 개선하여 다양한 상황에서 관련성, 정확성 및 유용성을 유지하기 위한 효율적인 접근 방식입니다. 이러한 RAG는 최신 정보를 유지 관리하거나 도메인별 지식에 액세스해야 하는 지원 ChartBot 및 Q&A 시스템에 활용하고있습니다.

ChatGPT 4의 경우 2023년 4월 까지의 데이터로 학습한 상태입니다. 그렇다면 현재 24년 7월 일어난 사건이나 지식에 대해서는 당연히 모르겠죠? 이때 RGA(검색-증강 생성)을 사용한다면 현재 일어난 사건이나 지식 문제를 해결할 수 있습니다.

RAG(검색-증강 생성) 프레임워크 플로우

예를 들면 2006년대 초 2005년까지의 데이터를 기반으로 학습한 언어모델(LLM)을 이용해서 "현재 태양계 행성의 수를 알려줘"라고 했다면 과연 몇 개로 알려줬을까요? 우리는 막연하게 '수금지화목토천해명' 9개라고 답을 했을겁니다. 분명 9개인건 맞는데 출처가 어디였는지 잘 기억이 안나죠? RAG의 경우 외부 지식 저장소를 활용해서 태양계 행성의 수는 8개 이며 출처는 국제천문연맹(IAU)을 참조했다고 대답할 것입니다.

국제천문연맹 태양계 행성 구조조정(참고)


ⅱ RAG는 LLM의 무엇을 개선하였을까?

그렇다면 RAG(Retrieval-Augmented Generation)는 언어모델(LLM)의 단점 중 ‘사실 관계 오류 가능성’‘맥락 이해의 한계’를 개선하는 데 초점을 맞춘 방법입니다. 여기서 키 핵심은 RAG는 LLM에 외부 지식 베이스를 연결하여 모델의 생성 능력과 사실 관계 파악 능력을 향상시키는 기술입니다. 언어모델의 추론 능력을 바탕으로 외부 지식의 컨텍스트를 파악한다면, 사용자가 질문한 대답에 대해 맥락을 이해하고 적절한 답변을 주겠죠?
최근 RAG 기술은 질의 응답, 정보 검색, 사실 확인 등의 테스크에서 활발히 연구되고 있으며, 구글의 LaMDA, OpenAI의 WebGPT 등 최신 LLM에도 적용되어 소개되고 있습니다. 다만 RAG 모델의 성능은 연결된 지식 베이스의 품질과 커버리지에 크게 의존하므로, 고품질의 지식 베이스 구축이 중요한 과제로 남아 있습니다. 최근 RAG 기술을 활용하여 자사의 규격서, 절치서, 시방서와 기술서 등의 내부 지식을 활용한 sLLM모델을 만들고 사용하는 추세입니다.

ⅲ RAG에서 중요한 것은?

RAG를 처음 개념적으로 정리한 논문[4]은 언어모델(LLM) 및 검색(Retrieval)을 학습하는 방법으로 RAG를 제시하였습니다. 하지만 LLM의 대중화 이후 사람들이 사용하는 RAG의 의미는 LLM의 추론을 레버리지하는 방법[7]으로 굳어지고 있습니다.

추론이란 알고 있는 또는 확인된 정보로부터 논리적 결론을 도출하는 행위 또는 과정입니다. ChatGPT의 프롬포트에서 지시 사항과 문맥을 주고 논리적인 결론을 얻어낼 수 있습니다. 이런 개념이 중요한 이유는 이를 바탕으로 자동화 시스템 등을 만들 수 있기 때문입니다. 예를 들면, "너비가 무한한 출입구를 통과하기에 탱크와 자동차 중 어느 것이 더 나은가?"란 질문에 GPT4는 "무한이 넓다는 것은 출입구의 폭 제한이 없으므로 둘다 통과 가능"이란 추론을 할 것입니다.

RAG에서 중요한 것은 ①문서를 잘 검색하고 ②원본 query와 함께 LLM에 잘 넣는 것입니다. 이를 위한 방법으로 컨텍스트를 벡터화하기 위한 Indexing이나 query최적화, re-ranking, context 압축 등의 연구가 진행 중입니다. 최근 RAG에서 사용하는 데이터베이스(DB)는 mogoDB, PineconeMilvus 등과 같은 벡터향 데이터베이스입니다. 벡터 데이터베이스 관련해서는 향후 기회가 되면 작성하도록 하겠습니다. 언어모델의 원리와 만들기를 보시면 언어모델을 어떻게 만들고 원리는 무엇인지? 즉 추론이란 것이 무엇인지를 잘 설명해주고 있으니 참고 부탁드립니다.

ⅳ 끝맺음


현재 RAG을 활용해서 100% 만족스런 대답을 얻을 수는 없겠지만, 앞으로도 꾸준히 발전할 기술이기 때문에 IT 기업인 구글과 아마존 같은 회사들이 어떻게 활용하는지 눈여겨보면 좋을 것 같습니다.

이상 긴 글 읽어 주셔서 감사합니다.


참고자료

댓글

댓글 쓰기

이 블로그의 인기 게시물

[Machine Learning] 경사 하강법 (Gradient Descent)

모델의 오류는 왜 중요할까? 들어가기 전에 한 줄 요약해보겠습니다. 의심하며 본문의 내용을 읽어주세요. 혹시나 다른 내용이 있다면 덧글 부탁드립니다. 모델의 계수를 구하기 위해 가중치를 바꿔가며 전역(global) 기울기가 0인 곳을 잘 찾아보자 . 들어가기 머신러닝 혹은 딥러닝의 가장 적합한 모델 이라 함은 대부분 모델의 오류(error)를 최소화 하는 것을 의미한다. 즉, 어떤 모델(단변량 함수)의 계수의 최적값을 찾는 것으로 생각 할 수 있다. 최적화 문제를 풀기위해 경사 하강법 이라 부르는 방법을 사용할텐데, 이는 곧 함수의  기울기 를 계산하고 경사의 이동방향의 반대 방향으로 이동하여 극값 (=0) 을 찾는 문제 와 같다. 접선의 오류를 찾는 손실함수는 다음 포스트에서 다루도록 하겠다. (즉 머신러닝/딥러닝 최적 모델은 함수의  기울기와 접선의 오차를 줄이는  것이다) 본 포스트에서는 경사 하강법의 기본 개념에 한하여 설명하도록 하겠다. 우리가 생각하는 1차원 혹은 2차원에서의 기울기 최소값이 아닌 아래 그림과 같이 3차원 이상의 다차원에서는 함수에 하나의 전역 최소값(global minimum) 이 존재하는 경우 꽤 쓸만하지만, 함수에 지역 최소값(local minimum) 여러 개 있는 경우에는 시작점을 어디에 잡냐에 따라 잘못된 곳으로 빠질 수 있다. (*딥러닝의 경우 때에 따라 다차원 함수의 최소값을 찾아야 한다. 이는 인간의 머리로는 한계가 있다.) Python 코드를 활용해 간단한 그라디언트 함수를 만들어 보자. f가 단변수 함수인 경우, 점 x 에서의 미분값은 x가 아주 조금 변했을 때 f(x)의 변화량 을 의미한다. x의 변화량을 식에서는 h로 표기한다. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 from  typing  import  Callable def  difference_quoitemt(f: Callab...

[Machine Learning] 데이터 증강 (Data Augmentation) 이란?

데이터 증강 (Data Augmentation)이란? 본격적으로 들어가기전 내용을 간략하게 요약하자면 다음과 같다. 요약을 바탕으로 본문에서는 좀더 깊이있게 설명하도록 하겠다. 이미지 데이터의 증강은 회전, 크기 조절, 색생 변화 등 다양한 변환을 통해 학습데이터의 다양성을 인위적으로 늘려 모델의 성능을 형상 시키는 방법 시계열 데이터의 증강은 시간 축 변환, 크기 조절, 시간 이동 등 다양한 기법을 통해 원본 데이터를 변형하여 학습 데이터의 다양성을 높이고 모델의 일반화를 향상 시키는 기법 CNN, R-CNN, YOLO 등 모델의 성능을 높이고 오버피팅을 극복할 수 있는 가장 좋은 방법은 다양한 유형의 학습 이미지 불균형 극복을 위한 데이터 양을 늘리는 것입니다. 하지만 사진, 동영상과 같은 이미지 데이터의 경우 학습 데이터 량을 늘리는 것은 쉽지가 않다. 이미지 데이터의 양을 늘리긴 위해서는 결국 클라스(라벨링)의 수도 증가하며, 이는 곧 엄청난 노가다가 필요하기 때문이다. 데이터 증강은 학습 이미지의 개수를 늘리는 것이 아니고 학습 시(epoch) 마다 개별 원본 이미지를 변형해서 학습하는 것 이다. 아래 첨부의 그림과 같이 학습 이미지를 변형할 수 있다. (출처:  https://blog.insightdatascience.com/automl-for-data-augmentation-e87cf692c366) 데이터 증강을 우리 일상생활로 쉽게 설면하자면 우리가 핸드폰 카메라를 통해 사진을 촬영하고 사진의 밝기, 크기, 좌우반전 등을 행하는 것을 이미지 데이터의 증강으로 이해하면 쉽다. tensorflow 에서 간단한 예제를 활용하여 이미지 데이터의 증강을 설명하고 있다. 본 블로그에서는 몇 가지 대표적인 데이터 증강 종류를 간단히 설명하고 마무리 하겠다. 기회가 된다면 텍스트 및 시계열 데이터의 증강 방법도 간략히 소개 후 마무리 하겠다. 이미지 데이터의 증강 (출처:  https://www.invivoo.com/ ) 이미지에 아래와 같이...