본문 바로가기
초심자를 위한 AI/AI가 뭔가요?

RAG (검색증강생성)이란?

by GAI.T & a.k.a Chonkko 2024. 2. 4.
반응형

생성형 AI와 관련해서 최근 RAG (검색증강생성)이란 용어가 많이 나오고 있습니다. 인공지능 기술이 워낙 빨리 발전하다 보니 새로운 트렌드도 계속 나타나는 것  같습니다.

 

RAG란?

RAG는 Retrieval-Augmented Generation의 약자로 우리말로는 검색증강생성이라고 합니다.  정보 검색(IR)과 자연어 생성(NLG) 모델을 결합하여 AI가 더 정확하고 상세한 정보를 제공할 수 있도록 합니다. RAG는 쉽게 말하면 '검색을 통해 강화된 생성' 기술이라고 할 수 있습니다. 마치 큰 도서관에서 책을 찾아 정보를 얻고, 그 정보를 바탕으로 이야기를 만들어내는 것과 비슷합니다.

RAG와 환각현상(hallucination)

RAG가 최근 주목을 받는 이유는 바로 환각현상과 관련이 있습니다. 생성형 AI의 최대 약점으로 꼽히는 문제가 바로 환각현상 (hallucination)이죠. 사실과 다르지만 그럴듯하게 답을 내놓는 챗GPT에 대해 많이 들어보셨을 겁니다. 사실 환각 현상은 생성형  AI의 버그라기보다는 특성이라고 하는 것이 더 적합하지만, 그래도 이런 부정확한 정보를 어떻게 줄이느냐가 생성형 AI 모델의 신뢰성을 높이고 성패를 좌우할 중요한 문제로 여겨지고 있습니다. RAG는 AI에게 훈련된 데이터 외에 추가적인 자료를 검색해서 답변을 보강할 수 있게 하면서 답변의 정확성을 높이고 환각을 줄이는 좋은 방안으로 여겨지고 있는 것이죠.

RAG는 특히 복잡한 질문에 대한 답변, 고급 정보 요구, 또는 특정 주제에 대한 심층적인 이해가 필요할 때 유용합니다. RAG 기술을 활용함으로써, AI는 단순히 학습된 정보에서만 답을 내놓는 것이 아니라, 실시간으로 정보를 검색하고 이를 바탕으로 답변을 생성할 수 있게 됩니다. 이는 AI의 활용 범위를 크게 확장시키는 중요한 발전입니다.

 

RAG의 두 단계 : 검색과 생성

RAG 기술은 크게 두 가지 단계로 이루어집니다.

검색 부분(Retrieval Component) : 정보찾기

사용자의 질문이나 입력을 받아, 관련된 정보나 데이터를 대규모 데이터베이스나 문서 집합에서 검색합니다. 이때 사용되는 기술은 주로 검색 엔진이나 데이터베이스 관리 시스템에 기반합니다. 주어진 질문이나 주제에 대해 필요한 정보를 찾는 것은 마치 도서관에서 적절한 책을 찾는 과정과 비슷하다고 볼 수 있습니다. 이 기술은 대량의 데이터 속에서 관련된 정보를 빠르게 찾아내는 데 도움을 줍니다.

생성 부분(Generation Component) : 이야기 만들기

검색된 정보를 기반으로 자연스러운 언어의 답변을 생성합니다. 이 과정에서는 GPT와 같은 전이 학습(transformer-based) 모델이 주로 사용됩니다. 생성 모델은 검색된 정보를 통합하고 이해하여, 질문에 가장 적합한 답변을 생성하는 데 사용됩니다. 찾아낸 정보를 바탕으로, 사람들이 이해하기 쉬운 언어로 답변을 만들어내는 이 과정은 마치 정보를 바탕으로 이야기를 쓰는 작가와 비슷합니다.


생성형 AI의 환각 문제 해결 사례

위에서도 언급했지만 이야기를 만들어내거나 대화를 하는 생성형 AI는 때로는 존재하지 않는 사실을 만들어내거나 잘못된 정보를 제공하는 '환각' 문제를 겪을 수 있습니다. RAG 기술을 사용하면 이 문제를 해결할 수 있는데, 이는 AI가 답변을 만들기 전에 실제 데이터나 정보를 기반으로 검색을 하기 때문입니다.

예를 들어, AI에게 "지구 온난화의 영향"에 대해 물었을 때, AI가 과거에 학습한 데이터만을 기반으로 답변하는 대신, 최신의 연구 보고서나 기사 등에서 정보를 검색해 정확하고 현재의 상황을 반영한 답변을 제공할 수 있습니다. 이는 마치 최신의 연구 결과나 뉴스를 찾아 읽고, 그 정보를 바탕으로 지식을 전달하는 전문가와 같은 역할을 하게 만듭니다.

 

RAG와 파인튜닝 비교

RAG는 환각 현상의 해결방안 중 하나인 파인튜닝에 비해 이점이 있습니다. 파인튜닝은 AI에 특정 분야에 대한 데이터를 추가로 훈련시켜서 특정 분야에 대한 전문성을 높여 정확도를 높이는 기술입니다. 그러나 이런 추가적인 훈련을 위해 막대한 데이터 학습 비용이 들어갈 뿐만 아니라 해당 분야의 발전에 따라 지속적으로 업데이트를 해주는 부담이 큽니다.

 

반면, RAG는 검색 기능을 통해 AI가 답변을 생성하기 전 외부의 신뢰할 수 있는 데이터를 참조해서 답변의 정확성을 높이는 방식이기 때문에 훈련 부담이 없고 모델 자체를 업데이트할 필요가 없습니다. 모델 자체의 전문성은 다소 떨어지지만 답변을 전문적인 외부 자료로 한 번 더 체크하기 때문에 환각 현상을 줄이는데 도움을 주는 것이죠.

 

RAG 기술을 적용한 서비스들이 속속 등장하면서 생성형 AI의 신뢰도도 조금 더 올라가고 있습니다. 신뢰성은 AI 기술이 일상화되기 위한 가장 중요한 체크포인트인 만큼 RAG 기술에 대한 기대가 높을 수밖에 없겠네요.

  

반응형