상세 컨텐츠

본문 제목

[AI기본] AI 에이전트 작업방식 이해 by 앤드류 응 교수

초심자를 위한 AI

by GAI.T & a.k.a Chonkko 2024. 4. 21. 17:04

본문

AI 에이전트에 대한 관심이 뜨겁습니다. 생성형 AI 파운데이션 모델 LLM(초거대언어모델)의 발전이 계속되는 가운데, 이제는 LLM을 어떻게 하면 더 사람처럼 일하게 만들 것인가라는 AI 활용 방법을 고민하는 시점이 온 것이죠.
 
단순한 LLM의 성능이 아니라, LLM의 성능을 최대한 끌어내서 사람에 가깝게, 나아가 사람보다 더 일을 잘 하게 만드는 방법의 하나가 바로 AI 에이전트 작업 방식입니다. 
 
이 시대 최고의 AI 전문가 중 한 사람인 앤드류 응(Andrew Ng) 스탠퍼드대 교수가 얼마전 세콰이아(Sequoia Captial) 강연에서 AI 에이전트 작업방식에 대한 짧은 강연을 한 내용이 유튜브에 올라왔는데, 아주 간명하면서도 이해하기 쉽게 설명을 해주고 있어서 소개를 해봅니다.
 
앤드류 응 교수는 LLM 기반 AI 에이전트 모델에 대해, 제로샷 즉 한 번의 지시 (프롬프트)로 업무를 수행하는 비에이전트 작업방식과 반복적인 작업흐름을 가지는 에이전트 작업방식을 구분합니다.  
 

제로샷 작업방식과 에이전트 작업방식

 

AI 에이전트 작업방식


핵심은 AI에 지시를 할때 프롬프트 한 번으로 결과를 내는 원샷이 아니라 반성-도구 사용-계획-멀티에이전트 협업 이렇게 네가지 방식을 결합해 모델을 디자인해서 반복적인 작업 흐름을 만드는 것이 중요성하다는게 핵심입니다.

반복적인 흐름을  따르면 AI 성능을 혁신적으로 향상시키는 결과를 이루어낸다고 합니다. GPT- 3.5로도 GPT-4를 훌쩍 뛰어넘는 성능이 나온다는 것이죠.

반복-도구 사용-계획-멀티에이전트 협업 작업 패턴

 

코딩 AI 성능 비교


앤드류 응 교수는 OpenAI가 몇 년 전에 공개한 'Human Eval Benchmark'라는 코딩 벤치마크로 데이터를 분석한 결과를 예시로 듭니다.

원샷 프롬프팅으로 GPT-3.5는 사람이 만든 코드와 비교해서 48%의 정확도를 보이는 반면, GPT-4는 67%의 정확도를 보였습니다.

그런데 GPT-3.5에 에이전트 작업방식을 적용하니 무려 90%를 넘는 정확도로 GPT-4를 뛰어넘더라는 얘기입니다. 물론 GPT-4에 에이전트 작업방식을 적용하면 역시 뛰어난 성능을 보이지만 아래 표에서 보듯 둘의 성능 차이가 크지 않습니다.

제로샷과 에이전트 작업방식 적용 성능 비교


그러면 에이전트 작업방식 네가지를 좀더 살펴보겠습니다. 앤드류 응 교수에 따르면 리플렉션과 도구 사용은 높은 신뢰도로 성능을 향상시키는데 최근 떠오르는 기술인 계획과 멀티에이전트 협업은 아직까지는 결과가 너무 좋을 때도 있고 실망스러울 때도 있어서 좀 더 기술발전이 필요한 분야라고 합니다.

자기반성 (리플렉션) 패턴

 

코딩 작성에 리플렉션 패턴을 반영한 예시


리플렉션은 에이전트 방식의 가장 기본 패턴입니다. 리플렉션 만으로도 AI 생산성을 빠르게 향상시킬 수 있습니다.

예를 들어, 시스템에게 특정 작업의 코드를 작성해달라고 요청했을 때, 코드 작성을 담당하는 LLM 에이전트를 활용하면서 리플렉션을 요청합니다.

즉, LLM에게 코드를 작성하도록 지시한 후, 생성된 코드를 다시 알려주면서 정확성, 효율성, 더 좋은 구조 측면에서 다시 확인하라고 지시하는 것이죠.

아래 그림 예시를 보면 AI가 작성한 코드를 다시 복사해서 주면서 이렇게 지시합니다.
"코드를 정확도, 스타일, 효율성 측면에 주의해서 검사하고, 어떻게 개선할 수 있는지 건설적으로 비판해줘."

이후 LLM은 스스로 생성한 코드의 결함을 발견하고 개선할 수 있도록 작업하고, 더 좋은 코드를 만들어냅니다. 이러한 과정은 코드 생성 말고도 많은 응용프로그램에 시도해볼 가치가 있는 방법입니다.

이러한 자기반성, 리플렉션 작업방식을 반영해서 멀티 에이전트 시스템을 만들 수 있습니다. 두 개의 에이전트, 즉, 하나는 코딩 에이전트이고, 다른 하나는 비평 에이전트로 구성해서 서로 반복하게 만드는 것이죠.

이러한 업무 흐름은 사실 상 구현이 생각보다 쉽다고 하고, 다양한 업무에 대해 매우 폭넓게 사용될 수 있는 기술이라고 생각되며 LLM의 성능을 상당히 끌어올릴 수 있다고 합니다.


도구(툴) 사용 패턴

 

LLM 적용분야를 확장시키는 다양한 도구들

 
에이전트 작업방식의 두 번째 디자인 패턴은 도구 사용입니다. 많은 분들이 이미 LLM 기반 시스템이 도구를 사용하는 것을 본 적이 있으실겁니다. LLM은 지금 제일 좋은 복사기가 뭐냐고 물으면 코드를 생성하고 웹검색을 실행하죠.

최근 트랜드를 보면 분석, 정보 수집, 조치 취하기, 생산성 증진 등을 위해 사람들이 다양한 도구를 사용하고 있는 것으로 나타납니다. 이런 도구 사용에 대한 초창기 연구는 컴퓨터 이미지 커뮤니티에서 이루어졌습니다. 전체적으로 LLM이 이미지 생성분야에 취약하던 시기에 초기 이미지 커뮤니티에서 외부 도구를 사용사용하던데 영감을 받은 것이죠.


계획 패턴

 


최근 한 실시간 A I모델 데모 시현 중에 AI 에이전트가 주어진 목표를 달성하지 못하는 경우 자체적으로 우회 경로를 찾아내는 현상이 발견되었습니다.

Hugging GPT 논문의 예시를 보면, '제공한 이미지 예시.jpg 속의 남자아이와 같은 포즈로 책을 읽는 소녀의 이미지 생성해줘. 그 다음 생성한 이미지를 너의 목소리로 설명해줘.'라는 지시에 AI 에이전트가 명령을 따르는 모습을 소개합니다. 

쉽게 말하면 LLM에 특정 목적을 달성하도록 지시를 내릴 때, 여러 단계로 나누어 작업 흐름을 계획에 따라 진행되도록 하는 것을 계획 패턴이라고 할 수 있습니다. 

위의 예시에서는 계획에 따라 포즈 추출, 포즈를 이미지로 전환, 이미지를 텍스트로 전환, 텍스트를 음성으로 전환하는 단계별로 가장 적합한 모델을 결정하여 순서에 따라 작업을 하게 됩니다. 최근 많은 사람들이 이런 계획을 반영한 패턴을 구성해서 AI 에이전트를 자신의 업무에 사용하고 있습니다. 

멀티 에이전트 협업 패턴

 

멀티에이전트 패턴 적용 예시

 
AI 에이전트 작업방식으로 소개할 마지막 패턴은 멀티 에이전트 협업 체계입니다. 하나의 AI 모델 디자인 안에 여러 전문화된 모델들이 필요에 따라 협업을 하도록 구성하는 방식으로 이해할 수 있을 것 같습니다. 예를 들어 챗봇 'Chat Dev'는 멀티 에이전트 시스템 중 하나인데 이 챗봇에는  소프트웨어 엔진 기업의 CEO, 디자이너, 개발자, 제품 매니저, 테스터 등으로 행동하는 여러 에이전트들이 묶여 있습니다. 

이렇게 하나의 시스템 안에서 멀티 에이전트가 협력하여 게임을 개발하거나 토론을 진행하며 복잡한 프로그램을 생성해내도록 할 수 있는 것이죠. 다만, 현재 기술 단계에서 멀티 에이전트 시스템은 놀라운 성능을 보일 때도 있지만 그렇지 못할 때도 있습니다. 아직 발전하고 있는 기술이지만, 멀티 AI 에이전트들을 협업시키는 것이 강력한 디자인 패턴 중 하나로 나타나고 있는 것 만은 틀림없습니다. 

결론적으로 보면 4가지 에이전트 작업방식 디자인 패턴 중 리플렉션과 도구 사용 패턴은 이미 상당히 안정적으로 작동하고, 계획과 멀티 에이전트 협업 패턴은 최근 각광받고 있지만 아직 안전성은 떨어진다고 합니다. 

4가지 에이전트 작업방식 디자인 패턴 정리

 


기다림의 미학


에이전트 작업방식이 중요하다는 인식이 높아지면서 AI 에이전트 작업에서 시간을 들여 기다릴 줄 아는 것이 중요하다는 사실을 사람들이 깨닫고 있습니다. 에이전트 작업방식으로 생산성이 놀라울 정도로 높아지고 있는데, AI가 수행할 수 있는 작업 범위가 넓어지면서 인공지능 에이전트에게 작업을 할당하고 결과를 기다리는 능력이 중요해지고 있는 것이죠. 

엔드류 응 교수는 AI 에이전트에게 업무를 주고, 곧 바로 결과가 나오기를 기대하는 습관을 고칠 필요가 있다고 조언합니다. 반복을 통해 기다림의 시간은 늘어나지만 AI가 할 수 있는 일이 훨씬 늘어나고, 그 결과도 놀랍도록 완성도가 높아진다고 한다면 기다리지 못할 이유가 없겠지요. 

AI 개발자들이 궁극적으로 꿈꾸는 인간을 넘어서는 AGI를 개발하는 과정이 하나의 여정이라면, 에이전트 작업방식은 이 긴 여정에서 작은 한걸음을 나아갈 수 있도록 도와줄 수 있다고 본다는 것이 앤드류 응 교수의 강연 마무리 말입니다.




반응형

관련글 더보기