상세 컨텐츠

본문 제목

[생성AI] 생성AI 기초(9): 텍스트 생성(Text Generation)이란?

초심자를 위한 AI/AI가 뭔가요?

by GAI.T & a.k.a Chonkko 2023. 5. 11. 19:58

본문

생성형 AI의 여러 분야 중 먼저 대중들의 시선을 끈 분야는 이미지 생성입니다. 그러나 2022년말 Open AI가 개발한 챗GPT야말로 본격적으로 생성형 AI가 우리 앞에 도래했음을 알리는 기폭제가 되었지요. 바로  챗GPT의 기반이 되는 기술이 바로 텍스트 생성(text generation) 즉 문자 생성입니다.

 

타자기를 치는 로봇

사실 인류의 역사는 처음에는 언어가 그리고 한참 뒤 문자가 발명되면서 각각 급격한 성장을 이루었습니다. 문자, 즉 텍스트는 인류 역사의 근간이죠. 이는 아마 인공지능에게도 마찬가지입니다. 인공지능이 단순히 0과 1로 이루어진 프로그램언어가 아니라 인간이 쓰고 있는 텍스트를 이해하고 나아가 생성해내기 시작했다는 것의 의미는 단순하지 않습니다. 먼 미래에 인공지능의 역사를 기술할 때, AI가 사람의 언어를 이해하고 구사하기 시작했다는 사실은 분명 큰 획으로 기록될 것 같습니다.

 

쉽게 말해 텍스트 생성은 인공지능이 기존의 텍스트로부터 새로운 텍스트를 생성하는 프로세스입니다. 뉴스 기사, 시, 코드, 스크립트, 음악, 이메일, 편지 등과 같은 텍스트 생성을 다루는 자연어 처리(NLP)의 하위 분야라고 보면 됩니다. 텍스트 생성은 단순한 텍스트 요약, 언어 번역 등에서 부터 논문 개요나 보고서, 이메일 작성, 심지어 시나 코드, 작사 같은 창의적인 콘텐츠 생성까지  다양한 용도로 사용할 수 있습니다.


생성형 AI에서 텍스트 생성이 작동하는 방식


생성형 AI의 텍스트 생성은 대규모 텍스트 데이터를 미리 학습한 머신러닝 모델을 사용하여 새로운 텍스트를 생성하는 프로세스입니다. 이 모델은 단어와 구문 사이의 통계적 관계를 학습한 다음 이 지식을 사용하여 학습 데이터와 유사한 새로운 텍스트를 생성합니다.


텍스트 생성 모델에는 크게 두 가지 유형이 있습니다:


Seq2Seq 모델: Seq2Seq 모델은 텍스트 시퀀스를 생성하도록 학습된 순환 신경망(RNN)의 한 유형입니다. 일반적으로 기계 번역 및 요약과 같은 작업에 사용됩니다.


생성적 적대 신경망(GAN): GAN은 서로 경쟁하도록 학습된 신경망의 일종입니다. 한 네트워크인 생성기는 새로운 텍스트를 생성하고 다른 네트워크인 판별기는 실제 텍스트와 가짜 텍스트를 구별하는 역할을 담당합니다. 생성기가 사실적인 텍스트를 생성하는 능력을 향상시키면 판별기는 가짜 텍스트를 식별하는 능력이 향상되어 시간이 지남에 따라 두 네트워크가 모두 개선되는 피드백 루프가 발생합니다.


텍스트 생성의 활용


위에서 언급한 것 처럼 텍스트 생성은 다양한 용도로 사용할 수 있습니다. 가장 일반적으로 응용되는 분야는 다음과 같습니다:


챗봇 :

챗봇은 인간 사용자와의 대화를 시뮬레이션하도록 설계된 컴퓨터 프로그램입니다. 많은 회사들이 고객의 질문에 답하고 지원을 제공하는 고객 서비스 어플리케이션으로 채택하고 있고 구글이나 MS의 검색봇으로도 사용됩니다. 텍스트 생성은 보다 자연스럽고 대화에 몰입할 수 있는 챗봇을 만드는 데 사용할 수 있다보니 가상 친구 서비스 등에도 많이 적용되는 추세입니다.

언어 번역 : 

언어 번역은 텍스트를 한 언어에서 다른 언어로 변환하는 프로세스입니다. 사실 번역은 모델이 소스 언어로 된 텍스트의 의미를 이해한 다음 동일한 의미를 전달하는 대상 언어로 텍스트를 생성해야 하기 때문에 어려운 작업입니다. 그러나 최근 번역 AI의 수준을 보면 왠만한 초벌 번역 수준은 넘어서고 있는 것 같습니다. 텍스트 생성은 보다 정확하고 효율적인 언어 번역 모델을 만드는 데 사용할 수 있습니다.

요약 :

요약은 긴 텍스트를 더 짧고 간결한 버전으로 줄이는 프로세스입니다. 뉴스 집계나 연구와 같은 많은 분야에서 매우 유용한 작업입니다. 복잡한 내용의 기사글 링크를 알려주면 짧게 핵심만 요약할 수도 있습니다. 글은 넘쳐나고 읽을 시간은 부족한 요즘 세상에 딱 필요한 기능이 아닐까 싶네요.

크리에이티브 콘텐츠 :

사실 텍스트 생성과 관련해서 가장 논란이 많으면서도 인간을 위협하는 분야가 창작입니다. 시, 코드, 스크립트, 음악, 이메일, 편지 등과 같은 다양한 창작 콘텐츠를 만드는 데 AI가 인간 못지않다는 사실에 많은 사람들은 충격을 받았습니다. 그도 그럴 것이 인공지능이 발전해도 인간의 창의성 만큼은 따라잡지 못할거라고 위안해온 것이 사실이기 때문이죠. 그러나 사실 모방은 창조의 어머니라는 말을 듣고 살아온게 바로 우리 사람입니다. 대규모 언어 데이터에는 수많은 인간의 창작물이 들어있고 AI는 이를 모방하는 것인데 우리도 학교에서 그렇게 배우지 않나요? 

 

결론

 

기계가 말을 잘듣게 하기 위한 과학자들의 노력이 어느정도 결실을 얻어 이제 기계는 텍스트를 생성할 수 있는 인공지능을 장착하기 시작했습니다. 언어는 지구상에서 인간만의 전유물이자 정체성의 근원을 이루었지만 더이상은 아닌 듯 합니다.

 

아직은 사람이 써내는 것 처럼 자연스럽고 우아한 수준에는 이르지 못한게 사실입니다만, 텍스트 생성은 다양한 용도로 사용할 수 있는 도구이고 매우 빠른 속도로 발전하고 있는 기술임에는 틀림없습니다.

반응형

관련글 더보기