상세 컨텐츠

본문 제목

[인공지능] 대규모언어모델(LLM) 정리 (2023.11 기준)

초심자를 위한 AI

by GAI.T & a.k.a Chonkko 2023. 11. 30. 03:06

본문

요즘 생성형 AI 관련 기사들을 보다보면 자주 보이는 GPT, 람다, 팜 등 LLM 모델들을 잘 정리해둔 기사(IT World)가 있어서 독자분들께 도움이 될 까 싶어 한 번 간단히 표로 정리해보았습니다. 

 

처음 보시는 분들을 위해 간단히 설명을 붙이자면, 우리가 제일 많이 듣는 오픈AI의 챗GPT나 MS의 뉴 빙(New Being), 구글의 바드(Bard)는 생성형 AI에 기반한 챗봇 서비스입니다. 이러한 챗봇 서비스는 소위 대규모언어모델(Large Language Model, LLM)이라고 하는 생성형 AI 모델에 챗팅에 적합한 옷을 입혀 놓은 일종의 앱 같은 것이죠. 

 

그렇기 때문에 어떤 챗봇 서비스를 이용하는게 좋을까라는 질문은 사실 어떤 LLM이 더 내가 원하는 답변을 잘 만들어줄 수 있을까라는 질문이나 마찬가지입니다. 

 

LLM을 설명하자면 조금 복잡합니다만, 우선은 딥러닝 신경망 구조가 있고, 엄청난 양의 말뭉치 데이터가 있고, 그리고 신경망에 가중치를 주는데 사용하는 매개변수(파라미터)가 있다는 정도만 이해해두면 좋겠습니다. 신경망이 겹겹이 쌓여있는 구조를 한 단어가 통과한다고 생각해보죠. 그 단어가 신경망 구조 하나하나를 통과할 때마다 매개변수의 안내(가중치)를 받아 다음 신경망의 특정 장소로 이동하고 그런 작업을 쭉 거쳐 마지막 신경망을 빠져나올 때 거기에 어떤 단어가 있는지가 우리 관심사랍니다.  매개변수가 많을 수록 더욱 정교하고 실제와 가까운 단어가 짝을 맞춰 나오겠지요. 이게 실제와 다르면 다시 이 과정을 반복해서 가중치를 계속 조정해나가는 과정이 학습이라고 보면 무리가 없을 것 같습니다. 

 

개발사 언어모델 출시연도 매개변수 특 징
오픈 AI GPT 2018 11,700만개 토론토 북 코퍼스를 사용해 사전 학습된 단방향 트랜스포머
인과적 언어 모델링(CLM) 목표에 따라, 시퀀스의 다음 토큰을 예측하도록 학습
GPT-2 2019 15억개 최대 40GB의 텍스트 데이터 포함 웹페이지 800만개 데이터 집합 사용 학습
GPT-3 2020 1,750억개 자동회기언어모델
필터링된 버전의 커먼크롤과 웹텍스트2, 1(Books1), 2(Books2), 위키피디아 (영어) 조합 학습
환각 문제 발생
CODEX 2021   GPT-3 파생 모델
코드 생성을 위해 5,400만 개의 오픈소스 깃허브 리포지토리로 미세 조정
깃허브 코파일럿에 사용
GPT-3.5
(GPT,
MS GPT)
2022   GPT-3CODEX2022년 업데이트 집합
2021.9월 기준 지식 학습
GPT-4
(GPT 플러스)
2023 매개변수 비공개 일부 전문 및 학술 벤치마크에서 인간 수준의 성능을 발휘하는 2023년 대규모 멀티모달 모델(이미지와 텍스트 입력을 받아서 텍스트 출력을 생성)
매개변수 비공개로 편향성 우려 높음
2022.1월 기준 지식 학습
입력가능 질문양 3천 단어
GPT-4 터보
(GPT
플러스)
2023 매개변수 비공개 2023.4월 기준 지식 학습
입력가능 질문양 10만 단어(300페이지 분량)
확장된 멀티모달 기능 제공
구글 람다
(LaMDA)
2021   트랜스포머 기반 언어 모델
대화를 통해 학습되며 응답의 분별력과 구체성을 대폭 개선하도록 미세 조정
사람의 대화에서 흔히 발생하는 주제 표류에 대처 가능

(PaLM)
2022 5,400억개 고밀도 디코더 전용 트랜스포머 모델
패스웨이 시스템 사용 학습
고품질 웹문서, 서적, 위키피디아, 대화, 깃허브 코드 포함 여러 영어 및 다국어데이터 집합의 조합 사용 학습
바드(Bard) 2023
3월
  람다 기반 대화형 AI 서비스
20개 프로그래밍 언어로 코드 생성
40가지 인간 언어입력에 대한 지원
40가지 이상 언어 사용 TTS 기능
메타
AI
라마
(LLaMA)
2023
2월
기반 모델은 650억개 학습
여러 크기로 출시
원시대규모 언어모델
레이블 없는 대량의 데이터 집합으로 학습되어 미세 조정에 이상적
출시는 여러 크기로 되며 구축 방법이 담긴 모델카드 제공
라마2
(LLaMA2)
2023
7월
70, 130, 700억개 등 여러 크기로 제공 라마1 대비 40% 더 많은 데이터 학습 (공개 사용가능 소스에서 2조개 토큰 사용)
최적화된 트랜스포머 아키텍처 사용 자동회귀언어모델
지도미세조정과 강화학습으로 조정

앤트로픽
(Anthropic)
클로드2 2023
7월
  최대 10만개 토큰(7만 단어)을 단일 프롬프트로 수락
수천 토큰 스토리 생성 가능
HHH(Helpful, Honest, Harmless) 모델로 학습해 무해성 강화
구조적 데이터를 편집, 재작성, 요약, 분류, 추출 가능
인터넷 텍스트 제공해서 작업 수행 요청 가능
미국, 영국 사용자 무료 제공
재스퍼, 소스그래프 코디, 아마존 베드록 등 채택

 

토종 LLM 모델도 다음에 따로 추가해서 정리를 해봐야겠습니다. 

반응형

관련글 더보기