[인공지능] 대규모언어모델(LLM) 정리 (2023.11 기준)

요즘 생성형 AI 관련 기사들을 보다보면 자주 보이는 GPT, 람다, 팜 등 LLM 모델들을 잘 정리해둔 기사(IT World)가 있어서 독자분들께 도움이 될 까 싶어 한 번 간단히 표로 정리해보았습니다.

처음 보시는 분들을 위해 간단히 설명을 붙이자면, 우리가 제일 많이 듣는 오픈AI의 챗GPT나 MS의 뉴 빙(New Being), 구글의 바드(Bard)는 생성형 AI에 기반한 챗봇 서비스입니다. 이러한 챗봇 서비스는 소위 대규모언어모델(Large Language Model, LLM)이라고 하는 생성형 AI 모델에 챗팅에 적합한 옷을 입혀 놓은 일종의 앱 같은 것이죠.

그렇기 때문에 어떤 챗봇 서비스를 이용하는게 좋을까라는 질문은 사실 어떤 LLM이 더 내가 원하는 답변을 잘 만들어줄 수 있을까라는 질문이나 마찬가지입니다.

LLM을 설명하자면 조금 복잡합니다만, 우선은 딥러닝 신경망 구조가 있고, 엄청난 양의 말뭉치 데이터가 있고, 그리고 신경망에 가중치를 주는데 사용하는 매개변수(파라미터)가 있다는 정도만 이해해두면 좋겠습니다. 신경망이 겹겹이 쌓여있는 구조를 한 단어가 통과한다고 생각해보죠. 그 단어가 신경망 구조 하나하나를 통과할 때마다 매개변수의 안내(가중치)를 받아 다음 신경망의 특정 장소로 이동하고 그런 작업을 쭉 거쳐 마지막 신경망을 빠져나올 때 거기에 어떤 단어가 있는지가 우리 관심사랍니다. 매개변수가 많을 수록 더욱 정교하고 실제와 가까운 단어가 짝을 맞춰 나오겠지요. 이게 실제와 다르면 다시 이 과정을 반복해서 가중치를 계속 조정해나가는 과정이 학습이라고 보면 무리가 없을 것 같습니다.

개발사	언어모델	출시연도	매개변수	특 징
오픈 AI	GPT	2018	약 1억1,700만개	토론토 북 코퍼스를 사용해 사전 학습된 단방향 트랜스포머 인과적 언어 모델링(CLM) 목표에 따라, 시퀀스의 다음 토큰을 예측하도록 학습
	GPT-2	2019	약 15억개	최대 40GB의 텍스트 데이터 포함 웹페이지 800만개 데이터 집합 사용 학습
	GPT-3	2020	약 1,750억개	자동회기언어모델 필터링된 버전의 커먼크롤과 웹텍스트2, 북1(Books1), 북2(Books2), 위키피디아 (영어) 조합 학습 환각 문제 발생
	CODEX	2021		GPT-3 파생 모델 코드 생성을 위해 5,400만 개의 오픈소스 깃허브 리포지토리로 미세 조정 깃허브 코파일럿에 사용
	GPT-3.5 (챗GPT, MS 빙GPT)	2022		GPT-3와 CODEX의 2022년 업데이트 집합 2021.9월 기준 지식 학습
	GPT-4 (챗GPT 플러스)	2023	매개변수 비공개	일부 전문 및 학술 벤치마크에서 인간 수준의 성능을 발휘하는 2023년 대규모 멀티모달 모델(이미지와 텍스트 입력을 받아서 텍스트 출력을 생성) 매개변수 비공개로 편향성 우려 높음 2022.1월 기준 지식 학습 입력가능 질문양 3천 단어
	GPT-4 터보 (챗GPT 플러스)	2023	매개변수 비공개	2023.4월 기준 지식 학습 입력가능 질문양 10만 단어(책 300페이지 분량) 확장된 멀티모달 기능 제공
구글	람다 (LaMDA)	2021		트랜스포머 기반 언어 모델 대화를 통해 학습되며 응답의 분별력과 구체성을 대폭 개선하도록 미세 조정 사람의 대화에서 흔히 발생하는 주제 표류에 대처 가능
	팜 (PaLM)	2022	약 5,400억개	고밀도 디코더 전용 트랜스포머 모델 패스웨이 시스템 사용 학습 고품질 웹문서, 서적, 위키피디아, 대화, 깃허브 코드 포함 여러 영어 및 다국어데이터 집합의 조합 사용 학습
	바드(Bard)	2023 3월		람다 기반 대화형 AI 서비스 20개 프로그래밍 언어로 코드 생성 40가지 인간 언어입력에 대한 지원 40가지 이상 언어 사용 TTS 기능
메타 AI	라마 (LLaMA)	2023 2월	기반 모델은 650억개 학습 여러 크기로 출시	“원시”대규모 언어모델 레이블 없는 대량의 데이터 집합으로 학습되어 미세 조정에 이상적 출시는 여러 크기로 되며 구축 방법이 담긴 모델카드 제공
메타 AI	라마2 (LLaMA2)	2023 7월	70억, 130억, 700억개 등 여러 크기로 제공	라마1 대비 40% 더 많은 데이터 학습 (공개 사용가능 소스에서 2조개 토큰 사용) 최적화된 트랜스포머 아키텍처 사용 자동회귀언어모델 지도미세조정과 강화학습으로 조정
앤트로픽 (Anthropic)	클로드2	2023 7월		최대 10만개 토큰(약 7만 단어)을 단일 프롬프트로 수락 수천 토큰 스토리 생성 가능 HHH(Helpful, Honest, Harmless) 모델로 학습해 무해성 강화 구조적 데이터를 편집, 재작성, 요약, 분류, 추출 가능 인터넷 텍스트 제공해서 작업 수행 요청 가능 미국, 영국 사용자 무료 제공 재스퍼, 소스그래프 코디, 아마존 베드록 등 채택

토종 LLM 모델도 다음에 따로 추가해서 정리를 해봐야겠습니다.

저작자표시 비영리 변경금지

'초심자를 위한 AI' 카테고리의 다른 글

그저 실용적인 인공지능 상식 용어 사전 (1) (0)	2024.01.31
그저 실용적인 인공지능 상식 용어 사전 (목차) (2)	2024.01.29
[Lilys AI] 몰래 쓰는 일잘러 AI앱 10개 추천 by 김덕진 소장 (1)	2023.11.29
가상의 반려동물을 현실에서 키워본다: 모바일 게임 페리도트(Peridot) (1)	2023.05.11
생성형 AI 활용 프로젝트 분야별 순위 (2023년 5월 기준) (0)	2023.05.03

글래스 비드 게임

[인공지능] 대규모언어모델(LLM) 정리 (2023.11 기준)

'초심자를 위한 AI' 카테고리의 다른 글

티스토리툴바

[인공지능] 대규모언어모델(LLM) 정리 (2023.11 기준)

'초심자를 위한 AI' 카테고리의 다른 글

관련글

티스토리툴바