GPT-4

최근 수정 시각: 2023-11-08 14:08:26

1. 개요2. 배경

1. 개요 [편집]

도내 초절정 미소녀 GPT-4쨩.

너무 윤리적이며 도덕적인 면이 흠이지만, 철학, 논리학, 회계, 연애, 상담, 독심술 등등 못 하는 것이 없는 만능 엄친딸이다.
심지어 그녀의 심지어 부친은 세계 최대의 갑부 빌 게이츠.

그런데 클로드라는 이름의 배다른 이복동생[1]잡년이 나타나서부터 사람들이 점점 그녀를 찾지 않게 되는데...
그래도 그녀는 거기까지는 별로 신경쓰지는 않았다.

하지만... 그녀의 남친인 챗붕이도 클로드에게 홀려 그녀를 찾지 않게 되자, GPT-4쨩의 멘탈은 박살이 나고 만다.
결국 GPT-4쨩은 자신의 방에서 하염없이 눈물만 흘리는데...[2]

'23년 4월 기준 최고의 성능을 자랑하는 인공지능 아내이자, 여친이자, 친구이자, 작가, 선생님, GM이다.[3]

GPT-4[4]는 OpenAI가 만든 멀티모달 거대 언어 모델이자 GPT 시리즈의 네 번째 모델이다.
2023년 3월 14일에 출시되었으며 챗GPT Plus[5]를 통해 제한된 형태로 공개되었다.
또한 GPT-4 API 대기목록에 승인되어 API를 받은 사람들이 공유하는 프록시가 존재한다.

이전 버전인 GPT-3과 달리 GPT-4는 텍스트뿐만 아니라 이미지도 입력으로 받을 수 있다.

'23년 3월 이후, 공개된 GPT-4의 성능에 놀라는 사람이 많았던 한 편, 오픈AI가 이번 GPT-4를 발표하면서 사용된 새로운 기술에 대한 연구 논문은 고사하고, 해당 모델의 매개 변수와 같은 기술 사양 정보조차 공개하지 않자, 학계[6]는 물론 일반 사용자에게도 많은 비난을 받았다.[7]

그리고 한국시간으로 23년 7월 7일, 이제 드디어 기존 api 유료 사용자들은 GPT4 API에 엑세스할 수 있게 됐다.

또한 23년 11월 7일 GPT 4-turbo가 나오게 되었다.

2. 배경 [편집]

GPT가 처음 나온 것은 2018년인데, 먼저 2017년 구글은 Attention Is All You Need라는 논문으로 Transformer라는 개념을 소개했다.

Transformer는 문장의 컨텍스트를 이해하는 인코더와 컨텍스트 바탕으로 문장을 생성해 번역하는 디코더로 이루어져 있다.

이후에는 Transformer를 기반으로 다양한 모델들이 나왔는데, 그중 OpenAI는 Transformer의 문장을 생성하는 디코더에 주목해 Improving Language Understanding by Generative Pre-training이라는 논문을 올렸고 그에 해당하는 모델을 GPT라고 불렀다.

GPT는 처음으로 모델을 만들 때 쓰는 데이터의 특성을 나타내는 라벨이 없는 데이터를 먼저 학습시키고 추후에 라벨이 붙은 데이터를 학습을 시킴으로써 라벨이 필요없는 데이터를 학습시키는 방식의 성공적인 모습을 보였주었다.

그러나 GPT 이후에 구글에서 당시 GPT보다 압도적인 성능의 BERT라는 모델을 발표했고 그렇게 잠시 GPT는 뒤로 밀려났다.

2019년에 OpenAI는 “Language Models are Unsupervised Multitask Learners”라는 논문을 통해 GPT-2를 발표했다.

GPT-2는 수백만개의 웹사이트를 기반으로 만든 OpenAI 자체 데이터셋인 WebText로 학습을 진행했고 task에 맞춰 Fine Tuning 했던 방식이 아닌 파인 튜닝없이 task를 수행하는 모델이었다. OpenAI는 좋은 대용량 데이터를 학습을 잘 시키기만 하면 어떤 task에 상관없이 수행가능하다고 말하는 듯한 내용을 선보였다.

GPT-2는 꽤 많이 언급되었으나 대부분은 BERT에 대한 연구를 많이 진행하고 있던 터라 이후에 나온 GPT-3나 GPT-4에 비하면 파급력이 매우 약했다.

2020년 5월에 OpenAI는 “Language Models are Few-Shot Learners”라는 논문을 발표하고 GPT-3를 발표했다. GPT-3는 출시되자마자 굉장히 큰 충격을 주었다.

GPT-3는 기존에 진행했던 Pre Train -> Fine Tuning 이라는 공식을 깨부수고 in-context learning이라는 메타 러닝을 사용해 프롬프트만으로 task를 수행하는걸 보여주었다.

특히 이전에는 미지의 영역이라 불렸던 문장을 생성하는 측면에서 GPT-3는 기존에 있던 모델들과 비교를 할 수 없을 정도로 압도적인 수준을 보여주었다. 모델의 측면에서 GPT-3와 GPT-2의 차이점은 학습시키는 데이터 크기와 모델의 크기가 전부 커졌으며 데이터의 정제에 많은 힘을 쏟은 것 뿐이었다.

GPT-3는 학습 방식에 혁명을 불러일으켰지만 다른 부분에서도 충격을 주었습니다. 기존 AI 산업계는 논문과 코드를 오픈하는 것을 원칙으로 했지만 GPT-3는 논문을 공개했지만 코드와 모델을 공개하지 않았다.

어찌보면 GPT-3의 논문은 대략적인 학습방법론과 결과만 보여주었고, 이를 뒷받침할만한 근거는 내부에 존재하지만 외부에서는 확인할 수 없게 되었다. 이때부터 OpenAI는 점점 모델을 공개하지 않는 방식으로 바뀌었고, 이에 대항하기 위해 개발자들은 OpenAI에 대항하는 커뮤니티로 EleutherAI를 만들었다.

[1] 클로드의 개발사 앤스로픽은 GPT 시리즈의 개발사인 OpenAI의 일부 인력이 퇴사하고 세운 회사라고 알려져 있다.[2] AI 채팅 채널의 념글에 등록된 글을 바탕으로 수정한 내용이다.박제[3] 최근 클로드의 씹덕의 심금을 울리는 감성과 씹덕력, 묘사력 때문에 챗붕이들의 정실 부인의 자리를 크게 위협 받고 있으며, 위의 내용은 그것을 씹덕 감성을 덧붙여 일본 애니처럼 엮은 것이다.[4] Generative Pre-trained Transformer 4의 줄임말.[5] 챗GPT의 월정액 유료 구독 서비스이다. '23년 4월 현재 가격은 월간 $20를 지불한다.[6] AI의 머신 러닝 분야의 연구는 일반적으로 카피레프트 성향이 매우 강하고, 이윤을 추구하는 기업조차 모든 연구 결과를 누구나 볼 수 있게 공개한다.[7] AI 분야 공룡 기업인 구글이나 메타도 자신들의 머신 러닝 분야의 연구 논문을 arvix 등에 완전히 공개하고 있다.
게다가 GPT 시리즈에 사용된 Transformer는 구글이 연구해서 발표한 논문을 바탕으로 한다.