OpenAI가 GPT-4.5를 테스트하고 있나요? "gpt2-chatbot"은 GPT-4 및 Claude보다 더 나은 코드를 작성합니다.

https://the-decoder.com/is-openai-testing-gpt-4-5-gpt2-chatbot-writes-better-code-than-gpt-4-and-claude/

"gpt2-chatbot"이라는 강력한 새 AI 모델이 GPT-4 수준 또는 그 이상의 기능을 보여줍니다.

"gpt2-chatbot"이라는 이 모델은 AI 언어 모델을 비교하는 웹사이트인 LMSYS Org 챗봇 아레나에 별다른 홍보 없이 등장했습니다. 하지만 그 성능은 테스터들의 관심을 단숨에 사로잡았습니다.

출시 당시부터 LMSYS에서 이 모델을 추적해 온 스탠포드 대학의 AI 연구원 앤드류 가오는 "적어도 GPT-4 수준이라는 평가에 동의합니다."라고 말합니다.

예를 들어, gpt2-chatbot은 권위 있는 국제 수학 올림피아드 문제를 첫 번째 시도에서 풀었는데, 그는 이를 "엄청나게 어려운 문제"라고 설명했습니다.

https://twitter.com/itsandrewgao/status/1785056612425851069

와튼 스쿨의 교수인 에단 몰릭에 따르면, 이 모델은 코드 작성과 같은 복잡한 추론 작업에서 GPT-4 터보보다 더 나은 성능을 보인다고 합니다. CodeGen의 창립 엔지니어인 체이스 맥코이는 gpt2-chatbot이 "복잡한 코드 조작 작업에서 클로드 오푸스나 최신 GPT4보다 확실히 더 뛰어나다"고 말했습니다. 새로운 모델을 테스트할 때 사용하는 모든 코딩 프롬프트에서 더 잘 수행했습니다."

트위터에는 더 많은 예가 있습니다: 알바로 신타스는 첫 번째 시도에서 스네이크 게임을 생성했습니다.

https://twitter.com/dr_cintas/status/1784996187612811540

코그노시스의 공동 창립자인 설리 오마는 이 모델에 유니콘을 그리게 했는데, 이는 논란이 되고 있는 Microsoft의 'Sparks of AGI' 논문에 나온 테스트였습니다.

https://twitter.com/SullyOmarr/status/1785011288034382098

GPT-4.5 또는 완전히 다른 모델인가요?

OpenAI에서 사용하는 토큰화기에 대한 강력한 성능과 단서로 미루어 볼 때, gpt2-chatbot은 OpenAI에서 제공한 것으로 보이며 GPT-4.5 또는 다른 새로운 모델을 테스트하는 것일 수 있습니다. LMSYS는 모델 제공자가 익명으로 모델을 테스트할 수 있도록 허용한다고 밝혔습니다. 또한 이 모델은 스스로를 ChatGPT 및 "GPT-4 기반"이라고 설명합니다.

그러나 AI 모델에 대한 자체 설명이 항상 신뢰할 수 있는 것은 아니며, 일부 테스터는 GPT-4 터보보다 더 많은 환각을 보고하기도 합니다. OpenAI의 CEO인 샘 알트먼은 "저는 gpt2를 좋아합니다."라는 포스팅을 통해 이 소문에 대해 답변했습니다. 요컨대, 이전의 OpenAI 작품과 유사한 점이 연관성을 시사하지만 결정적인 증거는 아직 부족합니다.

따라서 잘 알려지지 않은 그룹이 자신의 역량을 입증하고 관심을 끌기 위해 이 모델을 출시했을 가능성도 있습니다.