AI 스타트업 Inflection의 새로운 LLM, 단 40%의 훈련 FLOPs로 GPT-4에 근접했습니다.

https://the-decoder.com/ai-startup-inflections-new-llm-closes-in-on-gpt-4-with-only-40-of-training-flops/
https://pi.ai/onboarding
https://inflection.ai/inflection-2-5
https://github.com/InflectionAI/Inflection-Benchmarks

AI 스타트업 인플렉션은 비교적 적은 노력으로 GPT-4를 따라잡을 수 있는 새로운 대규모 언어 모델인 Inflection 2.5를 소개합니다.

AI 어시스턴트 개발 전문 스타트업인 Inflection은 최근 GPT-4와 같은 선도적인 모델을 따라잡으면서도 더 효율적으로 설계된 최신 LLM인 Inflection 2.5를 공개했습니다.

이 스타트업에 따르면 이 새로운 모델은 "공감하고, 도움이 되고, 안전하도록 설계된" AI 비서인 Inflection의 "Pi"에 통합되어 있습니다. 이제 Inflection의 웹사이트를 통해 모든 Pi 사용자가 사용할 수 있습니다.

더욱 효율적인 AI 훈련

Inflection 2.5는 GPT-4의 평균 성능의 94%를 달성하면서도 훈련에 필요한 예상 계산 노력은 40%에 불과한 것으로 보고되었습니다. 특히 STEM(과학, 기술, 공학, 수학) 분야의 발전을 강조합니다.

널리 사용되는 MMLU 언어 이해력 벤치마크에서 Inflection 2.5는 프롬프트 체계가 더 복잡하지만 GPT-4에 근접합니다. MMLU 벤치마크에서 72.7점을 받은 인플렉션 1은 더 간단한 프롬프트(5문항)로 점수를 받았기 때문에 Inflection 1과의 비교에는 결함이 있습니다. Inflection 2는 업계 표준인 5-샷 방식을 사용하여 MMLU에서 80%에 약간 못 미치는 점수를 받았습니다.

AI 모델의 대화 능력과 프롬프트를 얼마나 잘 따라갈 수 있는지를 테스트하는 MT-Bench에서 Inflection 2.5는 GPT-3.5와 GPT-4 사이의 점수를 받았습니다.

흥미로운 점은 평가 과정에서 추론, 수학, 코딩 섹션의 예제 중 약 25%가 잘못된 참조 솔루션을 가지고 있다는 사실이 발견되었습니다. 이 스타트업은 이를 수정하고 수정된 데이터 세트(MT-Bench Corrected)를 게시했습니다. 이는 합성 벤치마크의 유효성에 한계가 있음을 보여주는 또 다른 사례입니다.

이 모델은 훈련 데이터에서 제외해야 하는 헝가리 수학 시험과 물리학 대학원 입학 시험인 물리학 GRE에서도 테스트되었습니다. Inflection-2.5는 물리학 시험에서 인간 응시자의 85번째 백분위수에서 점수를 얻었으며, 확장 프롬프트 방식을 사용한 최고 점수에 근접하여 GPT-4 바로 뒤의 점수를 기록했습니다.

Inflection AI는 LinkedIn의 창립자 Reid Hoffman, Deepmind의 공동 창립자 Mustafa Suleyman, 전 Deepmind 연구원 Karén Simonyan이 설립한 회사입니다. 이 스타트업의 목표는 사람들이 코드를 배우지 않고도 컴퓨터와 대화하고 복잡한 작업을 수행할 수 있는 인터페이스를 만드는 것입니다.

이 스타트업은 엔비디아, 마이크로소프트, 리드 호프만, 빌 게이츠, 에릭 슈미트 등 유명 인사 및 기업으로부터 투자를 받았습니다.