인공지능이 말하기 전에 생각하도록 훈련시켜 기계 이해력의 비약적인 향상을 약속하는 Quiet-STaR

https://the-decoder.com/quiet-star-trains-ai-to-think-before-it-speaks-promising-a-leap-in-machine-understanding/
https://arxiv.org/pdf/2403.09629.pdf

스탠포드 대학교의 연구원들은 AI 시스템이 행간에서 사고하는 법을 배울 수 있는 "Quiet-STaR"이라는 방법을 개발했습니다. 이는 복잡한 작업을 더 잘 해결할 수 있는 더 다양하고 효율적인 AI를 위한 길을 열어줄 수 있습니다.

인간은 글을 쓰거나 말을 할 때 종종 멈추고 생각에 잠깁니다. 어떤 주장을 가장 잘 표현하는 방법이나 상대방의 생각을 고려합니다.

이러한 '생각'은 거의 모든 텍스트의 행간, 예를 들어 명시적으로 언급되지 않은 수학적 증명의 중간 단계에 숨어 있습니다. 지금까지 인공지능은 이러한 무언의 사고 과정을 포착하는 데 어려움을 겪어왔습니다. 하지만 이제 달라질 수 있습니다.

내부 추론을 통해 더 나은 답변을 생성하는 LLM

Quiet-STaR(조용한 자가 학습 추론기)은 LLM이 말하기 전에 조용히 생각하도록 가르칩니다. 텍스트의 각 지점에서 AI는 텍스트가 왜 다른 방향으로 이어지지 않고 한 방향으로만 이어지는지 가능한 이유를 생성합니다.

시행착오를 통해 어떤 고려 사항이 가장 가능성이 높은 연속으로 이어지는지 학습하여 '말하기' 전에, 즉 텍스트를 계속 생성하기 전에 생각합니다.

이 기술은 몇 가지 예제에서 이유를 도출하고 정답을 통해 학습하도록 AI 시스템을 가르치는 '자가 학습 추론기(STaR)'를 기반으로 합니다. 하지만 STaR은 특정 질문과 답변 작업에만 작동하는 반면, Quiet-STaR은 언어 모델이 모든 텍스트에서 암묵적 추론을 추론하도록 학습하도록 설계되었습니다.

이는 간단해 보이지만 상당한 도전 과제를 안고 있습니다: AI는 '생각'을 생성하는 방법과 이를 효과적으로 사용하는 방법을 배워야 합니다. 또한 각 텍스트 구절에 대한 많은 연속을 계산하고 평가하는 것은 계산 집약적인 작업입니다.

연구진은 정교한 샘플링 알고리즘과 '교사 강제 학습'과 같은 기법으로 이 문제를 해결하고 있으며, 이를 통해 시스템이 점차 올바른 연속문을 학습하게 됩니다.

그 결과는 인상적이었습니다. 특정 작업에 대한 특별한 훈련 없이도 일반적인 AI 테스트의 이해력 질문에 대한 AI의 답변 능력이 경우에 따라 10% 이상 향상되었습니다(GSM8K는 5.9%에서 10.9%로, CommonsenseQA는 36.3%에서 47.2%로).

이러한 개선은 생성된 설명의 길이에 따라 증가했습니다. 어려운 텍스트 구절에 특히 유용했습니다. 그리고 AI의 '생각'이 길수록 더 나은 결과를 얻을 수 있었습니다.

다양한 텍스트 데이터에서 행간 사이의 논리를 인식함으로써 AI는 적응력이 향상되고 새로운 문제에 지식을 더 잘 적용할 수 있게 됩니다. 단순히 암기하는 것이 아니라 문맥을 이해하는 법을 배우게 됩니다.

하지만 이 기술에는 아직 한계가 있습니다. 이 기술은 비교적 작은 규모의 70억 LLM에서만 테스트되었습니다. 그리고 시스템은 아직 텍스트 구절에 대해 생각할 가치가 있는 시점을 동적으로 결정하는 방법을 배우지 못했습니다. 그렇지 않으면 추가 사고 단계로 인해 컴퓨팅 성능이 너무 많이 낭비됩니다. 연구진은 이를 '자연스러운 확장'으로 보고 있으며, 더 큰 모델을 사용하면 더 큰 개선이 가능할 것으로 보고 있습니다.

Quiet-STaR은 보다 지능적이고 다재다능한 AI 시스템으로 나아가는 길을 제시합니다. 좁게 정의된 작업에 대해서만 훈련받는 대신, 텍스트와 대화의 논리를 스스로 이해하는 법을 배울 수 있습니다. 논증을 더 잘 이해하고, 이론을 공식화하며, 언어를 더 창의적이고 효율적으로 사용할 수 있게 됩니다.

Quiet-STaR은 OpenAI의 Q*와 관련이 있나요?

스탠퍼드 연구진의 Quiet STaR 방법과 지난 가을 주요 돌파구로 환영받았던 OpenAI의 미스터리한 Q* 시스템을 둘러싼 추측 사이에는 흥미로운 유사점이 있습니다.

두 가지 방법 모두 GPT-4와 같은 현재의 언어 모델이 달성할 수 있는 것 이상으로 AI의 추론 및 문제 해결 능력을 향상시키는 것을 목표로 합니다.

Quiet-STaR은 언어 모델이 텍스트의 어느 지점에서든 계속할 수 있는 근거를 생성하고 학습하도록 가르치는 반면, Q*는 언어 모델과 계획 알고리즘을 결합하는 것을 목표로 합니다. 두 가지 모두 더 나은 솔루션에 도달하기 위해 단계적으로 '추론'하거나 '사고'하도록 AI를 가르치는 접근 방식입니다.

또 다른 공통 주제는 테스트 시간 계산의 중요성입니다: AI가 생각할 시간이 많을수록 Quiet-STaR과 아마도 Q* 모두에서 더 나은 결과를 얻을 수 있습니다. 이는 알파제로와 같은 체스 프로그램이 더 오래 계산할 수 있도록 허용하면 성능이 향상되는 것을 연상시킵니다.

그리고 물론 이름도 그렇습니다: Quiet-STaR은 "Q*"로 약칭할 수 있습니다.

https://twitter.com/ericzelikman/status/1768663835106513041