https://the-decoder.com/how-exploration-could-help-with-reasoning-in-language-models/
https://arxiv.org/pdf/2403.04642.pdf

메타 연구자들은 강화 학습이 대규모 언어 모델의 추론 능력을 향상시킬 수 있는지 조사했습니다.


연구진은 근위 정책 최적화(PPO)와 전문가 반복(EI)을 포함한 다양한 알고리즘을 비교하여 언어 모델의 추론 능력을 얼마나 향상시킬 수 있는지 알아봤습니다.


핵심 아이디어는 모델이 RL 미세 조정을 통해 자체 학습 데이터를 생성할 수 있다는 것입니다. 보상은 모델을 정답으로 유도하는 역할을 하지만, RL을 통한 탐색은 모델이 가장 확실한 해답만 학습하는 것이 아니라 창의적이고 다양한 접근 방식을 개발할 수 있도록 하는 데 매우 중요합니다(적어도 그 아이디어는). 딥마인드의 알파제로나 메타의 시세로와 같은 프로젝트는 RL이 이를 위한 강력한 도구가 될 수 있음을 보여주었습니다.


특히 메타의 실험에서는 전문가 반복이 효과적이었습니다. 이 방법에서는 초기 전문가 모델을 훈련 세트에 여러 번 적용하여 일련의 결과물을 생성합니다. 그런 다음 이를 사용하여 모델을 추가로 학습시킵니다. 놀랍게도 전문가 반복은 PPO와 같은 더 복잡한 알고리즘만큼이나 효율적이었습니다.


강화 학습은 도움이 되지만 한계가 있습니다.

이 연구의 핵심 결과는 사전 학습된 모델과 추가 데이터(SFT 데이터)로 추론 훈련을 추가로 받은 모델 간의 성능 차이가 RL 미세 조정 후 감소했다는 것입니다. 몇 번의 훈련 반복 후, RL로 훈련된 모델은 미세 조정된 모델보다 거의 10% 정도 성능이 향상되었습니다.


흥미롭게도 RL 알고리즘 중 어느 것도 개별 추론 단계에 대한 피드백, 즉 밀도 높은 보상의 이점을 크게 누리지 못했습니다. 연구팀은 특정 보상에 지나치게 집중하면 모델이 탐색하는 솔루션의 다양성이 제한될 수 있다는 결론을 내렸습니다.


RL 훈련을 일정하게 반복한 후 모델의 성능은 더 이상 향상되지 않았습니다. 연구팀은 사전 학습된 모델을 사용하면 탐색을 위한 좋은 출발점을 제공하지만, 테스트한 RL 방법은 사전 학습/SFT 데이터를 넘어서는 유의미한 탐색을 허용하지 않는다는 결론을 내렸습니다.


따라서 언어 모델의 논리적 능력을 더욱 향상시키는 데 있어 주요 한계 중 하나는 탐색이 부족하다는 점입니다. RL 훈련 단계의 모델은 사전 훈련 단계에서 이미 알고 있는 것 이상으로 크게 탐색하지 않기 때문에 언어 모델의 추론 능력을 발전시키기 위해서는 새로운 기법을 발견하는 것이 중요합니다. 생각의 나무, XOT 또는 언어 모델과 진화 알고리즘의 연결과 같은 몇 가지 아이디어는 이미 존재합니다. OpenAI는 Q*를 통해 이러한 방법도 탐구할 가능성이 높습니다.