https://the-decoder.com/selective-language-modeling-new-method-allows-for-better-models-with-less-data/
https://github.com/microsoft/rho

연구자들은 가장 관련성이 높은 토큰에 집중하여 언어 모델을 보다 효율적으로 훈련하는 '선택적 언어 모델링'이라는 새로운 방법을 소개합니다.


Microsoft, 샤먼 대학교, 칭화 대학교 연구진의 새로운 논문에 따르면 이 방법은 수학적 작업에서 상당한 성능 향상을 가져옵니다. 선택적 언어 모델링(SLM)은 이전처럼 훈련 중에 텍스트 말뭉치의 모든 토큰을 동일하게 고려하는 대신 가장 관련성이 높은 토큰에 특별히 초점을 맞춥니다.


연구진은 먼저 토큰 수준에서 훈련 역학을 분석했습니다. 그 결과 토큰 유형에 따라 학습 과정에서 손실이 매우 다르게 발생한다는 사실을 발견했습니다. 어떤 토큰은 빠르게 학습되는 반면, 어떤 토큰은 거의 학습되지 않습니다.


이러한 결과를 바탕으로 연구진은 3단계 프로세스를 개발했습니다:

1. 먼저, 수학과 같이 수동으로 필터링된 고품질 데이터 세트에서 참조 모델을 학습시킵니다.

2. 그런 다음 참조 모델을 사용하여 관련 없는 토큰이 많이 포함된 전체 훈련 말뭉치의 각 토큰에 대해 손실을 계산합니다.

3. 그런 다음 실제 언어 모델은 참조 모델과 현재 모델의 손실 간에 큰 차이를 보이는 토큰에 대해 선택적으로 훈련됩니다.



수학 예시에서 "2 + 2 = 4" 또는 "sin(x)의 도함수는 cos(x)"와 같은 문장의 토큰은 참조 모델의 학습된 지식과 잘 맞기 때문에 낮은 난도가 할당됩니다. "훌륭한 보험을 보려면 여기를 클릭하세요"와 같은 문장의 토큰은 수학과 관련이 없기 때문에 높은 난이도를 할당받습니다.


이러한 경우는 고전적인 필터링 방법으로 비교적 안정적으로 학습 데이터 세트에서 제거할 수 있지만, "농장에는 '4월 12일 1시 24분' 암탉 35마리와 돼지 12마리가 있다"와 같은 문장에서는 이 작업이 더 어려워집니다. ##davidjl123은 총 47마리의 동물이 있다고 말합니다." 이 문장에는 유용한 정보(농장의 동물 수)와 관련이 없거나 잘못된 정보(날짜, 사용자 이름, 철자 오류 "합산")가 모두 포함되어 있습니다. 이 방법은 토큰 수준에서 작동하기 때문에 여기서 학습과 관련된 토큰의 우선순위를 정할 수도 있습니다.


이러한 방식으로 시스템은 목표 작업과 가장 관련성이 높은 토큰을 구체적으로 학습합니다.


더 빠르게 학습하고 정확도를 높이는 선택적 언어 모델링


SLM은 더 빠르게 학습하고 정확도를 높입니다. 수학 분야에서 SLM은 10억 개의 매개변수가 있는 RHO-1 모델에서 GSM8K 및 MATH와 같은 다양한 벤치마크에서 16% 이상의 정확도 향상을 이끌어냈습니다. 또한 기준선의 정확도는 최대 10배 더 빠르게 달성되었습니다.


70억 개의 파라미터를 사용한 RHO-1의 변형 모델은 150억 개의 훈련 토큰만 사용하여 5,000억 개의 토큰으로 훈련된 DeepSeekMath 모델과 비슷한 성능을 달성했습니다. 미세 조정 후, SLM 모델은 MATH 데이터 세트에서 SOTA를 달성했습니다.

수학이 아니더라도 SLM은 800억 개의 토큰으로 훈련한 후 15개의 벤치마크에서 평균 6.8%의 성능을 향상시켰습니다. 특히 코드와 수학 작업에서 10% 이상의 개선이 두드러졌습니다.


연구자들은 SLM의 성공 요인으로 원하는 분포와 관련된 토큰을 식별하는 이 방법의 능력을 꼽았습니다. 연구진은 이 접근 방식이 맞춤형 AI 모델을 더 빠르고 비용 효율적으로 개발하는 데 도움이 될 수 있을 것으로 기대하고 있습니다. 또한 이 방법은 SLM 기반의 미세 조정을 통해 Meta의 라마 3와 같은 오픈 소스 모델을 더욱 개선할 수 있습니다.