https://www.wired.com/story/how-quickly-do-large-language-models-learn-unexpected-skills/

 원본은  의  이 이야기   에 실렸습니다   Quanta Magazine  . 

 또는 BIG-bench 라는 프로젝트에서 2년 전, Beyond the Imitation Game 벤치마크  의 기능을 테스트하기 위해 설계된 204개 작업 목록을 작성했습니다  대규모 언어 모델  450명의 연구원이 ChatGPT와 같은 챗봇을 구동하는  .  대부분의 작업에서 모델이 확장됨에 따라 성능은 예측 가능하고 원활하게 향상되었습니다. 모델이 클수록 성능이 향상되었습니다.   하지만 다른 업무에서는 능력의 도약이 원활하지 않았다.   성능은 한동안 0에 가깝게 유지되다가 성능이 급상승했습니다.   다른 연구에서도 비슷한 능력의 도약이 발견되었습니다. 

저자는 이를 "획기적인" 행동으로 묘사했습니다.   다른 연구자들은 이것을 액체 물이 얼음으로 얼 때처럼 물리학의 상전이에 비유했습니다.  에서   2022년 8월에 발표된 논문  연구원들은 이러한 행동이 놀랍을 뿐만 아니라 예측할 수 없으며 AI  안전  , 잠재력 및 위험에 대한 진화하는 대화에 정보를 제공해야 한다고 지적했습니다.   그들은 이 능력을 "  창발적  "이라고 불렀습니다. 이는 시스템이 높은 수준의 복잡성에 도달한 후에만 나타나는 집단적 행동을 설명하는 단어입니다. 


하지만 상황이 그렇게 간단하지 않을 수도 있습니다.   스탠포드 대학교 연구원 3명이 작성한 새 논문  에서는 이러한 능력이 갑자기 나타나는 것은 연구원들이 LLM 성과를 측정하는 방식의 결과일 뿐이라고 가정합니다.   그들은 능력이 예측 불가능하거나 갑작스러운 것이 아니라고 주장합니다.   “전환은 사람들이 생각하는 것보다 훨씬 더 예측 가능합니다.”라고  Sanmi Koyejo가  스탠포드 대학의 컴퓨터 과학자이자 해당 논문의 수석 저자인  말했습니다.  "창출에 대한 강력한 주장은 모델이 수행하는 작업만큼이나 우리가 측정하기로 선택한 방식과 관련이 있습니다." 


우리는 이러한 모델이 얼마나 커졌는지에 따라 이러한 행동을 보고 연구하고 있습니다.  분석하고   대규모 언어 모델은 책, 웹 검색, Wikipedia를 포함한 온라인 소스의 단어 등 엄청난 양 의 텍스트 데이터 세트를  자주 함께 나타나는 단어 간의 링크를 찾아 학습합니다.   크기는 단어가 연결될 수 있는 모든 방식과 대략 유사한 매개변수로 측정됩니다.   매개변수가 많을수록 LLM이 찾을 수 있는 연결이 더 많아집니다.   GPT-2에는 15억 개의 매개변수가 있는 반면, ChatGPT를 지원하는 LLM인 GPT-3.5는 3,500억 개의 매개변수를 사용합니다.   2023년 3월에 출시되어 현재  Microsoft Copilot의  기반이 되는 GPT-4는 1조 7500억 달러를 사용하는 것으로 알려졌습니다. 


이러한 급속한 성장으로 인해 성능과 효율성이 놀라울 정도로 높아졌습니다. 충분히 큰 LLM이 훈련되지 않은 작업을 포함하여 작은 모델이 할 수 없는 작업을 완료할 수 있다는 사실에는 누구도 이의를 제기하지 않습니다.   출현을 "신기루"로 캐스팅한 스탠포드의 세 사람은 LLM이 규모가 커질수록 더욱 효과적이라는 점을 인식하고 있습니다.   실제로  더 큰 모델에 복잡성이 추가되면  더 어렵고 다양한 문제를 더 잘 처리할 수 있게 됩니다.   그러나 그들은 이러한 개선이 원활하고 예측 가능해 보이는지 아니면 모델의 내부 작동보다는 측정항목 선택(또는 심지어 소수의 테스트 사례)에 따른 결과인지 들쭉날쭉하고 날카로운 결과인지 여부를 주장합니다. 

 제공 Merrill Sherman/ Quanta Magazine 

세 자리 덧셈이 그 예입니다.  2022년 BIG-bench 연구에서 연구자들은 더 적은 매개변수를 사용하여 GPT-3와 LAMDA라는 다른 LLM 모두 덧셈 문제를 정확하게 완료하지 못했다고 보고했습니다.  그러나 GPT-3가 130억 개의 매개변수를 사용하여 훈련하자 마치 스위치를 켜는 것처럼 능력이 바뀌었습니다.  갑자기 추가할 수 있게 되었고 LAMDA도 680억 개의 매개변수를 추가할 수 있게 되었습니다.  이는 추가 능력이 특정 임계값에서 나타난다는 것을 의미합니다. 

그러나 스탠포드 연구자들은 LLM이 정확성에 의해서만 평가되었다고 지적합니다. 즉, 완벽하게 할 수 있거나 할 수 없습니다.  따라서 LLM이 대부분의 숫자를 올바르게 예측하더라도 실패했습니다.  그건 옳지 않은 것 같았습니다.  100에 278을 더해 계산한다면 376이 −9.34보다 훨씬 더 정확한 답인 것 같습니다. 



대신 Koyejo와 그의 공동 작업자는 부분 점수를 부여하는 측정 기준을 사용하여 동일한 작업을 테스트했습니다.  “우리는 다음과 같이 질문할 수 있습니다. 첫 번째 숫자를 얼마나 잘 예측합니까?  그럼 두 번째는요?  그럼 세 번째는요?”  그는 말했다. 

Koyejo는 새로운 작업에 대한 아이디어를 그의 대학원생인 Rylan Schaeffer에게 돌렸습니다. 그는 LLM의 성과가 능력을 측정하는 방법에 따라 달라지는 것 같다는 점을 발견했다고 말했습니다.  또 다른 스탠포드 대학원생인 Brando Miranda와 함께 그들은 매개변수가 증가함에 따라 LLM이 추가 문제와 점점 더 정확한 숫자 순서를 예측했음을 보여주는 새로운 측정항목을 선택했습니다.  이는 추가하는 능력이 갑자기 나타나는 것이 아니라 예측할 수 없는 갑작스러운 도약을 겪는다는 것을 의미하지만 점진적이고 예측 가능하다는 것을 의미합니다.  그들은 다른 측정 막대를 사용하면 출현이 사라진다는 것을 발견했습니다. 

Brando Miranda (left), Sanmi Koyejo, and Rylan Schaeffer (not pictured) have suggested that the “emergent” abilities of large language models are both predictable and gradual.

크리스 브루어 제공;  아난야 나발레 


그러나 다른 과학자들은 이번 연구가 출현의 개념을 완전히 없애지는 못한다고 지적합니다.   예를 들어, 세 사람의 논문은 LLM에서 언제 어떤 지표가 급격한 개선을 보일지 예측하는 방법을 설명하지 않는다고  Tianshi Li  Northeastern University의 컴퓨터 과학자인  는 말했습니다.  “그런 의미에서 이러한 능력은 여전히 예측할 수 없습니다.”라고 그녀는 말했습니다.   현재 OpenAI의 컴퓨터 과학자이자 창발 능력 목록을 작성하고 BIG-bench 논문의 저자인 Jason Wei와 같은 다른 사람들은  주장했습니다.  창발 능력에 대한 초기 보고서가 타당하다고  대답이 정말 중요합니다. 

 "여기서 흥미로운 대화가 벌어지고 있음이 분명합니다."라고 말했습니다  Alex Tamkin은 AI 스타트업 Anthropic의 연구 과학자인  .  새로운 논문은 개별 구성요소의 기여도를 인식하기 위해 다단계 작업을 능숙하게 분류했다고 그는 말했습니다.   “그러나 이것은 전체 이야기가 아닙니다.   이 점프가 모두 신기루라고 말할 수는 없습니다.   나는 여전히 문헌에 따르면 1단계 예측을 하거나 연속적인 측정 기준을 사용하더라도 여전히 불연속성이 있으며 모델의 크기를 늘리면 점프와 같은 방식으로 더 좋아지는 것을 볼 수 있다고 생각합니다." 

그리고 오늘날의 LLM의 등장을 다양한 측정 도구로 설명할 수 있더라도 미래의 더 크고 복잡한 LLM에서는 그렇지 않을 가능성이 높습니다.  "우리가 LLM을 다음 단계로 성장시키면 필연적으로 다른 작업과 다른 모델에서 지식을 빌릴 것입니다."라고 말했습니다 .  Xia "Ben" Hu는   Rice University의 컴퓨터 과학자인 


출현에 대한 이러한 진화하는 고려는 연구자들이 고려해야 할 추상적인 질문이 아닙니다.  Tamkin의 경우 이는 LLM의 작동 방식을 예측하려는 지속적인 노력을 직접적으로 나타냅니다.  “이러한 기술은 매우 광범위하고 적용 가능합니다.”라고 그는 말했습니다.  “커뮤니티가 이를 출발점으로 삼아 이러한 것들에 대한 예측 과학을 구축하는 것이 얼마나 중요한지 지속적으로 강조하기를 바랍니다. 차세대 모델에 놀라지 않으려면 어떻게 해야 할까요?”