연구진이 자체적으로 사회 실험을 설계하고 실행하는 LLM 기반 시스템 공개

https://the-decoder.com/researchers-unveil-llm-based-system-that-designs-and-runs-social-experiments-on-its-own/
https://arxiv.org/pdf/2404.11794.pdf

MIT와 하버드 연구진은 대규모 언어 모델(LLM)을 사용해 사회과학 가설을 자동으로 생성하고 테스트하는 새로운 접근 방식을 개발했습니다.

이 접근 방식의 핵심은 가설을 공식화하기 위한 수학적 모델인 구조적 인과 모델(SCM)로, 고품질 LLM 기반 에이전트 구축, 실험 설계 및 데이터 분석에 대한 청사진을 제공합니다.

이 시스템은 가설을 생성하고, 실험을 설계하고, 인간을 시뮬레이션하는 LLM 기반 에이전트로 실험을 실행하고, 사람의 개입 없이 결과를 분석할 수 있습니다. 이를 통해 언어 모델은 연구자이자 연구 대상이 될 수 있다고 연구진은 말합니다.

연구원들은 재판, 보석 심리, 면접, 경매 등 여러 시나리오에서 이 접근 방식을 시연합니다. 각각의 경우, 시스템은 인과 관계를 제안하고 테스트하여 일부 가설에 대한 증거를 찾고 다른 가설에 대한 증거는 찾지 못합니다.

예를 들어, 협상 상황에서는 판매자의 물건에 대한 감정적 애착이 감소할수록 합의에 도달할 가능성이 높아집니다. 구매자와 판매자의 예약 가격 모두 중요했습니다. 보석 심리에서 반성하는 피고인은 더 낮은 보석금이 책정되었지만, 범죄 기록이 많은 경우에는 보석금이 책정되지 않았습니다.

연구진은 이러한 시뮬레이션된 사회적 상호작용을 통해 얻은 인사이트는 LLM에 직접 쿼리해서는 얻을 수 없다는 점에 주목했습니다. 그러나 각 시나리오에 대해 제안된 SCM을 LLM에 장착했을 때, 예상 효과의 방향은 안정적으로 예측할 수 있었지만 그 강도는 예측하지 못했습니다.

경매 실험에서 시뮬레이션 결과는 최종 가격이 두 번째로 높은 입찰가에 근접할 것이라는 경매 이론의 예측과 거의 일치했습니다. LLM의 경매 가격 예측은 부정확했지만, 조정된 SCM으로 모델을 조정했을 때 극적으로 개선되었습니다.

연구팀은 이 SCM 기반 LLM 접근법이 대규모 시뮬레이션 행동을 연구하는 데 있어 통제된 실험, 상호 작용, 사용자 지정, 결과의 높은 반복성 등의 장점을 제공하는 유망한 새로운 방법이라고 믿습니다. 연구진은 이 방법이 알파폴드가 단백질 연구에, GNoME가 재료 연구에 미친 영향과 유사하게 사회과학 분야에 돌파구가 될 수 있다고 제안합니다.

"이 논문에서 제시된 시스템은 데이터 수집 및 분석을 위한 사전 지정된 계획에 따라 이러한 제어된 실험 시뮬레이션을 대량으로 생성할 수 있습니다. 이는 현재 대부분의 학문적 사회과학 연구와는 대조적입니다."라고 연구진은 말합니다.

결과를 선택하고 분석하기 어려울 수 있는 개방형 소셜 시뮬레이션과 달리 SCM 프레임워크는 다운스트림 결과로 측정할 대상을 정확히 설명합니다. 따라서 문제가 될 수 있는 사후 관찰 데이터에서 인과 구조를 추론할 필요가 없습니다.

그러나 시뮬레이션에서 생성된 결과를 실제 인간의 행동으로 변환해야 하는 과제가 남아 있습니다.

향후 연구 분야에는 LLM 에이전트에 대한 속성 할당 최적화, 에이전트 간의 사회적 상호작용 설계, 자동화된 연구 프로그램에 이 접근법을 사용할 수 있는 방법 모색 등이 포함됩니다.

이 연구는 다양한 분야의 과학 연구를 가속화할 수 있는 제너레이티브 AI의 잠재력을 강조합니다.