튜링 테스트를 통과한 GPT-4, 인간은 놀랍게도 다른 인간을 AI로 착각하는 경우가 많습니다.

https://the-decoder.com/gpt-4-passes-turing-test-and-humans-surprisingly-often-mistake-other-humans-for-ai/
https://arxiv.org/pdf/2405.08007

새로운 연구에서 인간 참가자들은 자신이 사람과 채팅을 하고 있는지, 아니면 GPT-4와 채팅을 하고 있는지 확실하게 구분하지 못했습니다. 이 연구 결과는 고전적인 튜링 테스트와 그 의미에 대한 새로운 의문을 제기합니다.

앨런 튜링이 인간과 기계를 비교하는 유명한 사고 실험을 제안한 지 74년이 지난 지금, 연구자들은 GPT-4를 통해 무작위로 통제된 2인용 튜링 테스트의 변형을 실시했습니다. 결과는: 채팅에서 인간 참가자들은 자신이 사람과 대화하고 있는지 AI와 대화하고 있는지 확실하게 인식하지 못했습니다.

테스트 전에 언어 모델에 응답에 영향을 줄 수 있는 세부적인 프롬프트를 설정하여 일반적인 행동을 제한하고 언어 모델이 가끔 철자 오류를 범하도록 했습니다.

GPT-4는 54%가 사람이라고 판단했는데, 이는 참가자의 절반이 5분간 대화한 후 이 모델을 사람이라고 생각했다는 뜻입니다. 이로써 GPT-4는 구형 GPT-3.5 모델(50%)과 1960년대의 단순한 규칙 기반 ELIZA 참조 시스템(22%)보다 더 나은 성능을 보였습니다. 인간 참가자들만이 67%로 더 높은 성공률을 보였기 때문에 참가자들은 3분의 1 미만의 사례에서만 AI로 평가했습니다. 따라서 현대의 AI 시스템은 인간을 믿을 수 있을 정도로 속일 수 있습니다. 그리고 인간은 AI가 인간과 같은 방식으로 행동할 수 있다는 것을 알게 되면 '인간'의 기준을 너무 높게 설정하여 실제 인간을 반복적으로 배제할 것입니다.

지능이 있든 없든 - 언어 모델은 속일 수 있습니다.

연구진은 튜링 테스트에서 참가자들이 인간과 기계를 우연보다 더 잘 구분하지 못했기 때문에 50%를 성공으로 정의했습니다. 이 정의에 따르면 GPT-4는 테스트를 통과했습니다. 참가자들은 단순히 추측한 것이 아니라 평균 73%의 신뢰도로 GPT-4를 인간이라고 생각했습니다.

튜링 테스트는 종종 기계 지능의 벤치마크로 묘사됩니다. 이에 대한 비판이 많았습니다: 이 테스트는 너무 쉽거나 너무 어려워서 지능을 제대로 측정하지 못한다는 비판이 많았습니다. 이번 연구 결과는 튜링 테스트가 실제로 무엇을 측정하는지에 대한 경험적 증거를 제공합니다: 참가자들의 전략과 논리는 지식과 논리보다는 언어 스타일과 사회 정서적 요인에 더 중점을 두었습니다.

그러나 논리, 시사 문제, 인간의 감정과 경험에 대해 질문한 참가자들은 평균적으로 더 자주 정답을 맞혔습니다.

논문은 "이 결과는 실험 환경과 달리 사람들이 속임수 가능성에 대해 경계하지 않거나 속임수를 탐지하는 데에만 집중할 수 있는 보다 자연스러운 상황에서 속임수 가능성에 대한 하한선을 설정한 것일 수 있습니다."라고 설명합니다. 인간을 안정적으로 모방할 수 있는 시스템은 예를 들어 기존에는 사람이 담당하던 고객 연락처를 대신하는 등 광범위한 경제적, 사회적 영향을 미칠 수 있습니다.

그러나 과학자들은 또한 대중이나 인간 운영자를 오도하고 진정한 인간 상호 작용에 대한 사회적 신뢰를 약화시킬 수 있다고 말합니다.

첫 번째 사진의 정답: A)는 GPT-4, B)는 인간, C)는 GPT-3.5, D)는 ELIZA입니다.