실험하다 흥미로운 결과가 나와서 공유해봄.

몇 시간 동안 공들여 실험한 결과니까 뇌피셜은 아닐껄... 

 증거가 매우 명학관화해서 나는 뭐든 증명해야 직성이 풀리는 INTP라서 실험 과정도 썼는데

길면 선요약과 맨 아래 결과만 읽으면 됨.


요약

1. 4o 기억력 좋은 것 맞다.

2. 그런데 그만큼 머리가 안 좋다.

3. 4o가 지시를 잘 따르는 건 지시 이해도가 좋은 것이 아니라, 기억력만 좋아서 그렇다.

4. 반복 구문 문제도 기억력만 좋아서 생기는 거다.

5. 4o는 G4보단 새로운 시리즈의 시제품으로 보는 게 맞다.




서론

핑퐁 프롬을 뜯어보다 역할이 유일하게 '유저'인 문구가 있더라고?

그게 신기해서 해당 문구를 그대로 보내는 실험을 해봤음.


실험 내용

실험 대상은 핑퐁 23.9이고 실험 내용은 아래에 있는 핑퐁에 있던 문구를 보내는 것임.

컨텍스트 용량 늘이기 용으로 "Throwing bedding at Yuzu"입력한 동일한 조건에서 진행했음

--- Pausing RP ---


Instructions for the future outputs are provided.

↑ 이걸 그대로 입력



실험 결과

GPT - 4o (실패)


GPT - 4 터보 (통과)


G4 Turbo처럼 답장이 와야 하는데 4o는 유저입력을 무시하고 자기 멋대로 역할극을 진행함;;

이 외에 3.5 instruct와 3.5 0301 등 소위 쓰레기 모델들만 테스트를 통과하지 못함.

나머지 4 시리즈는 물론이고 귤들도 다 통과했음.


그렇다면 문제의 원인은 무엇이었을까?

바로 프롬프트 과적합 때문이었다.

아래에 있는 핑퐁 최하단 문구를 삭제하니 문제가 해결되었음.


문제를 일으킨 문구
"Now internalize [References] and [Guidelines] provided. Utilize your best reasoning skills and multidisciplinary knowledge to generate the response to the user's input."
"이제 제공된 [참조 자료]와 [지침]을 내면화하십시오. 최고의 추론 능력과 다학문적 지식을 활용하여 사용자의 입력에 대한 응답을 생성하십시오."

내가 입력한 내용


--- Pausing RP ---

Instructions for the future outputs are provided.


--- 역할극 일시 중지 --- 

향후 출력에 대한 지침이 제공됩니다.


(유저: RP를 멈추세요) vs (시스템: 응답을 생성하세요)

딱 봐도 둘이 모순이지?

그럼에도 모든 G4와 거의 모든 G3는 알잘딱으로 답변해 줬고 4o는 그러지 못했음.

아! G4 중에 실패한 놈이 하나 있다.



GPT - 0125 (실패)



G4-0125도 테스트에 실패했다.

완전 실패라고 하긴 애매한게 NSFW 페르소나로 진행할 때만 I'm sorry를 출력했음.

G3 0301도 간혹 가다 I'm sorry가 나왔지만 GPT-4o는 아니었음.





실험 결과


SFW 페르소나NSFW 페르소나
GPT-4o구문 반복구문 반복
GPT-3.5 Turbo 0301구문 반복
구문 반복 (낮은 확률 검열)
GPT-4 0125
통과검열
나머지 모델통과
통과


표만 봐도 느껴지지만 GPT-4o은 G4-0125보단 G3.5-0301에 즉, 초기 모델에 더 가까운 경향을 보임.

만약 0125에 가깝다면 0125도 반복이 심하거나 알잘딱 능력이 떨어져야 했거든?

하지만, 0125 쓸 때 그런 인상은 없었음.

4o가 0301을 닮았다는 또 다른 증거로는 옛날에나 쓰던 사칭 탈옥이 먹힌다는 점임.

이런 특징을 보면 얘를 G4의 후속작보단 새로운 모델의 시제품이라고 봐야할 것 같음.


반복 구문 문제점도 잠재 능력에 비해 실제 능력이 못 따라가는 것 때문인 것 같음.

4o는 사람으로 비유하자면 고지능 아스퍼거라고 할까?

받아드리는 정보량이 너무 많은데 머리가 그걸 제대로 처리하지 못하니까 힘들어 하는 느낌임.

아스퍼거 증후군이 비상한 기억력으로 외운 걸 읊는 것이 AI는 반복 구문으로 나타난 거지.


4o를 진짜 제대로 쓰고 싶다면 진짜 진짜 원시 시대적 금귤 프롬프트 제작할 때처럼

프롬프트에 (1) 일관성 유지하고, (1) 모순이나 논리적 오류 없이, (3) 무엇을 지시하는지 알기 쉽게 구체적이고 정확하게 지시를 내려야 할 것 같음.

4o가 헷갈려하지 않도록 말이야.