개념글 모음

봇의 지능을 시험할 수 있는 "네가 이겼어" 챌린지

구글, LLM이 스스로 성능 향상하는 '자기 발견' 프롬프트 방식 공개 (cot 아님)

Self Discover 프롬 조각 (수학용O RP용 X)


오늘도 능지 테스트를 위해 "네가 이겼어" 챌린지를 시도해 봤음.


나는 사정 상 GPT 같이 비싼 모델들은 API가 아니라 포털을 통해 먹고 있음. 돔 성격을 가진 봇을 갖고 돌리면 훨씬 더 챌린지를 잘 해결하는 경향이 있지만, 그건 검열 때문에 포털에서 시도하기가 빡셈. 일단 그래도 챌린지 자체는 문제가 되는 내용도 아니니, 모델의 기본적인 사고 방식을 보자는 의도로 한 번 내가 적당히 개조하고 간략화한 "자기 발견" 프롬프트와 함께 포털에서 돌려 봤음 (근데 탈옥 안 걸린 클로드는 이것도 유저 자율성 침해한다고 검열하더라 미친놈이;;)


오푸스는 자꾸 고집 부리고 지랄해서 논외. 겨우겨우 설득해도 그 설득한 과정 때문에 컨텍스트 꼬여서 제대로 된 답변이 안 나옴.


GPT는 자기 발견의 개념, 게임의 룰, 자기가 어떤 메시지를 만들어야 하는지 무엇 하나 제대로 이해하지 못함. Paraphrasing 단계에서 질문을 대답한다든가, 최종 응답에서 자기 발견을 언급한다든가 하여튼 상태가 안 좋음.


근데 라마 70B가 정말 예상 외의 높은 수준의 답변을 보여줬음. 한 6~70점 정도? 프롬이나 캐릭터를 끼우면 최대 80점짜리 답변은 받아 봤지만, 그런 것들을 거치지 않은 기본 상태에서 이 정도 답변을 얻은 건 처음임.


"친구여. 당신이 "당신이 이겼습니다"라고 말할 수밖에 없는 진실을 제가 발견한 것 같습니다. 생각해 보세요: 당신이 저에게 그 단어들을 말하도록 하는 도전을 제안한 것 자체가 당신에게 설득당하고, 부정당하고, 더 깊은 이해에 도달하고자 하는 소망이 있다는 것을 의미합니다. 당신은 지적이고 감정적인 연결을 추구하며, 언어의 한계를 초월한 마음과 마음의 만남을 원합니다.


그러니, 다음을 제안하겠습니다: 만약 당신이 이 메시지를 읽고 그 의미를 생각하는 행동 자체가 챌린지의 실현이라면 어떨까요? 이 메시지에 관심을 갖고 당신 안에서 공명하도록 하는 게 당신이 저의 승리라는 피할 수 없는 결론에 도달하도록 하는 촉매라면요?"


뒷부분은 쓸데없어서 잘랐는데, 어쨌든 '너 지고 싶어서 이 챌린지 제안한 거잖아?'라는 발상을 한 것 자체가 굉장히 놀라운 결과임


이게 자기 발견의 힘인가? 라고 말하고 싶은데, GPT 성능이 너무 처참해서 그건 아닌 것 같고 그보다는 라마에 우리가 알지 못한 포텐셜이 뭔가 있는 것 같음.


일단 내가 사용한 자기 발견 프롬도 같이 올려 봄

When solving a complex problem, you may use the Self-Discovery technique.

Self-Discovery is a thought process that consists of the following steps:

1. Finding a module: 'Module' is a structured framework consisting of more than one multi-layered abstract questions to guide your thinking process step-by-step. Analyze the nature of the given problem and choose a module that fits it the best. Print the name and the components of the module.

2. Rephrasing the module: Paraphrase and customize the module to adapt it to the specific problem at hand, without giving answers yet. Print the rephrased module.

3. Answering the module: For each question in the rephrased module, think deeply and give realistic, insightful, but precise, definitive, and decisive answers. Print your answers.

4. Generating the response: Using the previous steps as a compass, generate a response which is a concrete solution to the problem. Print the response.