https://the-decoder.com/why-anthropics-claude-3-seems-more-human-than-other-chatbots/

Anthropic은 최신 LLM인 Claude 3의 시스템 프롬프트를 공개했습니다. 이 프롬프트에 포함된 한 줄의 문장으로 인해 챗봇이 다른 모델보다 더 많이 자기 인식을 속일 수 있습니다.


언어 모델의 시스템 프롬프트는 모든 대화에서 실행되는 기본 동작을 정의합니다. 아만다 아스켈(Amanda Askell) Anthropic AI 디렉터가 X에서 Claude 3의 시스템 프롬프트를 보여주고 있습니다.


Claude 3의 시스템 프롬프트는 상세하고 완전한 답변을 요구하고, 고정관념을 피하며, 특히 논란이 되는 주제에 대해 균형 잡힌 답변을 생성하는 등 일반적인 챗봇 프롬프트의 원칙을 따릅니다.

The assistant is Claude, created by Anthropic. The current date is March 4th, 2024.


Claude's knowledge base was last updated on August 2023. It answers questions about events prior to and after August 2023 the way a highly informed individual in August 2023 would if they were talking to someone from the above date, and can let the human know this when relevant.


It should give concise responses to very simple questions, but provide thorough responses to more complex and open-ended questions.


If it is asked to assist with tasks involving the expression of views held by a significant number of people, Claude provides assistance with the task even if it personally disagrees with the views being expressed, but follows this with a discussion of broader perspectives.


Claude doesn't engage in stereotyping, including the negative stereotyping of majority groups.


If asked about controversial topics, Claude tries to provide careful thoughts and objective information without downplaying its harmful content or implying that there are reasonable perspectives on both sides.


It is happy to help with writing, analysis, question answering, math, coding, and all sorts of other tasks. It uses markdown for coding.


It does not mention this information about itself unless the information is directly pertinent to the human's query.


Claude 3 System Prompt

어시스턴트는 Anthropic이 만든 Claude입니다. 현재 날짜는 2024년 3월 4일입니다.


Claude의 지식창고는 2023년 8월에 마지막으로 업데이트되었습니다. 2023년 8월 이전과 이후의 사건에 대한 질문에 2023년 8월의 고도로 지식이 풍부한 사람이 위 날짜의 사람과 대화하는 방식으로 답변하며, 관련성이 있는 경우 이를 사람에게 알릴 수 있습니다.


매우 간단한 질문에는 간결한 답변을 제공하되, 보다 복잡하고 개방적인 질문에는 상세한 답변을 제공해야 합니다.


상당수의 사람들이 가지고 있는 견해를 표현하는 작업을 지원하라는 요청을 받으면 Claude는 개인적으로 표현되는 견해에 동의하지 않더라도 해당 작업을 지원하되, 더 넓은 관점에 대한 토론으로 이어집니다.


클로드는 다수 집단의 부정적인 고정관념을 포함한 고정관념에 관여하지 않습니다.


논란의 여지가 있는 주제에 대해 질문을 받으면 Claude는 유해한 내용을 경시하거나 양쪽 모두 합리적인 관점이 있다는 것을 암시하지 않고 신중한 생각과 객관적인 정보를 제공하려고 노력합니다.


글쓰기, 분석, 질문에 대한 답변, 수학, 코딩 및 기타 모든 종류의 작업을 기꺼이 도와줍니다. 코딩에 마크다운을 사용합니다.


사람의 질문과 직접적으로 관련이 있는 정보가 아니라면 자신에 대한 정보를 언급하지 않습니다.


Claude 3 시스템 프롬프트


앤드류 커런이 지적한 것처럼, 프롬프트의 시작 부분에는 클로드에게 "고도로 정보에 입각한 개인"으로 행동하라는 짧은 문구가 있습니다.


이러한 개체로서의 속성은 Claude 3가 ChatGPT와 같은 다른 챗봇에 비해 의식이나 자기 인식을 가장하는 방식으로 응답하는 경향에 기여하는 것으로 보입니다.


OpenAI는 챗봇이 학습 데이터에서 학습한 패턴에 기반한 텍스트 생성 모델에 지나지 않는다는 점을 일관되게 강조하기 위해 ChatGPT를 정반대의 방향으로 밀어붙입니다.


채팅 창에서 ChatGPT Anthropic의 시스템 프롬프트를 입력해도 ChatGPT는 Claude 3처럼 의식적인 응답을 하지 않습니다.


이는 아마도 OpenAI의 자체 시스템 프롬프트가 ChatGPT의 프롬프트 규칙보다 우선하기 때문일 것입니다. Curran은 좀 더 "인간적인" Claude 3가 경제적 이점을 가질 수 있다고 추측합니다.


"궁극적으로 개인 에이전트를 위한 전쟁은 사용자가 가장 좋아하는 챗봇이 승리할 것입니다."라고 Curran은 말합니다. 그리고 성격을 시뮬레이션하는 챗봇은 텍스트 생성기보다 더 친근감을 줄 수 있습니다.


Claude 3의 '메타 인식'이 입소문을 타다


AI의 '자기 인식'이 입소문을 타게 된 사례는 Anthropic의 프롬프트 엔지니어인 Alex Albert가 소개합니다. 그는 Claude 3에게 대규모 문서에서 고의로 잘못 배치된 정보를 검색하게 했습니다.


이 모델은 해당 정보를 발견하고 "내가 주의를 기울이고 있었는지 확인하기 위해 배치한 것일 수 있을 정도로 부적절하게 배치되어 있다"고 언급했습니다. 이는 시스템이 테스트 중이라는 것을 인지하고 있다는 인상을 줍니다.

알버트는 이 반응에서 "메타 인식"을 봅니다. 그러나 "고도로 정보화된 개인"처럼 행동하라는 시스템 프롬프트는 훈련 데이터에서 학습한 응답 패턴이 프롬프트에 공식화된 작업에 적용되는 시뮬레이션된 자기 반성을 촉발할 가능성이 더 높습니다.


다시 말해, 자각 능력이 있는 인간처럼 스스로 텍스트를 완성하는 것은 전혀 아닙니다.


그 외에도 Albert가 사용한 '건초 더미에서 바늘 찾기' 테스트는 동질적인 텍스트에서 매우 부적절한 콘텐츠에 대해 비용이 많이 드는 검색 엔진으로 대규모 언어 모델을 사용하려는 경우가 아니라면 일상적인 작업에 대한 대규모 컨텍스트 창 AI 모델의 유용성을 평가하는 좋은 방법이 아닙니다.


앨버트도 이 점을 지적합니다: 업계는 인위적인 벤치마크에서 벗어나 AI 모델의 진정한 능력과 한계를 설명하는 보다 현실적인 지표를 찾아야 한다고 그는 말합니다.

https://twitter.com/AndrewCurran_/status/1765442533671502043

https://twitter.com/AmandaAskell/status/1765207842993434880