요즘에야 많이 나아진 편인데, GPT-4나 클로드3 오푸스조차도 "~를 하지 말라"고 하면 때때로 더 심하게 할 수도 있음
이유는 현재의 텍스트 생성형 AI는 모두 확률적인 단어 예측기이기 때문임. 사용자가 입력한 여러 단어의 연결성을 토대로 그 다음에 올 단어와 문장을 예측하는 원리
그래서 A를 하지말라고 적어둘 경우 A에 대한 연결성을 더 높게 측정해서 A에 관한 서술이나 단어가 나올 확률이 높아짐
이건 고지능 모델에서는 추론 능력이 있다보니 그래도 그나마 좀 나은데, GPT-4/클로드3 오푸스 미만의 저지능 모델에서는 ~하지마라 해서 안나오기가 정말 빡셈