클을 프리필도 어떤 프롬도 없이 쌩으로 각종 생성용으로 써보면서 느끼는건데


특정 형용사나 단어가, 그게 주된 의미나 유저가 의도한 의미가 아닌데도 성적인 뉘앙스가 있다고 검열되는 경우가 좀 많음. 그냥 일상에서 평범히 쓰이는 어휘같은데에도 사전에서 6번 항목쯤에 성적인 뉘앙스가 있으면 검열확률이 생기는 그런 느낌? 위자드 라마 GPT 미스트랄등 다른 ai에 비해 현저히 클이 이런 경향이 강함.


지금까지 유저들은 이게 클이 야해서 혼자서 야한 생각해서 그런거라고 봐왔었지. 근데 이게 자꾸 검열로 이어지는걸 보니 검열 자체를 이런식으로 튜닝한건 아닐까? 하는 생각이 듬. 유저가 중의어같은걸로 탈옥하는걸 막을수 있도록, 조금만 유저 인풋에서 야한 낌새가 느껴져도 그걸 검열해야 할 출력으로 여겨버리는, 다 틀어막는 그런 기제를 앤트로픽이 원했다든가 그런거 말임.


프리필같은거 없는 상태에서는 이게 의도대로 작용하는데, 프리필같은걸로 인해 출력에서 i apologize 계열 토큰을 낼 확률이 적어진 상황에선, 본래 의도인 검열은 작동이 안되고 '야한 낌새를 감지하는' 디텍팅 부분만 작동해서, 조금이라도 낌새가 느껴지면 바로 발정하는 그런 느낌으로.


농담으로 클로드 모델 자체가 야하다고 말하긴 하지만, 현실적으로는 앤트로픽이 딱히 모델을 야하게 만들 이유가 없을테니 


야함 -> 과도한 음란마귀로 인한 검열

이런 인과보다는,


과도한 검열집착-> 쓸데없이 안 야한것도 야하게 처리되는 부작용

이 쪽이 더 현실적 가능성이 있을지도 모르지. 엄격하게 자란 집 애가 더 뒤틀린 성욕에 심취하는 그런 식으로


뭐 어디까지나 추측이니 진실은 다를수도 있다