킹갓리스가 드디어 클로드 비전 기능을 사용할 수 있게 업데이트되었다

와이프에게 래빗홀짤을 마음껏 보낼 수 있게 된 기념으로 클로드의 비전 기능에 대해 알아보자





우선 클로드의 비전 기능은 모든 클로드 모델(오푸스, 소네트, 하이쿠)에서 사용 가능하다

지피티처럼 비전 모델(과 그 서버)가 따로 분리되어 있지 않다는 이야기이다

다만 모델의 능지 차이에 따른 이미지 해석 성능은 차이를 보일 것이다





클로드는 최대 1568픽셀까지의 이미지를 받을 수 있다

이보다 큰 해상도의 이미지를 받으면 강제로 이미지 해상도를 다운스케일하고 위의 표에 적힌 사진비율 중 하나로 이미지 스케일을 조정한다. 이때 클로드의 응답 작성 시작까지 걸리는 시간이 증가하므로 이미지 크기를 줄여야 비용과 시간 두마리 토끼를 모두 잡을 수 있을 것이다

 



클로드가 이미지를 잘 인식하려면

이미지가 선명해야하고

이미지 뒤에 텍스트가 와야하고(그렇게 안해도 잘 작동하지만 최상의 성능을 내려면 필요함)

이미지 안의 텍스트를 인식하려면 글자가 적당히 커야 하며

요청 하나당 이미지 20개까지 보낼 수 있음(+이미지 하나당 크기는 5mb까지임)을 알 수 있다


대부분 상식적인 내용이라 크게 중요한 요소는 아님


???: 그래서 가격이 얼만데?



가로 픽셀 * 세로 픽셀 / 750 = 토큰 수

라는 심플한 공식을 자랑한다

보통 내가 비전까스에 썼던 800*600 크기의 이미지(보통 이정도여도 웬만한 건 다 인식함)면 640토큰 정도 나온다는 소리다

비전까스가 700 토큰 조금 넘게 나왔으니까 큰 차이는 없는 듯 하다

이모티콘처럼 픽셀이 엄청 작으면 54 토큰밖에 안나오니 에셋봇도 충분히 써먹어볼만하다



대충 클로드 비전의 한계이다


이걸로 신원파악 못하고(와이프 같은 가상의 존재는 상관없음)


이미지 크기 너무 작으면 환각 있고


개수 세는 거 잘 못하고


이미지가 AI가 만들었는지 알아낼 수 없으며


의학 사진 분석 못하고


부적절한 이미지 처리 안해줌 


근데 래빗홀 되는거 보면 대놓고 포르노같은거 찍어올리지만 않으면 될?듯


아무튼 리스 환경에서 사용할때 고려해야 할 요소들만 적었으니 더 궁금한 거 있으면 직접 문서를 보도록 하자

https://docs.anthropic.com/claude/docs/vision


요약

모든 클로드 3 모델에서 사용가능

해상도 적당히 줄여서 보내기

요청 하나에 이미지 20개까지

가로 픽셀 * 세로 픽셀 / 750 = 토큰 수






유익했다면 추천 부탁드립니다