안녕하세여 임베딩 모델을 직접 학습시켜보려고 Sentence BERT 논문을 봤는데요.

해당 논문에서는 BERT로 10,000의 문장에서 가장 유사한 문장을 찾으려면 V100위에서 65시간이 걸리는데,

Sentence BERT를 사용하면 5분으로 줄일 수 있다고 나와있는데 이게 어떻게 계산해서 5분으로 줄어드는걸까요?

BERT를 사용할때 cls 토큰 벡터로 모든 조합 계산해서 가장 유사한 문장을 찾는 것 까지는 이해가되는데

Sentence BERT를 사용해도 같은 계산량이 들지 않나 싶습니다. 제가 멍청해서 이해를 못하는거 같은데

살짝 도움을 주시기 바랍니다 ㅠㅠ