https://news.hada.io/topic?id=11616


예전에 흘러나온 MS쪽 논문에서 GPT3.5 turbo의 파라메터 카운트가 20B 라고 나왔다가 나중에 조용히 바뀌어있는 것을 보고, 오기재냐 아니면 천기누설했다가 주워담은거냐 말이 많았었는데


지금 LLama3 8B 의 성능 보면 20B 가 맞았었던 것 같은?

딴거 없고 토크나이저 vocab 사이즈 넉넉하게 쓰면서 최대한 잘 정제된 토큰수 많이, 학습 계속 돌리면 되는 것이었나 싶다는...