모델 제작자분들이나 업스테이지분들을 비하하고자 하는 의도는 전혀없음을 먼저 말합니다.




이렇게 될 조짐은 수개월 전부터 보여왔습니다.


https://huggingface.co/spaces/upstage/open-ko-llm-leaderboard

가장 많이 쓰이고 있는 한국어 언어모델 리더보드에 대해서 이야기 해보고자 합니다.


23년 10월에 오픈한 한국어 언어모델 리더보드

초반에는 저도 잘 사용했습니다.

점수 높은 새로운 모델이 올라오면 사용해보기도하고, 정말 좋으면 그 모델을 기반으로 파인튜닝도 많이했었죠.


그런데, 아직도 그런가요?

아니요. 전혀 그렇지 않습니다.

올해 초 부터, 상위권에 있어서 사용해보면 의미 없는 대답을 하는 등. "이게 1위 모델이 맞다고?" 같은 생각을 많이 되더라구요.

저만 느낀건 아닐거라고 생각합니다.

저는 상위권 모델이 점수만큼의 기량을 보여주지 않는다는걸 느낀 후로는 리더보드를 단순 참고용으로 사용해왔습니다.


여러분, 혹시 "~~ 모델이 리더보드 ~~위를 달성했다." 같은 뉴스 보신 적 있으신가요?

자주 보이죠?

그런데 저런 기사가 올라가면 무슨 일이 벌어지는줄 아시나요?

그 회사 주식이 상한가를 찍습니다.

몇 %도 아니고 상한가를 찍어요. 실제로 사용해보면 별거 없는 모델이거든요. (한국어 리더보드 뿐만 아닌 글로벌도 포함)


일부 모델은 점수는 높은데 실제 사용해보려고 하면

용량만 큰 디지털 폐기물이라는 표현이 잘 어울릴 정도로 말도 안되는 출력을 보여주기도 합니다.


이제는 "단순 참고용"이라는 표현도 과찬이라고 생각합니다.

참고용으로도 쓸 수가 없어요. 그냥 유명한 모델, 좋아요 많이 찍힌 모델 쓰는게 정배죠.


이렇게 모델의 성능을 객관적으로 판단 하는 기능을 수행해야할 리더보드가 기능을 잃고, 기업들의 노름판으로 사용되는 모습을 보며 정말로 안타까운 마음입니다.





저는 그래서 놓아주기로 했습니다.

영어권 벤치마크중에 MT-Bench 라는 벤치마크가 있습니다.
이 벤치마크의 특징으로는 LLM-as-a-judge라는 LLM 기반의 평가를 진행하는데요.

MT-Bench는 8개의 카테고리에 대한 질문 10개씩으로 구성되어 있는 벤치마크입니다.
질문 세트를 LLM에게 주어주고 답변을 얻은 뒤. 해당 답변을 GPT-4를 이용해서 평가하는 방식이죠.

단순히 누구나 생각 할 수 있을법한 구조로 제작 된 이 벤치마크는 대부분의 영어권 모델을 평가할때 디폴트로 쓰입니다.


왜일까요? 너무 좋거든요.
언어모델 정성평가 리더보드로 유명한 lmsys arena leaderboard가 있습니다.

사실상 가장 신뢰할만한 리더보드죠. 이 리더보드와 가장 결과가 비슷하게 나오는게 MT-Bench 입니다.

여러 카테고리에 대한 평가, 단 80개의 질문, 좋은 평가 성능

안 쓸 이유가 없죠.



그래서 비슷하게 만들어보았습니다.
LogicKor, 한국어 언어모델 다분야 사고력 벤치마크

다양한 주제에서의 사고력에 중심을 두고 벤치마크를 제작했습니다.
단순 MT-Bench 배낀건 아닙니다. (조만간, 다루어볼게요.)

언어모델을 사용하면서 저희가 진정으로 필요한것은 무엇일까요.
사실 기반도 중요하다고 하긴하나, 저는 그렇게 생각하지 않구요.
단연컨데, 사고력입니다.

한국어 모델의 사고력을 판단 할 수 있는 6가지의 주제를 아래와 같이 나누어보았습니다.

추론 (Reasoning) - 논리적 사고, 문제 해결

수학 (Math) - 수학적 개념, 계산

글쓰기 (Writing) - 문장간의 호응, 창의력

코딩 (Coding) - 코딩 지식, 기능 구현

이해 (Understanding) - 지문 이해, 정보 추출, 지시 이행

문법 (Grammar) - 한글 맞춤법, 표준 발음법

그리고, 각 주제에 7가지의 멀티턴 질문을 제작하였구요.

평가 결과는 아래 사진과 같습니다. (진한 주황색 - 최고점수, 언더바 - 2등 점수)


현재 한국어 리더보드와는 심히 다른 결과를 보여줍니다. 출력 결과 -> https://github.com/StableFluffy/LogicKor/tree/main/results



각 모델의 출력에 대해서 분석하고, 데이터셋을 어떻게 구성했는지, 특별히 고려해야했던 점은 무엇인지 등등 더 이야기 하고 싶지만
다음 글을 기약하며...

https://github.com/StableFluffy/LogicKor

추론 및 평가 코드 레포

https://huggingface.co/datasets/maywell/LogicKor
질문 세트 허깅페이스 레포

FAQ)
평가 결과 어떤가요?
매우 신뢰 할 만 합니다.
한번 돌릴 때 돈 얼마드나요?
2천원?


마치며,

이번에 작성한 글이 다소 공격적으로 느껴질 수 있습니다. 하지만 충분히 순화해서 썼다는걸 알아주셨으면합니다.
꼭 제가 만든 벤치마크를 써달라는 의미는 아닙니다. 많은 분들이 현재 리더보드가 가지고 있는 문제점을 알아주시길 바랬으며, 더 나은 방향을 제시하고 싶었습니다.

좋은 밤 되시길.