모델은 얼마나 벤치마크에 과적합 되어 있은가?: GSM-1k

개념글 모음

알림 알림 중 알림 취소

구독자 2716명 알림수신 78명

각 채널의 개념글을 모은 게시판입니다.

Ai 언어모델 로컬 정보 모델은 얼마나 벤치마크에 과적합 되어 있은가?: GSM-1k

jackofmaster

추천 15 비추천 0 댓글 15 조회수 1237 작성일 2024-05-02 06:04:39 수정일 2024-05-02 06:05:22

https://arca.live/b/alpaca/105165477

저자들은 gsm 8k와 같은 gsm 1k라는 새로운 벤치마크를 제시함.

여기서 gsm 8k에서 좋은성능을 보이던 몇몇 모델들이 실제로는 그렇지 않다는걸 보여줌.

또한 흥미로운것은 phi3는 역시 벤치마크에 크게 과적합되었다는 점과 llama 3는 분명 같은 데이터셋으로 훈련받았음에도 70b에서 떨어지는 폭이 크지 않다는점 그리고 상용모델인 claude,gpt4모두 과적합되지 않았다는걸 보여줌

https://arxiv.org/pdf/2405.00332

댓글 글쓰기

jackofmaster

2024-05-02 06:06:30 답글

https://arxiv.org/abs/2309.08632
Pretraining on the Test Set Is All You Need

arXiv.org

Pretraining on the Test Set Is All You Need

Inspired by recent work demonstrating the promise of smaller Transformer-based language models pretrained on carefully curated data, we supercharge such approaches by investing heavily in curating a novel, high quality, non-synthetic data mixture based solely on evaluation benchmarks. Using our novel dataset mixture consisting of less than 100 thousand tokens, we pretrain a 1 million parameter transformer-based LLM \textbf{phi-CTNL} (pronounced ``fictional”) that achieves perfect results across diverse academic benchmarks, strictly outperforming all known foundation models. \textbf{phi-CTNL} also beats power-law scaling and exhibits a never-before-seen grokking-like ability to accurately predict downstream evaluation benchmarks’ canaries.

Pretraining on the Test Set Is All You Need

펼쳐보기▼

ㅇㅇ (210.91)

2024-05-02 07:23:22 삭제 수정 답글

한국어 리더보드도 그렇고 영어 리더보드도 그렇고 고의로 밴치마킹 과적합 시키는 모델들이 많져
한국어랑 영어 둘 다 1등하셨던 davidkim이라는분의 실력은 진짜 인정하는데
이분 모델들이  벤치마크를 노린 데이터들만 모아서
3에폭으로 돌리며 과적합 시키니 밴치마크에서는 좋아도 실 성능은 아예 못쓰겠다 싶더라고요

펼쳐보기▼

ㅇㅇ

2024-05-02 07:44:56 답글

Testset is all you need

펼쳐보기▼

ㅇㅇ (118.235)

2024-05-02 07:58:05 삭제 수정 답글

어찌보믄 사기꾼들이죠 뭐.
이걸 삼프로 티비에서 인공지능 다루면서 열라 쉽게 비유해주더라구요.
시험을 위해서 열라 답안풀이에만 집중해서 공부하는 학생들에 비유합디다.
토익 잘하는애 입사시켰다고 그 애가 영어 잘해서 영어로 업무 잘 보는거 아니지않냐 이러믄서요.
한국은 수학 겁나 잘하지만 정작 풀이만 잘하지 수학에 대한 계산만 잘하지 이해도가 떨어진다는 지적 처럼 말이죠.
한국에서 필즈상 탄 분 기사 났을때도 수포자가 오히려 필즈상을 받았다라고 나올 정도였죠.(실제론 수포자란 표현은 잘못된거라고는 합디다)
여튼 지금 상황이 딱 이런 상황이네요.
왜 이런 일들이 벌어질까요.
글로벌 기업들은 투자받을 욕심이나 기술력 홍보 욕심일테고 한국은 정부돈 따먹을려고 하는 얄팍한 상술이 스며있겠죠.
아니면 이미 돈은 받았고 연구성과 인정받는데 목숨 걸었거나.
문제에요 문제..

펼쳐보기▼

hkhk

2024-05-02 10:34:46 답글

벤치마크 과적합문제는 아마 계속될거 같고, 해결책은 벤치마크를 더욱더 다양하게 해서, 벤치마크에서 점수를 잘 받으면 실제로도 성능이 좋아질 수 밖에 없게 만드는게 답이라고 봅니다.
언어모델로서의 능력 외에 다른 모달리티와의 조합에서도 잘 적응하는지라던가, 다국어의 이해라던가, 코딩과 언어를 동시에 추론한다던가, 정해져있는 하나의 답을 내는 것이 아니라 여러번 실행할 때 폭넓게 다양한 답을 내는 것에 오히려 점수를 잘 받을 수 있는 (물론 샘플링 파라메터도 그에 맞춰준다는 조건) 등등 문제를 빡세게 만들 방법들은 무궁무진할테니까요.

펼쳐보기▼

변태Lv1

2024-05-02 15:49:22 답글

짐작하고는 있었는데 역시나

펼쳐보기▼

jwl

2024-05-02 18:52:18 답글

*수정됨

뭔일인가 하고 조금 검색해보고 왔는데, GSM8k는 openai에서 2021년 공개한 데이터셋이고, 논문의 GSM1k는 Scale AI라는 전혀 별개의 스탓업에서 GSM8k와 동일한 난이도로 제작했다고 주장하는 전혀 별도의 데이터셋임. 물론 human 정답률 같은 요소를 가급적 동등하게 맞추었다고는 하지만 그건 그들의 주장일 뿐이고 아직 어떠한 peer-review도 거치지 않은 상태로 보임. 그래서 이걸로 test set contamination 의혹을 제기하는건 좀 터무니없다고 보임

펼쳐보기▼

jwl

2024-05-02 19:00:20 답글

저 표를보면 small model들이 좌측에 몰려있고, large model이 우측에 몰려있는 경향이 보이는데, 이건 단지 얘네들이 만든 GSM1k라는 벤치마크가 GSM8k보다 "어렵다" 라는 더 쉬운 가설 하나로도 설명이 가능함. 다만 Mixtral-8x22B 얘는 의심스럽다 싶기도 한게, 체급에 안맞게 맨 왼쪽에 쏠려있기도 하고, mistral 블로그상에서도 GSM8k 점수 잘나온다고 자랑하고 있는 대목이 있어서 치팅의혹을 가져볼만은 한거 같음

펼쳐보기▼

jackofmaster

2024-05-02 23:10:57 답글

*수정됨

그래서 나도 +5%까지는 그럴수 있다고봄. 그러나 적어도 phi와 mistral은 뭔가 문제 있다는것을 충분히 보여준다고 생각함.
물론 논문에서도 언급했든 어디까지나 치팅이 아니라 과적합됬다는것을 보여줌
그리고 재밌는점은 상용모델들(3.5, hakiku,gemin등)은 전부다 오른쪽에 몰려있는데 그와 비슷한 성능을 보여준 혹은 능가하는 오픈소스(llama3 70b, 7b, mixtral, phi)는 그보다 왼쪽에 몰려있음.이건 분명히 단순히 난이도 문제로 보기에는 이상해보임. 두 문제(난이도, 과적합)가 섞여서 나온거면 몰라도.

펼쳐보기▼

jwl

2024-05-04 19:00:06 답글

'5%는 그냥 그럴수 있지만 10%는 무언가 있다' 같은 주장을 할려면 당연히 p-value같은 통계적 유의성이 제시가 되어야 함. 신뢰구간을 그려주거나 *로 유의한 gap을 강조한다던지. 저 preprint는 그런 기본적인 통계처리조차 안되있다는 점에서 accept될수 있는 단계의 논문은 아니라고 보임.

펼쳐보기▼

jwl

2024-05-04 19:06:02 답글

특히, 저 비교대상에 GSM8k 벤치가 40%대인 mistral부터 95%를 찍는 Claude Opus까지 다 섞어놓고 절대점수 없이 gap만 비교하고 있는것도 심각한 문제인데, 중간고사 40점 맞던 A는 기말고사 30점 맞고, 중간고사 95점 맞은 B는 기말도 95점 맞은 상황에서, 'B는 점수가 그대론데 A는 점수가 10점이나 떨어지다니! A의 중간고사 점수는 기출을 달달 외워서 본 가짜 실력이고 A의 실력은 30점이 맞아!'라고 주장하는 거나 같은 느낌임

펼쳐보기▼

jwl

2024-05-04 19:15:24 답글

저런 결과를 보면 1차적으로는 생각해야되는건 '중간고사랑 기말고사가 범위랑 난이도가 진짜로 똑같나?'이고, 실제로 출제한 선생들조차 전혀 다른 사람들인 상황인거고, 2번째로, 통계학의 법칙상 95점 맞던 사람은 이미 잘하기 때문에 점수편차가 크지 않을 가능성이 높지만, 40점 맞던 사람은 점수 변동폭 자체도 크니까 다음에 30점 맞아도 통계적으로 유의한 사건일 확률이 낮음

펼쳐보기▼

jackofmaster

2024-05-04 19:40:53 답글

*수정됨

ㅇㅎ.
근데 확실히 저 피규어는 자극적으로 보이긴함 확실히 갭만 강조하는 느낌임.
그거랑 별개로 실제 gsm1k 절대점수는 논문에서 전부 확인할수있더라 또 gsm8k 70%이상부터 비교한 피규어도 있드라

펼쳐보기▼

ㅇㅇ

2024-05-03 02:36:48 답글

오 ㄷㄷ

펼쳐보기▼

이게예술이지ㅋㅋ

2024-05-06 16:02:19 답글

결국에 벤치마크 데이터를 주기적으로 바꾸는 수 밖에는 없을 듯

펼쳐보기▼

글쓰기

전체글 Ai 언어모델 로컬 채널

최근 최근 방문 채널

최근 방문 채널

전체

번호 제목

작성자 작성일 조회수 추천

공지 아카라이브 모바일 앱 이용 안내(iOS/Android)

*ㅎㅎ 2020.08.18 28356513

2922389 붕괴 스타레일 ㅤ [4]

ㅇㅇ 8시간전 84 12

2922388 이상성욕 일반 (장문) 미용실 원장이랑 오늘 있었던 일(인증있음) feat. 섹파 [13]

슈빗끼 8시간전 200 5

2922387 피난민 전부터 데이트앱 남성유저 신상 공유하던거

바둑기사말고다른이세돌 9시간전 97 5

2922386 붕괴 스타레일 내 손가락이 그리 이상해? [15]

쓰쓰씄씄 8시간전 352 14

2922385 피난민 직구 규제는 걍 [3]

아르세아 9시간전 117 5

2922384 순애 은근히 순애 좀 치는 만화 [9]

ㅇㅇ 11시간전 593 16

2922383 이터널 리턴 🎨창작🔞 요즘 레니 왤캐 보임 [5]

뚜루루루룩 1시간전 112 6

2922382 DEAD AHEAD 팬아트 앤트장교 [6]

나요임마 05-15 79 5

2922381 에어소프트 🔫총짤 우울하니까 추하게 개추구걸이나 해야겠다 [4]

MINTCAT 1시간전 111 10

2922380 에어소프트 🥾군장/코스 스압?)내년 4월 말에 사려 했던것 기록 겸 졸사 코스?프레 모음 [3]

시고르솦쟁이 4시간전 260 10

2922379 KBO 잡담 이런 채널이 있었네? [10]

소노가미_린네 9시간전 135 8

2922378 붕괴 스타레일 호에에에에엣 거긴 떵꺼에여어어억 [19]

줘팸순애 8시간전 485 10

2922377 붕괴 스타레일 🔞야짤 솔직히 붕스 아이콘 이걸로 바꼈으면 [3]

시게이소년 9시간전 930 13

2922376 스노우 브레이크 창작 모드같은거 만드는거 대단하네 [5]

리브 5시간전 197 8

2922375 에어소프트 일반 우리 아빠도 직구 규제 관련해서 말한거 있음 [4]

순애_한접시 28분전 348 19

2922374 프라모델 솔직히 이거 사고싶음 [13]

응붕이 8시간전 257 6

2922373 에어소프트 일반 살다살다 이나라가 미국을 손절할줄이야 [6]

레이오닉 21분전 380 17

2922372 프로젝트 세카이 창작 미즈에나로 MMD 만들어왔음!! [2]

원신원신원신원신 39분전 33 5

2922371 유희왕 공식정보 VJMP) 마기스토스 코로조 [31]

시트리스와함께침대시트적시기 9시간전 455 10

2922370 우마무스메 프리티 더비 짤 시티 다 [2]

안알랴쥼 9시간전 110 7

2922369 에어소프트 일반 그...혼란한 챈에 [9]

펭귄 34분전 189 21

2922368 툴리우스 💎대회 누라 ㄷㄷㄷㄷ <<< [폴샷] [9]

CVLTE 33분전 91 10

2922367 던전앤파이터 룩 [던룩대]죠죠 쿠죠 죠타로 [7]

옥농 10시간전 267 12

2922366 리그 오브 레전드 대회 꼬추 걸거면 티원에 걸어야지 바보냐? [9]

티원 11시간전 387 10

2922365 유머 유머 KC인증 마크의 필요성 [16]

사랑니요정치르노 24분전 1286 70

2922364 페르소나5 더 팬텀 X 토시야 70찍어왔다 [5]

월아천랑 9시간전 185 11

2922363 가이진 주딱 대머리 [3]

카나타의남편 9시간전 92 12

2922362 피난민 직구규제는 반드시 외교문제가 있을 수밖에 없음 [4]

Z맘 11시간전 190 5

2922361 에어소프트 일반 진짜 화염병 맛좀 봐야하나? [13]

otenkigirl 1시간전 471 24

2922360 숏스택 🔞야함 30장 [1]

디스나르 15시간전 310 11

글쓰기

전체글 Ai 언어모델 로컬 채널

사용하고 계신 브라우저가 시간대 설정을 지원하지 않으므로 GMT 시간대가 적용됩니다.