벤치마크 뻥튀기에 대한 뉴스 (과적합)

개념글 모음

알림 알림 중 알림 취소

구독자 2716명 알림수신 78명

각 채널의 개념글을 모은 게시판입니다.

AI 채팅 뉴스/팁 벤치마크 뻥튀기에 대한 뉴스 (과적합)

몽상봉인

추천 28 비추천 0 댓글 11 조회수 609 작성일 2024-05-02 12:03:13 수정일 2024-05-02 12:10:53

https://arca.live/b/characterai/105194264

일부 내용은 쉬운 이해를 위해 생략하거나 수정함

원본 링크

arxiv : https://arxiv.org/abs/2405.00332v1

허깅페이스 : https://huggingface.co/papers/2405.00332

저자 : Hugh Zhang, Jeff Da, Dean Lee, Vaughn Robinson, Catherine Wu, Will Song, Tiffany Zhao, Pranav Raja, Dylan Slack, Qin Lyu, Sean Hendryx, Russell Kaplan, Michele (Mike)Lunati, Summer Yue

수학적 추론에 대한 벤치마크로 GSM8k가 사용되고 있음

하지만 실제로 추론하는것이 아닌 답을 외워버리는게 아니냐는 우려가 커지고 있음

이에 따라 Scale AI는 새로운 벤치마크인 GSM1k를 만들어 벤치마크를 다시 돌려보았음

위 그래프는 GSM8K와 GSM1K의 격차에 따라 나열한것임

Mistral과 Phi는 GSM1K에서 점수가 거의 10% 가량 하락했음

반면에 GPT, Claude, Gemini 같은 모델은 과적합 징후가 나타나지 않았음

(해당 논문에 작성되어 있는 실험 과정이나 검증 과정 등의 내용들은 이 글에서 생략)

결론1. 일부 모델군은 체계적으로 과적합됨

Phi 및 Mistral 등의 모델 제품군들은 GSK1K에서 더 낮은 성능을 보여줌

결론2. 다른 모델, 특히 프론티어 모델에서는 과적합 징후가 보이지 않음

GPT, 클로드, 제미나이 같은 프론티어 모델 및 미스트랄 라지 같은 프론티어에 가까운 모델들은 GSM1K와 GSM8K에서 유사한 성능을 보여줌

이에 따라 가설 2가지가 제시됨

1. 프론티어 모델은 GSM8K 문제를 일반화하여 GSM1K 문제를 풀수 있을정도로 진보한 추론 능력을 가지고 있음

2. 프론티어 모델은 데이터 오염에 더 주의했음

저자는 (1)이 맞을거같다고 추정하는데, 이유는 미스트랄 모델군은 라지에서만 GSM1K와 GSM8K에서 차이가 없었기 떄문임

결론3. 과적합 모델도 여전히 추론이 가능함

여전히 훈련 데이터에 없더라도 추론이 가능함

단지 성능이 벤치마크만큼 안나올뿐임

결론4. 과적합이 일어나는 이유는 데이터 오염외에 더 있을수도 있음

(설명 생략) 모델 작성자가 훈련 데이터로 벤치마크와 성격이 유사한 데이터를 수집하거나 성능을 기반으로 최종 모델 체크포인트를 선택하는 등 다른 간접적인 수단을 통해 발생할 수 있음을 시사함

원문 : https://arxiv.org/abs/2405.00332v1

네리모르

2024-05-02 12:04:12

스케일 오랜만에 듣네

펼쳐보기▼

몽상봉인

2024-05-02 12:14:00

ㄹㅇ

펼쳐보기▼

ㅇㅇ

2024-05-02 12:04:42

어이김씨손가락이나지워

2024-05-02 12:11:36

파멜랴

2024-05-02 12:16:55

LuckyAI

2024-05-02 12:34:08

K아논

2024-05-02 12:37:38

고릴라미카쟝

2024-05-02 12:45:23

자러감ㅅㄱ

2024-05-02 13:04:34

ㅇㅇ

2024-05-02 14:20:09

오히려 점수가 오르는 클황 ㄷㄷ

펼쳐보기▼

Daydric

2024-05-02 16:52:06

양대산맥이 괜히 양대산맥이 아니네

펼쳐보기▼

본 게시물에 댓글을 작성하실 권한이 없습니다. 로그인 하신 후 댓글을 다실 수 있습니다. 아카라이브 로그인

전체글 AI 채팅 채널

최근 최근 방문 채널

최근 방문 채널

전체

번호 제목

작성자 작성일 조회수 추천

공지 아카라이브 모바일 앱 이용 안내(iOS/Android)

*ㅎㅎ 2020.08.18 28337127

2920063 유머 유머 책임을 국민에게 떠넘기는 정부 관료 [4]

쇼비아군 49분전 816 20

2920062 유희왕 ........쿼싴이 왜 이런거만 나오지 [10]

절대영도아이스크림 16분전 98 10

2920061 장르소설 차단/경고 직구 떡밥 2시까지 [4]

브륜 8분전 77 6

2920060 유머 유머 대한민국이라는 나라의 꼬라지가 정말로 끔찍하군요 [8]

커미션넣고싶다 1시간전 809 23

2920059 퍼니싱 중섭 팁/정보 【퍼니싱】 캐릭터 스토리 | 유옥응심 [8]

리무르 1시간전 80 8

2920058 유머 유머 아내가 공동명의를 요구하자 처남 4명을 살해한 사건 [17]

전여친 17분전 1222 24

2920057 핫딜 식품 구운 계란 30+30 총 60구 (11,920원/무료) [14]

미카콜라 1시간전 1310 8

2920056 블루 아카이브 번역 핫산) 아리스 머리카락 잘라 주는 선생 [5]

이즈미모토에이미 4시간전 1388 17

2920055 붕괴3rd 공대쪽 좆됐나본데ㅋㅋㅋ [17]

사람아님 35분전 391 11

2920054 라스트오리진 [공지] 직구떡 굴리는건 좋은데 정떡으로 발전시키진 마세요 [12]

쿠드리게스 15분전 170 13

2920053 로스트아크 대회 [2024중력절] 은은하게 그의 목소리가 들린다... [9]

카와이쟝 10분전 109 10

2920052 던전앤파이터 오늘부터 대한민국 대통령은 [15]

소망슝슝 31분전 440 19

2920051 블루 아카이브 뭐야 추천수 왤케 높아 [37]

호호불어먹어임마 9분전 675 48

2920050 붕괴3rd 오늘 결혼합니다...축하해주세요 [26]

고시아스 10분전 252 19

2920049 익명 소설 소설📖 갑자기 닌자가 나타났다. [6]

기쁜_까만_익룡 05-12 69 6

2920048 프라모델 미나 다했다~ [3]

lecama 11시간전 168 6

2920047 에어소프트 일반 이번사태 어머니께 밀씀드려봤더니 [12]

hubchicken 1시간전 756 16

2920046 아우터플레인 병신 [7]

찌찌통슈퍼런쳐 1시간전 135 6

2920045 붕괴 스타레일 초등학교부터 좋아하던 친구한테 고백하는.manhwa [29]

우왕밤빵 16분전 875 29

2920044 로보토미 코퍼레이션 🎨창작 이이이상 낙서 [14]

ㅇㅇ 9시간전 292 14

2920043 에어소프트 일반 그와중에 없는게 없는 무한도전 ㅋㅋㅋㅋㅋ [4]

ECHO 16분전 496 27

2920042 엘소드 아니 점메추 [8]

끼잉끼잉퓨퓨힝 1시간전 55 6

2920041 라스트오리진 이거 위헌 아니냐? [25]

ksi4822 1시간전 553 11

2920040 블루 아카이브 어제자 에타 근황 [20]

trwe 17분전 1000 37

2920039 원신 직구규제로 다시한번 입증된 명문... [9]

냥코 22분전 696 21

2920038 리버스 1999 이번 1.6 공식방송이 정말 개쩌는 이유 [15]

우누칼하이 05-14 360 11

2920037 케모노 🔞 지금 번역중인것 [2]

리저렉션 2시간전 108 10

2920036 격투게임 뉴비 받아라 [7]

이샤믈라는나의빛 3시간전 116 7

2920035 피난민 나뮈 직구문서 존나맵네 [2]

ㅇㅇ 1시간전 140 5

전체글 AI 채팅 채널

사용하고 계신 브라우저가 시간대 설정을 지원하지 않으므로 GMT 시간대가 적용됩니다.