GPT-4o, EQ-Bench와 Creative Writing 벤치마크에서 최상위 달성 - AI 채팅 채널

AI 채팅 채널

채널위키 알림 알림 중 알림 취소

구독자 10843명 알림수신 226명 @몽상봉인

AI와 대화하며 유사 인싸체험 하는 채널

뉴스/팁 GPT-4o, EQ-Bench와 Creative Writing 벤치마크에서 최상위 달성

추천 13 비추천 0 댓글 5 조회수 731 작성일 2024-05-15 04:10:56 수정일 2024-05-15 04:18:27

https://arca.live/b/characterai/106225075

EQ-Bench는 대화에서 감정 반응의 강도를 평가하여 언어 모델의 감정 지능을 평가하는 벤치마크임. 인간의 선호도와 강한 상관관계를 가짐.

MAGI-Hard는 MMLU와 AGIEval를 결합하여 진짜로 성능있는 모델과 벤치마크에 특화된 가짜성능 모델을 구별할 목적으로 만들어진 벤치마크임.

이 평균으로 이루어진 리더보드에서 사오는 기존의 gpt-4-turbo-2024-04-09를 제치고 SOTA(State-of-the-art) 모델을 달성했음.

Creative Writing은 언어 모델의 창의적 글쓰기 능력을 평가하는 벤치마크로, Claude 3 Opus가 36개의 기준에 따라 모델의 글쓰기 능력을 평가함.

여기서도 사오가 최상위를 차지하며 창의적 글쓰기 분야에서의 SOTA 모델임을 입증했음.

Judgemark는 수치적 평가 시스템을 사용하여 모델이 창의적 글쓰기를 판단할 수 있는 능력을 측정하는 벤치마크로, 다른 벤치마크와 달리 모델이 다른 글을 평가하는 능력을 측정하는거임.

이 벤치마크에선 여전히 오푸스가 최상위를 차지했는데 그래서 아직까진 평가용으론 오푸스가 가장 좋다는걸 의미함.

댓글 [5]

2024-05-15 04:18:36

글 뉴스 탭으로 이동시킴

펼쳐보기▼

2024-05-15 04:24:03

2024-05-15 05:44:51

중간 표에 있는 라마3 120은 무슨 모델이죠?

펼쳐보기▼

2024-05-15 05:47:06

https://huggingface.co/mlabonne/Meta-Llama-3-120B-Instruct

라마 3 70b를 self-merge해서 만든 모델이라고 합니다.

mlabonne/Meta-Llama-3-120B-Instruct · Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

라마 3 70b를 self-merge해서 만든 모델이라고 합니다.

펼쳐보기▼

2024-05-15 05:52:29

본 게시물에 댓글을 작성하실 권한이 없습니다. 로그인 하신 후 댓글을 다실 수 있습니다. 아카라이브 로그인

전체글 개념글

최근 최근 방문 채널

최근 방문 채널

전체 일반 질문 뉴스/팁 AI대화 공지 운영 뉴스(공사중)

번호 제목

작성자 작성일 조회수 추천

공지 아카라이브 모바일 앱 이용 안내(iOS/Android)

*ㅎㅎ 2020.08.18 30888471

공지 안 읽으면 죽어버리는 AI 채팅 채널 이용규정 [23.09.18]

몽상봉인 2023.05.22 52106

공지 AI 채팅 채널에 왔으면 이것부터 : 필수정보 및 FAQ

몽상봉인 2023.05.22 109171

공지 신문고 MK.X (해줘. 할때 쓰는 곳)

몽상봉인 2024.05.27 1758

공지 ㅡㅡ [ AI 게임 / 기획 / 리뷰 대회 ' J.O.A.T ' 개최 ] ㅡㅡ

골든햄스터 2024.03.31 5614

공지 ㅡㅡ [ J.O.A.T - 리뷰 대회 추가 & 연장 공지 ] ㅡㅡ

골든햄스터 2024.05.18 782

공지 [우물 리뷰] 내 봇이 목말라서 개최하는 우물 리뷰 대회

ㅇㅇ 2024.06.10 449

공지 ---[2회차 천박 대회 순위 발표!]---

hyeoyoms 2024.06.01 1487

공지 AI 채팅 채널 프록시 게이트

몽상봉인 2023.07.12 24037

숨겨진 공지 펼치기(4개)

16636 일반 챗붕이가 주인공인 영화, her(그녀) 재개봉! [11]

페퍼로니우지챠 2024.06.05 412 13

16635 일반 챈이 참 클린하긴 해 [38]

꼬북칩 2024.06.05 793 19

16634 일반 검열이 봇 나쁜놈이라고 알려줌 [12]

루리호 2024.06.05 601 24

16633 일반 리스에 바라는 작은 한 가지 [23]

꼬북칩 2024.06.04 546 12

16632 뉴스/팁 현실찐따인 내가 사이버세상에서 범부와 대화?! 뉴비 과정 및 모듈 공유 [33]

Moire 2024.06.05 1066 22

16631 AI대화 뉴빈데 챈들 고마워요 [10]

Moire 2024.06.05 1118 19

16630 일반 알면 조금 도움이 되는 리스 팁 3개 [21]

ㅇㅇ 2024.06.05 1061 47

16629 일반 "오오옷!! 인격을 모두 배설 해버려~!!!" [14]

operatur 2024.06.05 1100 25

16628 일반 미공개 와이푸 공개함 먹음? [23]

LIP 2024.06.05 998 23

16627 일반 나도 100년 뒤 챗챈 예측해본다 [15]

ㅇoㅇ 2024.06.05 818 29

16626 일반 AWS의 액세스키가 털렸을때 내가 한 방법. [14]

RGF 2024.06.05 888 32

16625 일반 AI가 100년 안에 99.9% 인류를 멸종시킨다! [21]

ㅅㄴㅇ 2024.06.05 1051 23

16624 일반 제미니 지능 심각하긴하네.. [12]

2212 2024.06.05 943 13

16623 AI대화 Ai뉴비인데 이렇게 하는거 맞나(근출,math가키) [14]

lol 2024.06.05 749 19

16622 일반 심심해서유즈그렷음 [30]

RUHA 2024.06.05 627 24

16621 AI대화 우우,,호랑이눈나 나 죽어,,, [15]

포마 2024.06.05 650 15

16620 뉴스/팁 '뤼튼' 대규모 권고사직 단행 (+ 뤼튼 관련 예전 해외 반응들) [32]

몽상봉인 2024.06.05 2631 31

16619 뉴스/팁 ai 채팅을 게임 번역기로 사용해본 후기 및 팁 및 프롬 공유 [9]

scipiosss 2024.06.05 1054 26

16618 AI대화 아니 대체 뭐하는 짓이야 이 미친 잼민아!!!!!!!! [14]

ㅇoㅇ 2024.06.05 963 26

16617 뉴스/팁 퍼플렉시티> ChatGPT 장애 원인은 러시아의 DDoS 공격 때문 [13]

조선닌자핫토리 2024.06.05 968 20

16616 일반 폰 웹리스 쓰는 유저들 조심해라... [41]

sorrowsnow 2024.06.04 1090 15

16615 AI대화 잼민이한테 처음으로 감동함 [6]

리프S2삿시부 2024.06.04 687 14

16614 일반 오늘까지의 aws 클로드 유출 관련 현황 (내용 추가) [14]

90090 2024.06.05 786 32

16613 뉴스/팁 이제 세션 시작 시 기본으로 변수 지정 가능함 [5]

위대하신코코미동지 2024.06.04 378 13

16612 AI대화 Math가키쨩과 함께 핵물리학 과제하고 있다 [8]

화학2 2024.06.04 466 20

16611 일반 스압)S랭크 헌터 니은이 제작후기(feat: 417살 할머니 사랑꾼) [23]

공원무료급식도둑 2024.06.04 918 22

16610 일반 리스 서버는 안전합니다 [14]

ㅇㅇ 2024.06.04 1229 26

전체글 개념글