[lmsys] Llama-3-70B가 잘하는 것과 못하는 것 - Ai 언어모델 로컬 채널

Ai 언어모델 로컬 채널

알림 알림 중 알림 취소

구독자 3404명 알림수신 168명 @바바리맨

제한없는 언어모델을 위한 채널

일반 [lmsys] Llama-3-70B가 잘하는 것과 못하는 것

추천 6 비추천 0 댓글 4 조회수 933 작성일 2024-05-10 06:20:28 수정일 2024-05-10 07:01:12

https://arca.live/b/alpaca/105839792

출처: https://www.reddit.com/r/LocalLLaMA/comments/1cnpjo9/deepdive_into_llama_3s_arena_wins_against_bigger/

출처의 출처:

<span class="fr-mk" style="display:none"> </span><span class="fr-mk" style="display:none"> </span><span class="fr-mk" style="display:none"> </span><span class="fr-mk" style="display:none"> </span><span class="fr-mk" style="display:none"> </span><span class="fr-mk" style="display:none"> </span><span class="fr-mk" style="display:none"> </span>

https://twitter.com/lmsysorg/status/1788363018449166415

진짜진짜출처: https://lmsys.org/blog/2024-05-08-llama3/

lmsys에서 chatbot arena에 올라온 질문을 분석해서 Llama-3가 잘하는 것과 못하는 것을 분류했습니다.

Win Rate는 Top-tier 모델들(Opus, GPT-4 등)과 붙었을 때 승률을 뜻합니다.

브레인스토밍/시 쓰기/RP 같은 창의적인 작업은 Top-tier보다도 잘하는데,
코딩/수학/요약/번역/상식 등은 Top-tier에 비하면 많이 부족한 걸 볼 수 있습니다.
(참고: Llama-3-8B-instuct랑 Opus의 평균 승률이 33%정도 됩니다. - 대략 ELO 100차이)

이런 트리도 있습니다.

전반적으로 Llama-3-70B가 창의성은 GOAT고 복잡한 요구/전문지식 기반 대화는 훨씬 별로라고 보면 되겠네요.

댓글 [4] 글쓰기

ㅇㅇ (49.174)

2024-05-10 06:45:08 삭제 수정 답글

*수정됨

글쓰기 시켰을 때 말빨은 좋지만 어려운 문제내면 결국 GPT-4와 Claude Opus보다는 못한다는 결론. 우리가 필요로 하는 게 말빨이냐 코딩, 수학 문제나 어려운 태스크를 푸는 것이냐에 따라 선택하면 될 것 같음.

펼쳐보기▼

2024-05-10 07:14:53 답글

아쉽군요 요약 또는  글짓기에 쓰려했는데

펼쳐보기▼

2024-05-10 07:41:03 답글

결국 비교군이 대형모델이라는 점에서는 의의가 잇는 거 같습니다.
70B 정도로 저정도면 매우 탐나네요.

펼쳐보기▼

2024-05-12 15:02:32 답글

코딩 끝판왕은 어떤게 나으려나

펼쳐보기▼

전체글 개념글

최근 최근 방문 채널

최근 방문 채널

전체 일반 질문 정보 학습 자료 자작모델 스터디 공지 운영 공모

번호 제목

작성자 작성일 조회수 추천

공지 아카라이브 모바일 앱 이용 안내(iOS/Android)

*ㅎㅎ 2020.08.18 28553126

공지 Ai 언어모델 로컬 채널 이용규정

바바리맨 2023.04.18 6010

공지 뉴비에게 도움 되는 글 모음

바바리맨 2023.04.18 27084

공지 언어모델 관련 정보취득 /무료체험 가능 사이트

바바리맨 2023.04.18 8905

공지 여러분의 학습에 도움을 줄 수 있는 하드웨어 지원

바바리맨 2023.08.01 5103

공지 신문고

바바리맨 2023.04.18 2245

숨겨진 공지 펼치기(1개)

4242 일반 오늘부로 deepseek에 대한 지지를 철회한다 [8]

maywell 2024.05.24 137 2

4241 일반 오픈소스 8b 모델이 업스테이지 솔라를 추월 [4]

maywell 2024.05.24 136 3

4240 일반 Vicuna에서 답변받은 내용을 가공할수있음 ? [2]

ㅇㅇ (211.118) 2024.05.24 171 -2

4239 질문 간단한 질문드립니다! [1]

ㅇㅇ (121.166) 2024.05.24 127 0

4238 일반 우바부가 잘아는사람있음? [2]

ㅇㅇ (211.118) 2024.05.24 182 0

4237 질문 회사에 RAG 쓰시는 분들에게 질문 [13]

ㅇㅇ (1.232) 2024.05.24 416 0

4236 일반 akallama ollama Modlefile template 오류

억장이 2024.05.24 106 0

4235 일반 앤트로픽이 밑에 소넷 작동원리를 파악한거를 금문교 클로드로 공개했네요 [4]

그래요 2024.05.24 336 6

4234 정보 Cohere에서 신규 모델(Aya 23 8B/35B) 나왔네요 [4]

ㅇㅇ 2024.05.23 522 7

4233 일반 중국발 ai 덤핑에 대해서 말이 많긴 하네요. [6]

감별사 2024.05.23 539 5

4232 스터디 llama2.c 모델 학습 결과 [2]

zzzzz5 2024.05.23 360 9

4231 일반 llama 3 70B -> 4x8B [1]

zzzzz5 2024.05.23 558 8

4230 정보 MacOS chatgpt app waitlist 우회하는 방법

jackofmaster 2024.05.23 275 6

4229 질문 프롬프트 엔지니어링이라는 용어의 범주? [2]

초당옥수꾸 2024.05.23 356 0

4228 일반 흥미로운 일/영 번역모델이 나왔네요 [6]

한가운데 2024.05.23 416 5

4227 질문 unsloth에서 device map 설정 방법 아시는 분 계실까요? [2]

ㅇㅇ (58.234) 2024.05.23 216 0

4226 질문 전력공학이나 전기공학 학습용 데이터같은것도있을까요? [1]

ㅇㅇ (1.235) 2024.05.22 197 0

4225 정보 mistral 7b 0.3출시 [5]

jackofmaster 2024.05.22 668 8

4224 일반 영향 있는 Lora 만드려면 몇번쯤 돌려야 하는거임? [1]

세법상법 2024.05.22 301 1

4223 스터디 딥러닝모델의 망각증상 (Catastrophic Forgetting)에 대한 고찰 [11]

hkhk 2024.05.22 718 31

전체글 개념글

사용하고 계신 브라우저가 시간대 설정을 지원하지 않으므로 GMT 시간대가 적용됩니다.