llama3 의 양자화 버전의 성능은 얼마나 나올까? - Ai 언어모델 로컬 채널

Ai 언어모델 로컬 채널

알림 알림 중 알림 취소

구독자 3391명 알림수신 166명 @바바리맨

제한없는 언어모델을 위한 채널

정보 llama3 의 양자화 버전의 성능은 얼마나 나올까?

hkhk

추천 8 비추천 0 댓글 6 조회수 813 작성일 2024-04-23 04:49:10

https://arca.live/b/alpaca/104342016

How Good Are Low-bit Quantized LLaMA3 Models? An Empirical Study

https://arxiv.org/pdf/2404.14047.pdf

결론 1줄 요약 - 나쁘지 않음. 70B의 경우 24GB dual 로 돌릴 수 있는 구성으로 AWQ 4bit 가 개중 쓸만함.

레딧 유저 ravenwolf 의 실험 기록

https://www.reddit.com/r/LocalLLaMA/comments/1cal17l/llm_comparisontest_llama_3_instruct_70b_8b/

결론 2줄 요약 -

24GB 듀얼 - turboderp/Llama-3-70B-Instruct-exl2 4.5bpw 가 가장 양호

24GB 싱글 - 그냥 8B 모델 쓰는 것보다 70B 2bit 모델 쓰는게 더 점수 잘 나옴 (even at Q2_K, the 70B remains a better choice than the unquantized 8B.)

댓글 [6] 글쓰기

2024-04-23 04:55:47 답글

aqlm, hqq+, quip#같은 sota알고리즘도 적용해서 결과 보고싶네요.

펼쳐보기▼

hkhk

2024-04-23 05:53:39 답글

첫번째 논문 보면 rtn, awq, gptq, quip, smoothquant 등 이용해서 비교해놓은 표가 있습니다. 그중에 4비트에선 awq가 잘 나왔습니다

펼쳐보기▼

2024-04-23 06:11:34 답글

*수정됨

위에 있는 모두 현재 sota알고리즘이 아닙니다. quip#은 quip의 개선판 입니다.

펼쳐보기▼

2024-04-23 05:23:38 답글

70b 2bit이면 용량 얼마나 차지하려나요

펼쳐보기▼

hkhk

2024-04-23 05:55:37 답글

70%4 = 17.5 인데 그것보다 이것저것 더들어갈거지만 어쨌든 24기가 내에서 돌릴 수 있는 모양

펼쳐보기▼

2024-04-23 06:39:07 답글

그냥 meta.ai에서 테스트하고 로컬은 엄두도 안냈는데 한번 다운받아봐야 겠네요

펼쳐보기▼

전체글 개념글

최근 최근 방문 채널

최근 방문 채널

전체 일반 질문 정보 학습 자료 자작모델 스터디 공지 운영 공모

번호 제목

작성자 작성일 조회수 추천

공지 아카라이브 모바일 앱 이용 안내(iOS/Android)

*ㅎㅎ 2020.08.18 28462421

공지 Ai 언어모델 로컬 채널 이용규정

바바리맨 2023.04.18 5974

공지 뉴비에게 도움 되는 글 모음

바바리맨 2023.04.18 26896

공지 언어모델 관련 정보취득 /무료체험 가능 사이트

바바리맨 2023.04.18 8837

공지 여러분의 학습에 도움을 줄 수 있는 하드웨어 지원

바바리맨 2023.08.01 5051

공지 신문고

바바리맨 2023.04.18 2230

숨겨진 공지 펼치기(1개)

696 정보 Augmentoolkit - 생 텍스트를 넣으면 instruct 데이터셋을 만들어주는 툴킷 [5]

hkhk 2024.05.16 741 13

695 정보 LLaMA-3 8B, 70B 모델의 양자화 단계별 MMLU성능 비교표 [10]

hkhk 2024.05.16 1338 19

694 정보 llama3기반 파라메터 확장 한국어 파인튜닝모델 [4]

hkhk 2024.05.16 860 8

693 정보 gpt2-chatbot돌아옴 [15]

HyperBlaze456 2024.05.07 1887 12

692 정보 모델은 얼마나 벤치마크에 과적합 되어 있은가?: GSM-1k [15]

jackofmaster 2024.05.02 1261 15

691 정보 4060ti 16GB 메모리 오버클럭 비교 [6]

게지네 2024.05.01 626 7

690 정보 교내 산학협력으로 직접 구축한 윤리, 편향 대응 일상대화 데이터셋 [11]

pyross 2024.04.27 1106 31

689 정보 나이지리아 인들이 AI 에 독을 풀었다. [15]

hkhk 2024.04.27 2228 23

688 정보 beomi / Llama-3-Open-Ko-8B [6]

al06r 2024.04.27 1349 8

687 정보 서울과기대, LLama3 8B 파인튜닝 영어-한국어 모델 'Bllossom' [10]

al06r 2024.04.26 1621 4

686 정보 merge kit에 Evolutionary Model Merging추가 [1]

jackofmaster 2024.04.24 272 3

685 정보 애플의 완전 오픈소스 모델: OpenELM [13]

jackofmaster 2024.04.24 1482 14

684 정보 phi 3 mini출시 [6]

jackofmaster 2024.04.23 539 3

683 정보 원하는 모델을 gguf로 변환 해줍니다. [2]

zzzzz5 2024.04.23 561 5

682 정보 llama3 의 양자화 버전의 성능은 얼마나 나올까? [6]

hkhk 2024.04.23 814 8

681 정보 phi 3 기술 보고서 발표 [3]

ㅇㅇ 2024.04.23 606 7

680 정보 meta가 향후 출시할 llama3모델들 [10]

ㅇㅇ 2024.04.18 1419 14

679 정보 라마 3 8B 70B 출시. [11]

하나악 2024.04.18 1417 15

678 정보 Mixtral-8x22B instruct v0.1 공개 [1]

kadd 2024.04.17 503 6

677 정보 mt bench에서 gpt4 0314능가: wizardlm 2 8x22b [12]

ㅇㅇ 2024.04.15 1000 11

전체글 개념글

사용하고 계신 브라우저가 시간대 설정을 지원하지 않으므로 GMT 시간대가 적용됩니다.