라마3 초간단 리뷰 - Ai 언어모델 로컬 채널

Ai 언어모델 로컬 채널

알림 알림 중 알림 취소

구독자 3404명 알림수신 168명 @바바리맨

제한없는 언어모델을 위한 채널

일반 라마3 초간단 리뷰

사과는맛있어맛있으면바나나

추천 7 비추천 0 댓글 14 조회수 1302 작성일 2024-04-18 16:54:48 수정일 2024-04-18 17:26:35

https://arca.live/b/alpaca/103985424

전작인 라마2에 비해 학습 토큰이 7.5배로 늘어남(RedPajama data v2 감사합니다 정말)

최대 토큰 길이도 2배로 늘어남

소소하지만 8b에도 GQA가 적용됨

제미니 프로, 클로드 소네트 퇴물됨

미스트랄 미디움, gpt-3.5는 확실하게 퇴물됨

MMLU만 따지면 이번 라마3-8b는 라마1-65b를 이미 뛰어넘었음

메타는 아직 학습중인 400b모델의 벤치마크도 미리 공개했음

참고로 최근 주요 모델들의 mmlu는 위와 같음

400b를 누가 쓸까 싶지만, 저만한 성능의 모델 자체를 오픈한거라 의미가 매우 클듯

로컬붐은 왔다.

라마3에서 vocab 수가 4배로 늘어남. 한국어 헌법 전문을 tokenize해보니 총 토큰 수가 1/2 정도로 줄어 commandr과 비슷해짐

다만 한국어 성능은 별개의 문제

댓글 [14] 글쓰기

hkhk

2024-04-18 17:03:22 답글

*수정됨

가장 중요한 차이점 중 하나가 토크나이저 vocab수가 128256 으로 늘어남. 한국어 능력이 얼마나 될지가 궁금함.
한국어까지 학습되서 잘 하던 cohere 의 commandr 모델의 vocab 이 256000 이었음. commandr 만큼 한국어 하면 진짜 좋겠다... 라고 생각했는데, 발표 블로그 보니까 외국어 능력 강화모델, 비전 강화모델, 컨텍스트 증가 모델등은 나중에 출시할거라고 하네 ... 아직은 좀 더 기다려야 할 듯

펼쳐보기▼

사과는맛있어맛있으면바나나

2024-04-18 17:04:23 답글

그걸 까먹었네. 토큰 확인하고온다

펼쳐보기▼

사과는맛있어맛있으면바나나

2024-04-18 17:27:08 답글

확실히 한국어 관련 토큰이 추가되긴 한듯. commandr과 비슷해짐
근데 한국어를 잘하진 않더라고

펼쳐보기▼

hkhk

2024-04-18 17:05:06 답글

참고로 모델 파라메터수가 7b 에서 8b 로 늘어난 이유가 토큰 갯수가 많아져서임. embed_input 과 embed_out 의 행렬 크기가 토큰 vocab 에 비례하는 만큼 커짐..

펼쳐보기▼

변태Lv1

2024-04-18 17:19:27 답글

400b... 이건 뭐 굴리지도 못할듯

펼쳐보기▼

hkhk

2024-04-18 17:20:42 답글

또하나의 중요한 차이점 - 어텐션층 다음에 있는 mlp 블럭의 hidden size 가 11008 에서 14336 으로 증가함. moe 모델들이 mlp 를 강화한 것에 대응하되, moe 는 채택하지 않는 수준에서 대응한 것으로 추측함

펼쳐보기▼

hkhk

2024-04-18 17:22:30 답글

암튼 하루 사이로 sd3, llama3 이 각각 발표되다니 ai 역사의 중요한 시기로 기록될 듯

펼쳐보기▼

noopSD

2024-04-18 18:59:54 답글

Mixtral v0.1 8x22B 부터 아 이제 VRAM 48GB 도 좀 버거운데 싶었는데 Llama 3 400B 로 이제 로컬 돌리려면 NVIDIA 도 아닌 최소 M3 Ultra 128GB 로 가라고 등 떠미는 거 같네요 ;;;;;;;;

펼쳐보기▼

ㅇㅇ (121.166)

2024-04-19 05:44:55 삭제 수정 답글

*수정됨

죄송하지만 질문하나만 하겠습니다 ㅠㅠ 8x22B 모델을 48GB에 어떻게 올리시는지 여쭤봐도 될까요?  QLoRA같은 기법을 적용 하시는건가요?

펼쳐보기▼

ㅇㅇ (141.223)

2024-04-19 10:17:47 삭제 수정 답글

프레임워크 중에서 모델이 크면 모델의 레이어를 CPU에 할당 시킬 수 있는 것으로 알고 있습니다. VRAM 말고도 일반 시스템 RAM에 같이 올리는 것이 가능합니다.

펼쳐보기▼

noopSD

2024-04-19 10:42:24 답글

제가 쓰는 컴퓨터가 VRAM 48GB 를 쓸 수 있기 때문에 양자화된 모델 크기 + 컨텍스트 유지에 필요한 메모리가 48GB 아래로 되게 양자화하여 돌리고 있습니다.  8x22B 는 llama.cpp 기준 IQ2_XXS 로 하면 그럭저럭 쓸만한 속도에 48GB 안쪽에서 되더군요.

펼쳐보기▼

ㅇㅇ

2024-04-18 21:46:48 답글

대충보니까 red pajama v2안쓰고 다른거 쓴거 같던데. 혹시 출처있음?

펼쳐보기▼

사과는맛있어맛있으면바나나

2024-04-18 22:13:37 답글

그냥 추측임

펼쳐보기▼

ㅇㅇ

2024-04-18 22:26:09 답글

아하

펼쳐보기▼

글쓰기

전체글 개념글

최근 최근 방문 채널

최근 방문 채널

전체 일반 질문 정보 학습 자료 자작모델 스터디 공지 운영 공모

번호 제목

작성자 작성일 조회수 추천

공지 아카라이브 모바일 앱 이용 안내(iOS/Android)

*ㅎㅎ 2020.08.18 28557107

공지 Ai 언어모델 로컬 채널 이용규정

바바리맨 2023.04.18 6010

공지 뉴비에게 도움 되는 글 모음

바바리맨 2023.04.18 27089

공지 언어모델 관련 정보취득 /무료체험 가능 사이트

바바리맨 2023.04.18 8906

공지 여러분의 학습에 도움을 줄 수 있는 하드웨어 지원

4062 질문 모델을 학습시키고 레포를 만들고 리더보드도 올려보고 하면서 원론적인 궁금증이 있습니다. [6]

뉴비챗 2024.04.24 522 2

4061 일반 라마3를 실리콘 맥미니에서 돌려보았음. [9]

뿌리골무 2024.04.24 897 6

4060 일반 라마3 덕분에 LLM기술들, 1년 이내로 상향평준화 완료? [5]

뿌리골무 2024.04.24 929 0

4059 일반 재미있을 것 같은 프로젝트 [1]

pussydestroyer 2024.04.24 622 5

4058 일반 Snowflake Arctic: 480b moe+dense모델 [1]

jackofmaster 2024.04.24 346 4

4057 일반 m4 맥스튜디오가 램 512gb로 나오면 닥치고 이거사는게 맞지않나요? [11]

돌돌돌돌 2024.04.24 751 1

4056 질문 GPU에 정수연산기와 실수 연산기는 독립적으로 동작하는데 [3]

ㅇㅇ (221.141) 2024.04.24 368 1

4055 일반 엔드 유저 분들은 이거부터 보세요! Feat. Groq Cloud [2]

pussydestroyer 2024.04.24 614 6

4054 질문 뉴비 LLM 멀티 GPU 구동 질문 하나 드립니다. [4]

AkiAkane 2024.04.24 462 0

4053 질문 모델 레이어를 쌓아서 학습할 수 있을까요? [2]

gadgetrie 2024.04.24 359 0

4052 질문 왜 양자화라는 이름이 붙었나요? [19]

shower 2024.04.24 750 1

4051 질문 5090사기 vs m4 맥스튜디오 사기 [13]

돌돌돌돌 2024.04.24 736 2

4050 정보 merge kit에 Evolutionary Model Merging추가 [1]

jackofmaster 2024.04.24 273 3

4049 일반 GDDR7 모듈들 출시되는거 보면 5090은 36기가로 나올 수도 있을듯 [5]

iau 2024.04.24 518 6

4048 일반 wavecoder ultra 6.7B - 마이크로소프트 [4]

zzzzz5 2024.04.24 428 5

4047 질문 님들 제가 지금 exllamav2로 llama3 70b instruct 모델 변환중인데... [10]

ㅇㅇ (220.78) 2024.04.24 546 0

4046 질문 LlamaModel에서 gate구조에 대한 궁금증 [3]

에라 2024.04.24 342 1

4045 정보 애플의 완전 오픈소스 모델: OpenELM [13]

jackofmaster 2024.04.24 1496 14

4044 질문 문득 최근 llm 모델 나오면서 착오가 자꾸 생겨서 여쭤봅니다. [4]

ㅇㅇ (61.33) 2024.04.24 480 6

4043 질문 특정 도메인에 대한 지식 학습 [7]

뉴비챗 2024.04.23 591 0

글쓰기

전체글 개념글