LlamaModel에서 gate구조에 대한 궁금증 - Ai 언어모델 로컬 채널

Ai 언어모델 로컬 채널

알림 알림 중 알림 취소

구독자 3406명 알림수신 168명 @바바리맨

제한없는 언어모델을 위한 채널

질문 LlamaModel에서 gate구조에 대한 궁금증

추천 1 비추천 0 댓글 3 조회수 342 작성일 2024-04-24 03:47:15

⚠️ 이 게시물은 작성자가 삭제할 수 없도록 설정되어 있습니다.

https://arca.live/b/alpaca/104423373

보통 MLP레이어에서 gate구조는 Mixtral 같은 MOE모델에서 사용되는건줄 알았는데 라마 기반 모델에도 아래와 같은 gate구조가 있더라고(gate_proj)

여기서 gate는 MOE에서의 게이트 구조와 동일하다고 봐도 되나? 만약 그렇다면 Llama도 MOE 기반 구조를 차용한게 되는걸까..??

모델명은 Trelis/TinyLlama-1.1B-4k-chat-SFT 이야

LlamaForCausalLM(

(model): LlamaModel(

(embed_tokens): Embedding(32001, 2048, padding_idx=32000)

(layers): ModuleList(

(0-21): 22 x LlamaDecoderLayer(

(self_attn): LlamaFlashAttention2(

(q_proj): Linear(in_features=2048, out_features=2048, bias=False)

(k_proj): Linear(in_features=2048, out_features=256, bias=False)

(v_proj): Linear(in_features=2048, out_features=256, bias=False)

(o_proj): Linear(in_features=2048, out_features=2048, bias=False)

(rotary_emb): LlamaRotaryEmbedding()

)

(mlp): LlamaMLP(

(gate_proj): Linear(in_features=2048, out_features=5632, bias=False)

(up_proj): Linear(in_features=2048, out_features=5632, bias=False)

(down_proj): Linear(in_features=5632, out_features=2048, bias=False)

(act_fn): SiLUActivation()

)

(input_layernorm): LlamaRMSNorm()

(post_attention_layernorm): LlamaRMSNorm()

)

)

(norm): LlamaRMSNorm()

)

(lm_head): Linear(in_features=2048, out_features=32001, bias=False)

)

댓글 [3] 글쓰기

2024-04-24 04:06:27 답글

아니요. 오히려 activation fuction입니다
https://github.com/huggingface/transformers/blob/main/src/transformers/models/llama/modeling_llama.py#L234

transformers/src/transformers/models/llama/modeling_llama.py at main · huggingface/transformers

Transformers: State-of-the-art Machine Learning for Pytorch, TensorFlow, and JAX. - huggingface/transformers

*수정됨

아니요. 오히려 activation fuction입니다

펼쳐보기▼

2024-04-24 04:19:05 답글

아 찾았습니다 이름은 SwiGLU입니다

펼쳐보기▼

2024-04-24 04:28:35 답글

아하 그렇군요! 같은 gate 이름을 사용해서 좀 헷갈렸습니다..! 아래 블로그에 내용 잘 나와있네요. 답변 감사드립니다!
https://thecho7.tistory.com/entry/SwiGLU-Activation-Function-%EC%84%A4%EB%AA%85#google_vignette

SwiGLU Activation Function 설명

안녕하세요, 오늘은 SwiGLU Activation Function에 대해 리뷰해볼까 합니다. 얼마 전에 Meta에서 발표한 LLAMA 2나 비전에서 최근 좋은 성능을 보여준 EVA-02를 포함한 많은 논문에서 SwiGLU를 채택하고 있습니다. 딥러닝을 공부하다보면 활성화 함수는 다소 사소하게 여겨질 수 있지만 실제로는 그렇지 않고, 심하게는 모델 학습이 정상적으로 되느냐 마느냐를 결정지을 수 있는 중요한 요소입니다. 논문: GLU Variants Improve Transformer SwiGLU 배경 SwiGLU는 Swish + GLU, 두개의 Activation Functions를 섞어 만든 함수입니다. 왜 이런 함수를 설계했는지 하나씩 살펴보고 합쳐서 이해하면 좋겠습니다. Swish Activatio…

*수정됨

아하 그렇군요! 같은 gate 이름을 사용해서 좀 헷갈렸습니다..! 아래 블로그에 내용 잘 나와있네요. 답변 감사드립니다!

펼쳐보기▼

전체글 개념글

최근 최근 방문 채널

최근 방문 채널

전체 일반 질문 정보 학습 자료 자작모델 스터디 공지 운영 공모

번호 제목

작성자 작성일 조회수 추천

공지 아카라이브 모바일 앱 이용 안내(iOS/Android)

*ㅎㅎ 2020.08.18 28580392

공지 Ai 언어모델 로컬 채널 이용규정

바바리맨 2023.04.18 6014

공지 뉴비에게 도움 되는 글 모음

바바리맨 2023.04.18 27131

공지 언어모델 관련 정보취득 /무료체험 가능 사이트

바바리맨 2023.04.18 8921

공지 여러분의 학습에 도움을 줄 수 있는 하드웨어 지원

바바리맨 2023.08.01 5114

공지 신문고

바바리맨 2023.04.18 2258

숨겨진 공지 펼치기(1개)

4144 일반 호기심에 번역한거 비교해봄 [12]

pussydestroyer 2024.05.08 755 1

4143 스터디 트랜스포머도 깊게 생각을 하려면 메모장이 필요해요 - Vision Transformers Need Registers [21]

hkhk 2024.05.08 1220 42

4142 스터디 디퓨전 모델이 학습하는 원리 - 어디까지 암기이고 어디부터 학습일까? - 디퓨전 모델은 정말 이해를 하고서 이미지를 만드는걸까? [12]

hkhk 2024.05.08 1259 40

4141 질문 업무 목적으로 한국어 튜닝해서 사용하시는 분 계신가요? [7]

페르미 2024.05.08 651 0

4140 일반 (구글x서울디지털재단)2024 서울 프롬프톤(AI 프롬프트엔지니어링 해커톤) 참가자 모집(기간 연장, ~5.15) [9]

ljhljhljh 2024.05.08 1007 11

4139 일반 A100 40GB로 llama3 70B 구동은 되는지? [3]

ㅇㅇ (203.252) 2024.05.08 746 2

4138 일반 ms가 500b 모델을 학습중이라고 합니다 [3]

그래요 2024.05.08 495 3

4137 질문 베이스라인 모델 선정 방법

레바 2024.05.08 342 0

4136 일반 판매자 정보 실수 - 4060ti 16gb dual 또는 3way 를 위한 핫딜 정보 [11]

ㅇㅇ 2024.05.07 734 5

4135 질문 vllm 활용 추론 관련해서 질문드립니다. [10]

Dikko 2024.05.07 513 0

4134 질문 3090(24gb) 대신 4060ti 16gb 2개 사용하는건 추천 안 하시나요? [7]

ㅇㅇ (110.8) 2024.05.07 543 0

4133 일반 런팟 NFS 마운트 안되나요?

ㅇㅇ (121.135) 2024.05.07 168 0

4132 정보 gpt2-chatbot돌아옴 [15]

HyperBlaze456 2024.05.07 1936 12

4131 질문 gpu 4개를 공냉으로 구성하면 IDC입고 필수일까요? [13]

ㅇㅇ (203.245) 2024.05.07 582 0

4130 일반 rag를 사용할때 로컬모델의 경우 모르는것을 모른다고 잘 하던가요? [7]

호옹이 2024.05.07 634 2

4129 질문 exllamav2로 양자화 한 exl2 모델에 대해 질문 있습니다 [4]

ㅇㅇ (220.78) 2024.05.07 332 0

4128 일반 Langchain, Rag 질문 있습니다 [1]

ㅇㅇ (119.200) 2024.05.07 394 0

4127 질문 학습시 eos 토큰이 잘 안나오는 이유 [22]

ㅇㅇ (61.33) 2024.05.07 633 1

4126 일반 커맨드 R 플러스 로컬에서? [6]

감별사 2024.05.06 538 1

4125 일반 llama3 70b aqlm 2bit [5]

jackofmaster 2024.05.06 585 5

전체글 개념글