LongLoRA에서 position interpolation - Ai 언어모델 로컬 채널

Ai 언어모델 로컬 채널

알림 알림 중 알림 취소

구독자 3404명 알림수신 168명 @바바리맨

제한없는 언어모델을 위한 채널

일반 LongLoRA에서 position interpolation

ㅇㅇ (114.70)

추천 0 비추천 1 댓글 2 조회수 371 작성일 2024-04-29 06:45:01

https://arca.live/b/alpaca/104892579

LongLoRA에서 파인 튜닝할 때, 기존 포지션 임베딩 방식을 position interpolation 기법이 쓰였다는 논문을 봤습니다.
그런데 LongLoRA로 파인 튜닝한 후 추론할 때, 포지션 임베딩이 position interpolation로 변경된 형태로 추론되는 건가요?

댓글 [2] 글쓰기

2024-04-29 06:46:31 답글

넹 모델 컨픽 보시면 linear로 스케일링 되어있습니다
pr올라와있는 커밋사용하시는걸 추천드리며, llama3로 진행하시면 unk토큰 할당하는 코드는 지우고 훈련 진행하시면 됩니다

펼쳐보기▼

ㅇㅇ (210.110)

2024-04-30 01:03:39 삭제 수정 답글

정말 매번 진심으로 감사드립니다. 한국 LLM의 큰 선물입니다!!!ㅠㅠ

펼쳐보기▼

전체글 개념글

최근 최근 방문 채널

최근 방문 채널

전체 일반 질문 정보 학습 자료 자작모델 스터디 공지 운영 공모

번호 제목

작성자 작성일 조회수 추천

공지 아카라이브 모바일 앱 이용 안내(iOS/Android)

*ㅎㅎ 2020.08.18 28566350

공지 Ai 언어모델 로컬 채널 이용규정

바바리맨 2023.04.18 6011

공지 뉴비에게 도움 되는 글 모음

바바리맨 2023.04.18 27108

공지 언어모델 관련 정보취득 /무료체험 가능 사이트

바바리맨 2023.04.18 8913

공지 여러분의 학습에 도움을 줄 수 있는 하드웨어 지원

바바리맨 2023.08.01 5107

공지 신문고

바바리맨 2023.04.18 2255

숨겨진 공지 펼치기(1개)

4182 일반 GPT-4o는 GPT-4에 비해 한국어 생성 속도가 3.4배 빨라졌다. [2]

도지도지 2024.05.14 934 6

4181 일반 언젠가는 gpt4o 같은 걸 로컬에서 돌릴날이 올까요? [6]

돌돌돌돌 2024.05.14 935 6

4180 질문 [뉴비주의] 말뭉치 데이터를 학습하려면..? [1]

ㅇㅇ (223.39) 2024.05.14 401 0

4179 일반 이번에 공개된 gpt-4o의 성능 벤치마크인데 drop은 왜 떨어진거려나요 [9]

그래요 2024.05.14 840 1

4178 일반 GPT4o 플랫폼에 공개됐군요 [5]

감별사 2024.05.14 844 2

4177 일반 Gemma 토크나이저 확장 관련 임베딩 초기화 방식 ㅠㅠ [2]

넙적곰치 2024.05.14 298 0

4176 질문 Llama3 8B 튜닝 과정인데 외계어문제.. ㅠㅠ [16]

eke 2024.05.14 718 -1

4175 일반 llm 한국어 학습할 때 데이터에 관하여 궁금증

ㅇㅇ (119.200) 2024.05.14 270 0

4174 일반 chatGPT4O 요약 [2]

Aimyon 2024.05.13 1181 5

4173 일반 aka Llama-3 70B 한국어 [7]

zzzzz5 2024.05.13 1737 15

4172 질문 안녕하세요 Llama3 8B 튜닝 뉴비 좀 도와주십시오 ㅠ [9]

eke 2024.05.13 615 0

4171 일반 llama3 8B (fp16) 70B (Q6_K) 돌려봤음 [9]

게지네 2024.05.13 699 2

4170 일반 앞으로 3090 보기는 다시 쉬워지겠네요 [5]

whs 2024.05.13 943 1

4169 질문 vllm 이 동시 사용시 빠른 이유가 궁금합니다. [6]

끼랑까랑 2024.05.13 504 0

4168 학습 llama 2 train 성공 및 의문점 + llama 3 예정 [2]

ㅇㅇ (61.33) 2024.05.13 541 5

4167 일반 sLLM instruction tuning 데이터 [2]

asdfnlasdf 2024.05.13 410 1

4166 일반 일본에서 자체적으로 구운 13B 모델 [8]

ㅇㅇ 2024.05.12 787 7

4165 스터디 매니폴드 가설 - 생성형AI 의 원리를 이해하기 위한 핵심 전제 [7]

hkhk 2024.05.12 1432 50

4164 일반 무한 어텐션을 활용한 10M 컨텍스트 Gemma

pussydestroyer 2024.05.12 345 4

전체글 개념글

사용하고 계신 브라우저가 시간대 설정을 지원하지 않으므로 GMT 시간대가 적용됩니다.