Llama-3-8B-Instruct 262k 컨텍스트 확장 출시

Ai 언어모델 로컬 채널

알림 알림 중 알림 취소

구독자 3405명 알림수신 168명 @바바리맨

제한없는 언어모델을 위한 채널

일반 Llama-3-8B-Instruct 262k 컨텍스트 확장 출시

사과는맛있어맛있으면바나나

추천 12 비추천 0 댓글 16 조회수 1502 작성일 2024-04-26 11:26:25 수정일 2024-04-26 11:34:01

https://arca.live/b/alpaca/104659519

HF: https://huggingface.co/gradientai/Llama-3-8B-Instruct-262k

GGUF: https://huggingface.co/crusoeai/Llama-3-8B-Instruct-262k-GGUF

레딧: https://www.reddit.com/r/LocalLLaMA/s/fFAu0fCcD7

세상에

gpt4-turbo... 퇴물될지도?

댓글 [16] 글쓰기

jackofmaster

2024-04-26 11:33:44 답글

와오

펼쳐보기▼

maywell

2024-04-26 11:46:49 답글

https://huggingface.co/papers/2309.10400 적용해서 64k 확장해보고있는데 200M 토큰정도만 넣어도 다 붙네요. 개신기함

PoSE: Efficient Context Window Extension of LLMs via Positional Skip-wise Training

Paper page - PoSE: Efficient Context Window Extension of LLMs via Positional Skip-wise Training

Join the discussion on this paper page

*수정됨

적용해서 64k 확장해보고있는데 200M 토큰정도만 넣어도 다 붙네요. 개신기함

펼쳐보기▼

사과는맛있어맛있으면바나나

2024-04-26 12:17:32 답글

혹시 예제코드 나온게 있을까요?

펼쳐보기▼

maywell

2024-04-26 12:18:09 답글

axolotl branch 중에 적용 된 거 있습니다.

펼쳐보기▼

사과는맛있어맛있으면바나나

2024-04-26 12:18:26 답글

감사합니당

펼쳐보기▼

김젤리

2024-04-26 15:41:52 답글

저거 다쓰려면 vram얼마나필요할까요?

펼쳐보기▼

maywell

2024-04-26 15:48:14 답글

exl2 4.0bpw 8bit cache에서 36긱

펼쳐보기▼

김젤리

2024-04-26 15:48:30 답글

오 괜찮은데요?

펼쳐보기▼

변태Lv1

2024-04-26 16:30:34 답글

제대로 된 출력을 내뱉느냐가 궁금하네

펼쳐보기▼

maywell

2024-04-27 05:11:04 답글

*수정됨

반복 문제 심함

펼쳐보기▼

maywell

2024-04-27 05:11:19 답글

모델 머징해서 테스트하다가 발견함

펼쳐보기▼

변태Lv1

2024-04-27 05:19:25 답글

ㅇㅇ

2024-04-27 16:48:48 답글

슬프다 ㅜ

펼쳐보기▼

휘진

2024-04-27 13:43:53 답글

ㅇㅇ

2024-04-27 16:48:56 답글

와 미쳒다

펼쳐보기▼

ㅇㅇ (49.174)

2024-04-28 16:51:45 삭제 수정 답글

성능이 별로네요 ㅋㅋㅋㅋㅋ

펼쳐보기▼

글쓰기

전체글 개념글

최근 최근 방문 채널

최근 방문 채널

전체 일반 질문 정보 학습 자료 자작모델 스터디 공지 운영 공모

번호 제목

작성자 작성일 조회수 추천

공지 아카라이브 모바일 앱 이용 안내(iOS/Android)

*ㅎㅎ 2020.08.18 28577213

공지 Ai 언어모델 로컬 채널 이용규정

바바리맨 2023.04.18 6013

공지 뉴비에게 도움 되는 글 모음

바바리맨 2023.04.18 27123

공지 언어모델 관련 정보취득 /무료체험 가능 사이트

바바리맨 2023.04.18 8920

공지 여러분의 학습에 도움을 줄 수 있는 하드웨어 지원

4164 스터디 매니폴드 가설 - 생성형AI 의 원리를 이해하기 위한 핵심 전제 [7]

hkhk 2024.05.12 1432 50

4163 일반 무한 어텐션을 활용한 10M 컨텍스트 Gemma

pussydestroyer 2024.05.12 345 4

4162 질문 3090ti 매물이 갑자기 많아지는데 [4]

ㅇㅇ 2024.05.12 718 2

4161 일반 일본 쪽 소식 올려도 됨? [2]

ㅇㅇ 2024.05.12 597 5

4160 일반 굉장히 저렴한 DeepSeek-V2 후기 [6]

감별사 2024.05.11 1307 12

4159 일반 M4 익스트림 모델이 나온다는 이야기가 있네요. [7]

키티호크 2024.05.11 736 4

4158 일반 애플, M2 칩을 데이터 센터에서 사용 예정 [5]

noopSD 2024.05.11 608 2

4157 일반 RWKV를 잇는 진정한 오픈소스 LLM MAP-NEO [4]

HyperBlaze456 2024.05.10 874 22

4156 질문 언어모델 NPU 프로그래밍 가능한 플랫폼 질문드립니다. [8]

ㅇㅇ (166.104) 2024.05.10 601 1

4155 일반 라마3 한글특화 튜닝한 Bllossom 사용해보신 분 계신가요? [11]

wk 2024.05.10 994 1

4154 일반 [lmsys] Llama-3-70B가 잘하는 것과 못하는 것 [4]

ㅇㅇ 2024.05.10 940 6

4153 일반 왜 임베딩 벡터는 이렇게 고차원이 되었을까 [6]

iau 2024.05.10 672 0

4152 질문 하루에 3000만토큰 쯤 쓰는데 로컬로 .. [22]

감별사 2024.05.10 890 1

4151 일반 exllamav2가 최고라고 생각했었는데 vllm은 어떤가요? [7]

호옹이 2024.05.10 502 0

4150 질문 BERT에 관련하여 [3]

ㅇㅇ (121.166) 2024.05.10 495 0

4149 일반 gemma를 ollama에서 서빙을 하려 합니다. [3]

ㅇㅇ (218.145) 2024.05.09 479 0

4148 질문 llama.cpp로 양자화할때 에러가 뜨는데 무슨 문제려나요 [2]

그래요 2024.05.09 293 0

4147 질문 Deepspeed 사용하는 방법 아시나요? [18]

ㅇㅇ (223.39) 2024.05.09 615 0

4146 일반 코딩 llm 자주 사용함? [23]

사과는맛있어맛있으면바나나 2024.05.09 1054 2

4145 자료 IBM에서 아파치2 라이센스로 코딩모델 출시 [5]

이하비스 2024.05.09 323 2

글쓰기

전체글 개념글

사용하고 계신 브라우저가 시간대 설정을 지원하지 않으므로 GMT 시간대가 적용됩니다.