Llama-3-8B-Instruct 262k 컨텍스트 확장 출시

Ai 언어모델 로컬 채널

알림 알림 중 알림 취소

구독자 3338명 알림수신 164명 @바바리맨

제한없는 언어모델을 위한 채널

일반 Llama-3-8B-Instruct 262k 컨텍스트 확장 출시

사과는맛있어맛있으면바나나

추천 12 비추천 0 댓글 16 조회수 1403 작성일 2024-04-26 11:26:25 수정일 2024-04-26 11:34:01

https://arca.live/b/alpaca/104659519

HF: https://huggingface.co/gradientai/Llama-3-8B-Instruct-262k

GGUF: https://huggingface.co/crusoeai/Llama-3-8B-Instruct-262k-GGUF

레딧: https://www.reddit.com/r/LocalLLaMA/s/fFAu0fCcD7

세상에

gpt4-turbo... 퇴물될지도?

댓글 글쓰기

jackofmaster

2024-04-26 11:33:44 답글

와오

펼쳐보기▼

maywell

2024-04-26 11:46:49 답글

https://huggingface.co/papers/2309.10400 적용해서 64k 확장해보고있는데 200M 토큰정도만 넣어도 다 붙네요. 개신기함

PoSE: Efficient Context Window Extension of LLMs via Positional Skip-wise Training

Paper page - PoSE: Efficient Context Window Extension of LLMs via Positional Skip-wise Training

Join the discussion on this paper page

*수정됨

적용해서 64k 확장해보고있는데 200M 토큰정도만 넣어도 다 붙네요. 개신기함

펼쳐보기▼

사과는맛있어맛있으면바나나

2024-04-26 12:17:32 답글

혹시 예제코드 나온게 있을까요?

펼쳐보기▼

maywell

2024-04-26 12:18:09 답글

axolotl branch 중에 적용 된 거 있습니다.

펼쳐보기▼

사과는맛있어맛있으면바나나

2024-04-26 12:18:26 답글

감사합니당

펼쳐보기▼

김젤리

2024-04-26 15:41:52 답글

저거 다쓰려면 vram얼마나필요할까요?

펼쳐보기▼

maywell

2024-04-26 15:48:14 답글

exl2 4.0bpw 8bit cache에서 36긱

펼쳐보기▼

김젤리

2024-04-26 15:48:30 답글

오 괜찮은데요?

펼쳐보기▼

변태Lv1

2024-04-26 16:30:34 답글

제대로 된 출력을 내뱉느냐가 궁금하네

펼쳐보기▼

maywell

2024-04-27 05:11:04 답글

*수정됨

반복 문제 심함

펼쳐보기▼

maywell

2024-04-27 05:11:19 답글

모델 머징해서 테스트하다가 발견함

펼쳐보기▼

변태Lv1

2024-04-27 05:19:25 답글

ㅇㅇ

2024-04-27 16:48:48 답글

슬프다 ㅜ

펼쳐보기▼

휘진

2024-04-27 13:43:53 답글

ㅇㅇ

2024-04-27 16:48:56 답글

와 미쳒다

펼쳐보기▼

ㅇㅇ (49.174)

2024-04-28 16:51:45 삭제 수정 답글

성능이 별로네요 ㅋㅋㅋㅋㅋ

펼쳐보기▼

글쓰기

전체글 개념글

최근 최근 방문 채널

최근 방문 채널

전체 일반 질문 정보 학습 자료 자작모델 스터디 공지 운영 공모

번호 제목

작성자 작성일 조회수 추천

공지 아카라이브 모바일 앱 이용 안내(iOS/Android)

*ㅎㅎ 2020.08.18 28192344

공지 Ai 언어모델 로컬 채널 이용규정

바바리맨 2023.04.18 5828

공지 뉴비에게 도움 되는 글 모음

바바리맨 2023.04.18 26315

공지 언어모델 관련 정보취득 /무료체험 가능 사이트

바바리맨 2023.04.18 8567

공지 여러분의 학습에 도움을 줄 수 있는 하드웨어 지원

4173 일반 M4 익스트림 모델이 나온다는 이야기가 있네요. [4]

키티호크 2024.05.11 251 1

4172 일반 애플, M2 칩을 데이터 센터에서 사용 예정 [3]

noopSD 2024.05.11 233 1

4171 일반 RWKV를 잇는 진정한 오픈소스 LLM MAP-NEO

HyperBlaze456 2024.05.10 227 8

4170 질문 언어모델 NPU 프로그래밍 가능한 플랫폼 질문드립니다. [7]

ㅇㅇ (166.104) 2024.05.10 347 0

4169 일반 라마3 한글특화 튜닝한 Bllossom 사용해보신 분 계신가요? [9]

wk 2024.05.10 439 1

4168 일반 [lmsys] Llama-3-70B가 잘하는 것과 못하는 것 [3]

ㅇㅇ 2024.05.10 480 6

4167 일반 왜 임베딩 벡터는 이렇게 고차원이 되었을까 [5]

iau 2024.05.10 373 0

4166 질문 하루에 3000만토큰 쯤 쓰는데 로컬로 .. [21]

감별사 2024.05.10 516 1

4165 일반 exllamav2가 최고라고 생각했었는데 vllm은 어떤가요? [7]

호옹이 2024.05.10 302 0

4164 질문 BERT에 관련하여 [3]

ㅇㅇ (121.166) 2024.05.10 316 0

4163 일반 gemma를 ollama에서 서빙을 하려 합니다. [3]

ㅇㅇ (218.145) 2024.05.09 350 0

4162 질문 llama.cpp로 양자화할때 에러가 뜨는데 무슨 문제려나요 [2]

그래요 2024.05.09 229 0

4161 질문 Deepspeed 사용하는 방법 아시나요? [18]

ㅇㅇ (223.39) 2024.05.09 471 0

4160 일반 코딩 llm 자주 사용함? [20]

사과는맛있어맛있으면바나나 2024.05.09 747 2

4159 자료 IBM에서 아파치2 라이센스로 코딩모델 출시 [5]

이하비스 2024.05.09 271 2

4158 일반 호기심에 번역한거 비교해봄 [12]

pussydestroyer 2024.05.08 618 1

4157 스터디 비전 트랜스포머에는 레지스터가 필요하다 [19]

hkhk 2024.05.08 750 32

4156 스터디 디퓨전 모델이 학습하는 원리 - 어디까지 암기이고 어디부터 학습일까? - 디퓨전 모델은 정말 이해를 하고서 이미지를 만드는걸까? [11]

hkhk 2024.05.08 870 34

4155 질문 업무 목적으로 한국어 튜닝해서 사용하시는 분 계신가요? [6]

페르미 2024.05.08 435 0

4154 일반 (구글x서울디지털재단)2024 서울 프롬프톤(AI 프롬프트엔지니어링 해커톤) 참가자 모집(기간 연장, ~5.15) [5]

ljhljhljh 2024.05.08 621 9

글쓰기

전체글 개념글

사용하고 계신 브라우저가 시간대 설정을 지원하지 않으므로 GMT 시간대가 적용됩니다.