지금 와서 드는 생각 - ChatGPT 는 20B 모델인가? - Ai 언어모델 로컬 채널

Ai 언어모델 로컬 채널

알림 알림 중 알림 취소

구독자 3404명 알림수신 168명 @바바리맨

제한없는 언어모델을 위한 채널

일반 지금 와서 드는 생각 - ChatGPT 는 20B 모델인가?

hkhk

추천 7 비추천 0 댓글 7 조회수 803 작성일 2024-04-23 09:25:28 수정일 2024-04-23 09:26:03

https://arca.live/b/alpaca/104363927

https://news.hada.io/topic?id=11616

예전에 흘러나온 MS쪽 논문에서 GPT3.5 turbo의 파라메터 카운트가 20B 라고 나왔다가 나중에 조용히 바뀌어있는 것을 보고, 오기재냐 아니면 천기누설했다가 주워담은거냐 말이 많았었는데

지금 LLama3 8B 의 성능 보면 20B 가 맞았었던 것 같은?

딴거 없고 토크나이저 vocab 사이즈 넉넉하게 쓰면서 최대한 잘 정제된 토큰수 많이, 학습 계속 돌리면 되는 것이었나 싶다는...

댓글 [7] 글쓰기

2024-04-23 09:28:16 답글

*수정됨

그럴수도 있다고 생각하는데 다국어 지원을 어떻게 했는지 의문이기는 하네요. 20B 단일 모델로 GPT3.5 turbo 정도의 다국어 지원하기 위해서는 도대체 얼마나 학습을 시켜야 하는지...

펼쳐보기▼

hkhk

2024-04-23 09:32:40 답글

라마3만큼 하면서 다국어 비중 좀 더 높이면 되었을거 같음

펼쳐보기▼

2024-04-23 09:39:08 답글

만약 그렇다면 chatgpt는 대체 몇 걸음을 앞서 있는 것임...

펼쳐보기▼

ㅇㅇ (118.235)

2024-04-23 10:42:02 삭제 수정 답글

이번에 아마존이 걸렸잖아여.
저스크 워크 인공지능이라고 이런 인공지능은 최초라고 엄천 자랑했는데 알고보니 인도에서 1000명이 인공지능 뒤에서 지원사격하다 걸려서 개쪽 당했잖음.
이번에 샘 알트만이 팟캐스트 나와서 후발 주자들 보고 한 얘기가 있다고 함.
후발주자들아 인공지능 모델 만든다고 다들 깝추지 말고 우리가 만들어서 주는거 어케 서비스로 만들지나 궁리하라고 쪽주는 방송했다고 함.
이렇게 자신만만할 수 있는 이유는 어디서 올까요.
외계인 잡아다가 가둬놓은 인텔이랑 비슷하게 오픈AI도 외계인 한명 잡아다가 지하실에 감금해놓은게 아니라면 설마 인도(?) ㅋㅋㅋ
그리구 이번에 나온 라마 8B 를 보면 정확히 OpenChat-3.5 0106 모델에 사용된 기법이 사용된걸 알 수 있어요.
왜냐면 두 모델이 속도나 답변 품질이나 비슷비슷함.
어쩌면 오히려 OpenChat-3.5 모델이 아직까지 속도나 한글 품질이 더 앞서있음.
라마3 70B 가 양자화 버전도 엄총 속도가 엄청 느린데 이 모델 수준이 차기 라마4에서 13B 안쪽 수준으로만 정제가 되서 나온다면 그때가 특이점이 되지 않을까 싶네요.
솔직히 13B도 좀 느리고 10B 안쪽까지는 되야 개인 컴퓨터에서도 쾌적할거 같습니다.

펼쳐보기▼

2024-04-23 11:33:00 답글

OpenAI가 진짜 20b라고 생각하시는 분들이 많네요 라마 3 때문에 그렇군요
근데 라마 3는 확실히 4090 갖고 있는 분들도 70b 써보려다 터지는 경우가 많더라고요. 당연히 돌아갈 거라고 생각하시던데 24gb가 일반인 기준 최고니 70b는 많이 오바되긴 하죠 ㅋㅋㅋ 8b 다음이 바로 70....
쾌적한 건 10b라는 말 동의합니다. 콘텍스트도 널널할 거 같네요
엔비디아가 rtx에 vram 올려주는 속도가 빠를지 LLM 발전 속도가 빠를지 과연ㅋㅋㅋ

펼쳐보기▼

hkhk

2024-04-23 15:31:02 답글

ai 로 부족한 부분을 사람이 메워주다가 데이터 쌓이고 모델 정교해지면 (더 정확히는 end to end 로 중간의 하드코딩 로직 빼도 될 정도가 되면) 사람 빼고 인공지능으로 가는건, 그냥 허풍으로 없는 기술 있다고 과장하는거랑은 좀 다르게 봐야죠. 테슬라 자동주행도 비슷한 맥락이고요.

펼쳐보기▼

2024-04-23 14:30:58 답글

오,,, GPT4 터보의 아키텍처도 매우 궁금해지네요

펼쳐보기▼

전체글 개념글

최근 최근 방문 채널

최근 방문 채널

전체 일반 질문 정보 학습 자료 자작모델 스터디 공지 운영 공모

번호 제목

작성자 작성일 조회수 추천

공지 아카라이브 모바일 앱 이용 안내(iOS/Android)

*ㅎㅎ 2020.08.18 28557170

공지 Ai 언어모델 로컬 채널 이용규정

바바리맨 2023.04.18 6010

공지 뉴비에게 도움 되는 글 모음

바바리맨 2023.04.18 27089

공지 언어모델 관련 정보취득 /무료체험 가능 사이트

바바리맨 2023.04.18 8906

공지 여러분의 학습에 도움을 줄 수 있는 하드웨어 지원

바바리맨 2023.08.01 5104

공지 신문고

바바리맨 2023.04.18 2245

숨겨진 공지 펼치기(1개)

4122 일반 14b =/= 220 x 8 MoE [12]

HyperBlaze456 2024.05.05 1025 0

4121 질문 (스압) AutoRAG QA 데이터 생성 중에 이런 오류 겪으신 분 계실까요? [4]

ㅇㅇ 2024.05.05 511 0

4120 질문 4060 12GB x2 vs 3090 24GB vs 4090 24GB [13]

Thomas_Shelby 2024.05.04 832 1

4119 질문 학습 데이터 저장장치 어떤 거 써? [10]

ㅇㅇ 2024.05.04 637 1

4118 일반 대기업 사장님이 직접 배달해주는 GPU [4]

ㅇㅇ (221.141) 2024.05.04 928 5

4117 일반 GLaDOS 성격 코어 (직접 번역) [2]

pussydestroyer 2024.05.03 833 12

4116 일반 ai expo 코리아 왔는데 사람 엄청 많음 + 관람 후기 [20]

hkhk 2024.05.03 1811 18

4115 일반 needle in a haystack 평가 코드는 어떤거 써야 하나요? [2]

ㅇㅇ (121.170) 2024.05.03 319 0

4114 학습 몇가지 llama 2 7b instruction format 테스팅하면서 느낀점 [2]

ㅇㅇ (61.33) 2024.05.02 670 2

4113 정보 모델은 얼마나 벤치마크에 과적합 되어 있은가?: GSM-1k [15]

jackofmaster 2024.05.02 1277 15

4112 일반 라마3 8B모델 파인튜닝용 PC 견적 문의 [15]

ㅇㅇ (58.87) 2024.05.02 1105 -1

4111 일반 llama3는 어떤 시스템 프롬프트를 사용해야 될까요? [3]

ㅇㅇ (112.146) 2024.05.02 721 0

4110 일반 여기 국제인공지능대전 다녀오신 분 있나요? [5]

ㅇㅇ (58.232) 2024.05.01 876 3

4109 일반 Llama-3-8B-Instruct & 한국어 모델들에 "DJ DJ pump this party"로 테스트를 해봤습니다 [4]

ㅇㅇ 2024.05.01 1992 19

4108 일반 5090 5080 루머라는데 [18]

ㅇㅇ 2024.05.01 1089 0

4107 정보 4060ti 16GB 메모리 오버클럭 비교 [6]

게지네 2024.05.01 635 7

4106 일반 A6000x3 llama3 70B inference 가능한가요? [3]

ㅇㅇ (1.241) 2024.04.30 518 -1

4105 일반 메모리 대역폭과 이론적 최대 토큰 수 (cpu 추론이 느린 이유) [9]

PRG 2024.04.30 620 6

4104 일반 뉴비 4060ti 16G 사서 llama3 돌려봄 [2]

게지네 2024.04.30 849 7

4103 일반 라마3 토크나이저 기반 소형 모델 l3-211m [2]

maywell 2024.04.30 1495 22

전체글 개념글