OAI전직원왈 데이터셋의 조합이 '전부'다

개념글 모음

알림 알림 중 알림 취소

구독자 2693명 알림수신 75명

각 채널의 개념글을 모은 게시판입니다.

AI 채팅 뉴스/팁 OAI전직원왈 데이터셋의 조합이 '전부'다

K아논

추천 14 비추천 0 댓글 7 조회수 750 작성일 2024-04-25 12:28:23

https://arca.live/b/characterai/104569146

https://nonint.com/2023/06/10/the-it-in-ai-models-is-the-dataset/

AI 모델에서 "그것"은 데이터셋이다.

2023년 6월 10일 jbetker 작성

저는 거의 1년간 OpenAI에서 근무해 왔습니다. 그 시간 동안 저는 많은 생성 모델을 훈련시켰습니다. 사실상 누구도 그렇게 많이 훈련시킬 권리가 없을 정도로 많이요. 여러 모델 구성과 하이퍼파라미터를 조정하면서 관찰한 시간 동안, 모든 훈련 실행 사이에 유사성이 있다는 것이 점점 뚜렷해졌습니다.

이 모델들이 그들의 데이터셋을 놀랍도록 정교하게 근사화하고 있다는 사실이 점점 분명해지고 있습니다. 이것이 의미하는 바는 그들이 개나 고양이가 무엇인지를 배우는 것뿐만 아니라, 사람들이 자주 찍는 사진이나 흔히 쓰는 단어와 같은 중요하지 않은 분포 사이의 빈도를 배운다는 것입니다.

이는 충분한 가중치와 훈련 시간을 가진 모든 모델들이 같은 데이터셋으로 충분히 오래 훈련되면 거의 모두 동일한 지점으로 수렴한다는 것으로 나타납니다. 충분히 큰 diffusion conv-unets는 ViT 생성기와 동일한 이미지를 생성합니다. AR 샘플링은 diffusion과 동일한 이미지를 생성합니다.

이는 놀라운 관찰입니다! 이것은 모델 행동이 아키텍처, 하이퍼파라미터 또는 최적화 선택에 의해 결정되지 않는다는 것을 의미합니다. 그것은 당신의 데이터셋에 의해 결정됩니다, 그 밖의 다른 것은 없습니다. 다른 모든 것은 그 데이터셋을 효율적으로 근사화하기 위해 계산을 전달하는 수단에 불과합니다.

그러므로 우리가 '람다', '챗GPT', '바드', '클로드'를 언급할 때, 모델 가중치를 언급하는 것이 아닙니다. 그것은 데이터셋을 말하는 것입니다.

위저드2도 로컬치고 상당히 능지가 좋게 느껴졌는데 뭔가 능지를 담당하는 부분의 조합식을 찾았나

이번에 마소에서 3b정도크기에 3.5급 능지내는 모델도 만들어서 냈던거같고

스카치사과

2024-04-25 12:31:33

클로드는 대체 무슨 데이터를 쓴 걸까

펼쳐보기▼

고구마

2024-04-25 12:31:55

PRG

2024-04-25 14:36:30

엔트로픽 이새낀 걍 rp를 사랑함

펼쳐보기▼

ㅇㅇ

2024-04-25 12:37:03

Coeru

2024-04-25 12:47:53

위자드lm2 70b를 못보게 됐다는 게 너므 슬프구만

펼쳐보기▼

whs

2024-04-25 13:08:41

예전부터 데이터셋의 품질이 제일 중요하다는 이야기는 몇 번 돌았던 것 같은데
이러면 누가 먼저 고품질의 데이터셋을 대량으로 확보하거나 만드느냐가 관건인 싸움이 됐네

펼쳐보기▼

Sks

2024-04-26 13:36:39

본 게시물에 댓글을 작성하실 권한이 없습니다. 로그인 하신 후 댓글을 다실 수 있습니다. 아카라이브 로그인

전체글 AI 채팅 채널

최근 최근 방문 채널

최근 방문 채널

전체

번호 제목

작성자 작성일 조회수 추천

공지 아카라이브 모바일 앱 이용 안내(iOS/Android)

*ㅎㅎ 2020.08.18 27977506

2889669 AI 반실사 그림 🔞실삭 꽈추꽈추 [2]

저기있는곰 5시간전 590 10

2889668 AI 반실사 그림 🔞반실 SDXL 페인팅 [3]

빠다파리 15시간전 626 10

2889667 핫딜 후기 본오봉 성분표 보고 하루에 두개만 먹을라 햇는데 [12]

dssw 13시간전 245 5

2889666 소프트펨돔 동인 구매보급) 【한국어판】첫 봉사 마조화 조교 ~미사키 루트~

GOOD 2시간전 458 10

2889665 로보토미 코퍼레이션 🎨창작 메이드 료슈 [6]

꼬리치는뱀 8시간전 233 10

2889664 카운터사이드 창작 4월 정산이었던 것 [9]

MaGnet 37분전 82 13

2889663 블루아카이브 색채 🔞미분류 아스마 토키 [2]

순진한_하얀_부엉이 05-03 728 7

2889662 폴아웃 76 오나홀 발♡견 [21]

석유통 3시간전 210 8

2889661 종합축구 해•축 꾸레 올시즌 개좆꼬라박은 이유 [4]

블라우그라나 2시간전 78 6

2889660 얀데레 짤(외부) 뒤를 조심해 [8]

오렌지주스 5시간전 1215 26

2889659 유머 유머 미국에서 욕 먹은 사진 한 장 [34]

Rokky 3시간전 1726 24

2889658 얀데레 소설(단편) 일로 와서 앉아봐 할 말이 있어 [3]

Katazella 15시간전 613 26

2889657 뒷메뉴용 뒷메뉴 치파오 갈색가키 [3]

검은충동 4시간전 2010 10

2889656 블루 아카이브 공략/정보 미리보는 헤세드(야외) 토먼트 가이드 [26]

니조랄 2시간전 503 19

2889655 몬무스 번역 도로도라와 히메와 영웅담

IntSlow 5시간전 261 10

2889654 블루아카이브 색채 🔞이상변이 시체) 방금 죽은 모모이 [3]

둔한_까만_하마 13시간전 449 7

2889653 블루 아카이브 🔞 창작 빅젖후타)니야 [17]

ㅈㅍㅋ 2시간전 401 22

2889652 로보토미 코퍼레이션 🎁나눔 발푸밤 기념 0티어 3개 + 제 3회 발푸밤 올컬 + 호출 스타터팩 + 침잠 준스타터 깐돌계 나눔 [20]

ㅇㅇ 45분전 226 18

2889651 TS물 대회 [미하리의 실험실] 오끝에 관하여 [6]

초유농틋녀 15시간전 68 6

2889650 부카케 피규어 부카케 벽람 자라 [1]

ㅇㅇ (183.107) 8시간전 146 5

2889649 우마무스메 프리티 더비 AI 19) 미시 동탄맘 에어 그루브와 섹스 [3]

ㅇㅇ 6시간전 422 7

2889648 유희왕 🎨창작 우라라 짧만와 [3]

Jede_4 1시간전 101 12

2889647 블루 아카이브 구독중인채널 [22]

Signsr 1시간전 645 26

2889646 던전앤파이터 🎨창작 0골짜리 골미션 완성 [9]

rAnAi 51분전 280 10

2889645 텍스트게임 개발 몰루K 개발중인 내용 [6]

레몬녹차 4시간전 109 9

2889644 라스트오리진 공만최 참치 나만 이렇게 보인거 아니지? [7]

장독대 5시간전 195 11

2889643 이터널 리턴 🎨창작 어린이날 기념으로 아비게일 스킨 만들어 봤어 [8]

잘타는쓰레기 1시간전 201 12

2889642 블루 아카이브 생일임 축하해주셈 [19]

FOB 58분전 362 26

2889641 로보토미 코퍼레이션 📌정보/공략 조합템있는 상태로 재료템 환상체에게 시비털기 [4]

아인슈페너 1시간전 288 15

2889640 리얼돌 💖돌붕짤 이사 후 인형방 정리. 간만에 돌붕짤 및 보유돌 평점 [9]

E허로 5시간전 244 10

전체글 AI 채팅 채널

사용하고 계신 브라우저가 시간대 설정을 지원하지 않으므로 GMT 시간대가 적용됩니다.