GPT 번역 학습하는 법 + 공유 데이터셋 - 역식 채널

알림 알림 중 알림 취소

구독자 6948명 알림수신 67명 @Jager_Ace

다양한 만화, 떡인지, 팬아트

정보 GPT 번역 학습하는 법 + 공유 데이터셋

추천 7 비추천 0 댓글 13 조회수 2230 작성일 2023-10-07 23:28:07 수정일 2023-10-07 23:30:36

https://arca.live/b/sickzil/88219861

파이선 설치, openAi Api 구매
- https://platform.openai.com/account/billing/overview <--- 그냥 즐찾 추가하는게 편함
- Api 구매하고 Api 키 꼭 저장해야함. 챗 GPT4 구매와 별도임
- cmd 열고 pip install openai

데이터셋 구하기

https://docs.google.com/spreadsheets/d/1mmKeHdFrO_gdxl6LcqtW9OKG8VJAVhp3q8s3xwdovys/edit?usp=sharing
여기에 지금 글 작성 시점 298개의 대사가 있음
데이터셋 추가하실거면 기존 형식 그대로 따라야함. 안 그러면 학습할 때 오류남

{"messages": [{"role": "system", "content": "당신은 전문적인 일본 만화 번역가 입니다. 주어진 일본어를 한국어로 정확하게 번역하세요."}, {"role": "user", "content": "おチ○ポがぴくんびくんて脈打ってる♡"}, {"role": "assistant", "content": "자지가 불끈불끈 뛰고 있어♡"}]}

{"messages": [{"role": "system", "content": "당신은 전문적인 일본 만화 번역가 입니다. 주어진 일본어를 한국어로 정확하게 번역하세요."}, {"role": "user", "content": "子宮口．．．亀頭でぐりぐりこね回されてる"}, {"role": "assistant", "content": "자궁구...귀두로 문질문질 하고 있어"}]}

{"messages": [{"role": "system", "content": "당신은 전문적인 일본 만화 번역가 입니다. 주어진 일본어를 한국어로 정확하게 번역하세요."}, {"role": "user", "content": "びゅくぴゅく精液注入されてるゥ"}, {"role": "assistant", "content": "뷰룻뷰룻 정액이 주입되고 있어"}]}

이런식임

데이터 파일 작성
- 대충 학습폴더 만들고
- 메모장으로 Sample.jsonl 생성
- 여기에 구글시트 데이터셋 복사해서 넣으면 됨

데이터 업로드
- upload.py 작성 (메모장)
- import os
  import openai
  
  openai.api_key = "님이 구매한 APi키 sk-어쩌고일꺼임"
  
  response = openai.File.create(
  file=open("님폴더\Sample.jsonl", "rb"),
  purpose='fine-tune'
  )
  
  print(response)
- cmd에서 cd 님 폴더위치
- C:\>cd C:\님폴더
  
  C:\님폴더>python upload.py 입력하면
  {
  "object": "file",
  "id": "file-파일아이디",
  "purpose": "fine-tune",
  "filename": "file",
  "bytes": xxx,
  "created_at": yyy,
  "status": "uploaded",
  "status_details": null
  }
- 이런식으로 뜰꺼임.
- 서버 오류 뜨면 그냥 기다렸다가 다시 하면 됨

파인튜닝 학습 시작
- FineTune.py 작성 (메모장)
- import openai
  
  openai.api_key = "님 Api 키"
  
  response = openai.FineTuningJob.create(
  training_file="아까 위에서 나온 파일아이디",
  model="gpt-3.5-turbo"
  )
  
  print(response)
- C:\님폴더>python FineTune.py 입력하면
  {
  "object": "fine_tuning.job",
  "id": "ftjob-학습아이디",
  "model": "gpt-3.5-turbo-0613",
  "created_at": xxx,
  "finished_at": null,
  "fine_tuned_model": null,
  "organization_id": "org-소속아이디",
  "result_files": [],
  "status": "validating_files",
  "validation_file": null,
  "training_file": "file-파일아이디",
  "hyperparameters": {
  "n_epochs": "auto"
  },
  "trained_tokens": null,
  "error": null
  }
- 이런식으로 뜰거임
- 서버에러 나면 마찬가지로 잠시 기다렸다가 다시 하면 됨
- https://platform.openai.com/finetune 에서 확인 가능. 이제 cmd 꺼도 됨

학습모델 사용
- 완료되면 https://platform.openai.com/finetune 에 이런식으로 나옴
- https://platform.openai.com/playground 에 가면 학습 모델을 사용 할 수 있음. 사용 전에 오른쪽에 Temperature 값을 0.5 이하로 맞춤 (1로 갈수록 ai가 창의적인 대답을 함)
- User 에 일본어 대사 넣고 아래 Submit 누르면 됨

이제 이런 모델을 자동 만화 번역기 BallonsTranslator에 적용하면 이런식임

이 프로그램은 https://arca.live/b/sickzil/83718470 에서 소개한 적이 있음

다음 글에는 어떻게 학습모델을 이 프로그램에서 쓰게 만드는지 쓸게용

다시 쓰지만 공유 데이터셋 주소는

https://docs.google.com/spreadsheets/d/1mmKeHdFrO_gdxl6LcqtW9OKG8VJAVhp3q8s3xwdovys/edit?usp=sharing

입니다. 님들도 데이터 추가 가능함!

오로지 떡인지 전용이라 다른 장르 만화는 데이터셋 따로 만드셔야 함;;

난 번역을 직접 한 적이 없어서 데이터셋이 많이 부실할거임

글 잘 못 쓰니까 헷갈리거나 설명이 잘못 된 부분들이 있다면 댓글로 알려주세용

댓글

gg

2023-10-07 23:42:31

2023-10-07 23:46:29

2023-10-08 00:00:53

학습 가격 대략 1대사 당 10원

펼쳐보기▼

2023-10-08 06:43:01

떡인지용 모델 학습시키고 싶어서 저런 데이터셋 있으면 좋겠다 생각했는데 좋네

펼쳐보기▼

2023-11-16 03:59:38

정보 감사합니다 
궁금한게 있는데, 컴퓨터 사양은 어느 정도여야 하나요?
예를 들면 AI  그림은 GPU가 중요하다고 그래픽, 램 위주 사양을 봅니다.

펼쳐보기▼

2023-11-16 04:40:28

인페인팅 때문에 사양 꽤 탑니다

펼쳐보기▼

2023-11-16 04:42:19

어떤 기준으로 맞추어야 하나요?
CUP? 
아니면 그래픽?
관련 게시글 같은게 있을까요?

펼쳐보기▼

2023-12-18 19:42:20

*수정됨

openai 1.00으로 업데이트 되서 메뉴얼 갱신해야될거 같음

펼쳐보기▼

2024-02-06 16:29:48

1.데이터파일 생성 2. 데이터 업로드 3.파인튜닝 학습 시작   --  이 과정만 혹시 가능하시다면 영상으로 짤막하게나마 업호드 가능할까요?   잘 이해가안되서.. 가능하다면 전에 프로그램 설명글처럼 짧게 영상으로라도 설명해주시면 감사하겠습니다 ..                                 

+ 소개해주신 프로그램 잘 쓰고있습니다 감사합니다 ㅎㅎ

펼쳐보기▼

2024-04-01 10:13:00

playground는 기능이랑 ui가 바껴서 글에 소개된거랑은 조금 달라진듯
그나마 비슷하게는 좌측 상단 playground에 assistant 로 옵션 체크되어있는거 complete로 바꾸면됨
근데 playground에서 설정한게 번역프로그램에서도 적용되는거임? 아니면 그냥 테스트용도?

펼쳐보기▼

2024-04-01 10:38:54

번역프로그램에 playground 세팅이 따로 있어요

펼쳐보기▼

2024-04-01 10:51:50

override model에 모델명 적으면 되는거?? output model 이름 그냥 다 적으면되나??
답변 ㄳㄳ

펼쳐보기▼

2024-04-01 13:15:09

튜닝 모델 사용하는 비용 꽤 비싸네.. 3.5의 4배 이상이다.. 
좋은 경험했다 생각하고 다시 순정 쓰러감

펼쳐보기▼

본 게시물에 댓글을 작성하실 권한이 없습니다. 로그인 하신 후 댓글을 다실 수 있습니다. 아카라이브 로그인

전체글 개념글

최근 최근 방문 채널

최근 방문 채널

전체 요청 역질 질문 식질 질문 모집 정보 작업중 작업중(19) 작업끝 작업끝(19)

번호 제목

작성자 작성일 조회수 추천

공지 [완료] 서비스 장애 안내

*ㅈㅅ 2024.05.11 2621

공지 아카라이브 모바일 앱 이용 안내(iOS/Android)

*ㅎㅎ 2020.08.18 28193114

공지 신문고

Jager_Ace 2021.02.04 4503

공지 공지) 유입필독

Jager_Ace 2020.10.10 20347

175 정보 깨진 폰트파일 해결법

옵션 2024.05.01 98 2

174 정보 간단한 나만 보는 역식 방법 [1]

사랑푸른 2024.04.28 240 2

173 정보 내가 쓰는 액션 세팅 (1) [14]

인생무상 2024.04.14 347 6

172 정보 폰트 다운 사이트 Fontke

고양이강도 2024.04.13 203 4

171 정보 온글잎에서 특이한 폰트 발굴해보기 [20]

켈피 2024.03.28 845 21

170 정보 답변) 흑갸루->백갸루 [2]

아카징키 2024.03.28 203 2

169 정보 클린본이 있을 때 반투명 말풍선 식질하기 [4]

인생무상 2024.03.17 249 3

168 정보 독백 말풍선 만들기(삐죽삐죽한 말풍선 만들기) [7]

인생무상 2024.03.02 268 3

167 정보 DL사이트 vs FANZA(dmm) 검열 비교 [9]

고양이강도 2024.03.02 289 2

166 정보 [식질팁] 소실점 활용 예제 [7]

아카징키 2024.01.31 792 10

165 정보 DL판 작품 추출이 안되어 캡쳐할 경우 큰 크기로 가져오기 [3]

고양이강도 2024.01.12 323 3

164 정보 포토피아 magic replace [1]

혼파망 2023.12.17 402 0

163 정보 답변) 레이어 자동정렬 - 노모판 덧씌우기 등 [7]

아카징키 2023.10.25 770 1

162 정보 매년 한글날은 무료 폰트 나오는 날 [6]

고양이강도 2023.10.09 523 6

161 정보 GPT 번역 학습하는 법 + 공유 데이터셋 [13]

금딸1일차 2023.10.07 2231 7

160 정보 GPT기반 딸깍딸깍 자동 번역+역식 [130]

금딸1일차 2023.08.14 6256 10

159 정보 획을 여러번 갈겨쓴 느낌의 폰트 모음 [5]

켈피 2023.09.26 1849 11

158 정보 19) 이비스 페인트로 풀컬러 식질하기 [3]

Vanitas 2023.09.17 1765 10

157 정보 포토피아 vs 포토샵 Beta 비교 [1]

고양이강도 2023.09.05 545 4

156 정보 Renta! 다운로더 사용법 [1]

ㅇㅇ 2023.08.21 330 0

155 정보 던파 연단된 칼날, 비트비트체 v.2

고양이강도 2023.08.04 268 3

154 정보 번역 돈 받고 할 수 있는 "DLsite 다함께 번역" 채널 홍보 [22]

왈왈 2023.07.27 1582 7

153 정보 포토샵으로 텍스트에 외부광선+그레이디언트 효과 넣는 법 [4]

고양이강도 2023.07.06 927 11

152 정보 흑백 만화 작업할 때 주의점 [2]

고양이강도 2023.06.20 515 0

151 정보 포토피아를 알게 된 이후로 내 식질은 달라졌다 [3]

고양이강도 2023.06.18 772 0

150 정보 이 폰트 이름 뭔지 세 번째 질문드립니다 [6]

라오찡 2023.06.13 1352 14

149 정보 [퍼리주의] 일본어를 할 줄 몰라도 만화 역식을 해보자! [14]

아기염소 2023.06.09 1423 4

148 정보 [퍼리주의] 동인지 표지 식질 노가다는 이제 그만, 포토샵 AI 기능 들여다보기 [8]

아기염소 2023.06.08 1417 1

147 정보 개인적인 폰트 고르는 법 [2]

고양이강도 2023.06.01 610 0

146 정보 포토샵 ai 생성 기능 추가 [2]

ㅇㅇ 2023.05.24 653 0

전체글 개념글

사용하고 계신 브라우저가 시간대 설정을 지원하지 않으므로 GMT 시간대가 적용됩니다.