- 파이선 설치, openAi Api 구매
- https://platform.openai.com/account/billing/overview <--- 그냥 즐찾 추가하는게 편함
- Api 구매하고 Api 키 꼭 저장해야함. 챗 GPT4 구매와 별도임
- cmd 열고 pip install openai
- 데이터셋 구하기
- https://docs.google.com/spreadsheets/d/1mmKeHdFrO_gdxl6LcqtW9OKG8VJAVhp3q8s3xwdovys/edit?usp=sharing
- 여기에 지금 글 작성 시점 298개의 대사가 있음
- 데이터셋 추가하실거면 기존 형식 그대로 따라야함. 안 그러면 학습할 때 오류남
{"messages": [{"role": "system", "content": "당신은 전문적인 일본 만화 번역가 입니다. 주어진 일본어를 한국어로 정확하게 번역하세요."}, {"role": "user", "content": "おチ○ポがぴくんびくんて脈打ってる♡"}, {"role": "assistant", "content": "자지가 불끈불끈 뛰고 있어♡"}]} {"messages": [{"role": "system", "content": "당신은 전문적인 일본 만화 번역가 입니다. 주어진 일본어를 한국어로 정확하게 번역하세요."}, {"role": "user", "content": "子宮口...亀頭でぐりぐりこね回されてる"}, {"role": "assistant", "content": "자궁구...귀두로 문질문질 하고 있어"}]} {"messages": [{"role": "system", "content": "당신은 전문적인 일본 만화 번역가 입니다. 주어진 일본어를 한국어로 정확하게 번역하세요."}, {"role": "user", "content": "びゅくぴゅく精液注入されてるゥ"}, {"role": "assistant", "content": "뷰룻뷰룻 정액이 주입되고 있어"}]} - 이런식임
- 데이터 파일 작성
- 대충 학습폴더 만들고
- 메모장으로 Sample.jsonl 생성
- 여기에 구글시트 데이터셋 복사해서 넣으면 됨
- 데이터 업로드
- upload.py 작성 (메모장)
- import os
import openai
openai.api_key = "님이 구매한 APi키 sk-어쩌고일꺼임"
response = openai.File.create(
file=open("님폴더\Sample.jsonl", "rb"),
purpose='fine-tune'
)
print(response)
cmd에서 cd 님 폴더위치
C:\>cd C:\님폴더
C:\님폴더>python upload.py 입력하면
{
"object": "file",
"id": "file-파일아이디",
"purpose": "fine-tune",
"filename": "file",
"bytes": xxx,
"created_at": yyy,
"status": "uploaded",
"status_details": null
}
이런식으로 뜰꺼임.
서버 오류 뜨면 그냥 기다렸다가 다시 하면 됨
- 파인튜닝 학습 시작
- FineTune.py 작성 (메모장)
- import openai
openai.api_key = "님 Api 키"
response = openai.FineTuningJob.create(
training_file="아까 위에서 나온 파일아이디",
model="gpt-3.5-turbo"
)
print(response)
C:\님폴더>python FineTune.py 입력하면
{
"object": "fine_tuning.job",
"id": "ftjob-학습아이디",
"model": "gpt-3.5-turbo-0613",
"created_at": xxx,
"finished_at": null,
"fine_tuned_model": null,
"organization_id": "org-소속아이디",
"result_files": [],
"status": "validating_files",
"validation_file": null,
"training_file": "file-파일아이디",
"hyperparameters": {
"n_epochs": "auto"
},
"trained_tokens": null,
"error": null
}
이런식으로 뜰거임
서버에러 나면 마찬가지로 잠시 기다렸다가 다시 하면 됨
https://platform.openai.com/finetune 에서 확인 가능. 이제 cmd 꺼도 됨
- 학습모델 사용
완료되면 https://platform.openai.com/finetune 에 이런식으로 나옴
https://platform.openai.com/playground 에 가면 학습 모델을 사용 할 수 있음. 사용 전에 오른쪽에 Temperature 값을 0.5 이하로 맞춤 (1로 갈수록 ai가 창의적인 대답을 함)
User 에 일본어 대사 넣고 아래 Submit 누르면 됨
이제 이런 모델을 자동 만화 번역기 BallonsTranslator에 적용하면 이런식임
이 프로그램은 https://arca.live/b/sickzil/83718470 에서 소개한 적이 있음
다음 글에는 어떻게 학습모델을 이 프로그램에서 쓰게 만드는지 쓸게용
다시 쓰지만 공유 데이터셋 주소는
https://docs.google.com/spreadsheets/d/1mmKeHdFrO_gdxl6LcqtW9OKG8VJAVhp3q8s3xwdovys/edit?usp=sharing
입니다. 님들도 데이터 추가 가능함!
오로지 떡인지 전용이라 다른 장르 만화는 데이터셋 따로 만드셔야 함;;
난 번역을 직접 한 적이 없어서 데이터셋이 많이 부실할거임
글 잘 못 쓰니까 헷갈리거나 설명이 잘못 된 부분들이 있다면 댓글로 알려주세용