• 데이터셋 구하기
    • https://docs.google.com/spreadsheets/d/1mmKeHdFrO_gdxl6LcqtW9OKG8VJAVhp3q8s3xwdovys/edit?usp=sharing
    • 여기에 지금 글 작성 시점 298개의 대사가 있음
    • 데이터셋 추가하실거면 기존 형식 그대로 따라야함. 안 그러면 학습할 때 오류남
    • {"messages": [{"role": "system", "content": "당신은 전문적인 일본 만화 번역가 입니다. 주어진 일본어를 한국어로 정확하게 번역하세요."}, {"role": "user", "content": "おチ○ポがぴくんびくんて脈打ってる♡"}, {"role": "assistant", "content": "자지가 불끈불끈 뛰고 있어♡"}]}
      {"messages": [{"role": "system", "content": "당신은 전문적인 일본 만화 번역가 입니다. 주어진 일본어를 한국어로 정확하게 번역하세요."}, {"role": "user", "content": "子宮口...亀頭でぐりぐりこね回されてる"}, {"role": "assistant", "content": "자궁구...귀두로 문질문질 하고 있어"}]}
      {"messages": [{"role": "system", "content": "당신은 전문적인 일본 만화 번역가 입니다. 주어진 일본어를 한국어로 정확하게 번역하세요."}, {"role": "user", "content": "びゅくぴゅく精液注入されてるゥ♥"}, {"role": "assistant", "content": "뷰룻뷰룻 정액이 주입되고 있어♥"}]}
    • 이런식임


  • 데이터 파일 작성
    • 대충 학습폴더 만들고
    • 메모장으로 Sample.jsonl 생성
    • 여기에 구글시트 데이터셋 복사해서 넣으면 됨


  • 데이터 업로드
    • upload.py 작성 (메모장)
    • import os

      import openai


      openai.api_key = "님이 구매한 APi키 sk-어쩌고일꺼임"


      response = openai.File.create(

        file=open("님폴더\Sample.jsonl", "rb"),

        purpose='fine-tune'

      )


      print(response)

    • cmd에서 cd 님 폴더위치

    • C:\>cd C:\님폴더


      C:\님폴더>python upload.py  입력하면

      {

        "object": "file",

        "id": "file-파일아이디",

        "purpose": "fine-tune",

        "filename": "file",

        "bytes": xxx,

        "created_at": yyy,

        "status": "uploaded",

        "status_details": null

      }

    • 이런식으로 뜰꺼임.

    • 서버 오류 뜨면 그냥 기다렸다가 다시 하면 됨


  • 파인튜닝 학습 시작
    • FineTune.py 작성 (메모장)
    • import openai


      openai.api_key = "님 Api 키"


      response = openai.FineTuningJob.create(

        training_file="아까 위에서 나온 파일아이디", 

        model="gpt-3.5-turbo"

      )


      print(response)

    • C:\님폴더>python FineTune.py   입력하면

      {

        "object": "fine_tuning.job",

        "id": "ftjob-학습아이디",

        "model": "gpt-3.5-turbo-0613",

        "created_at": xxx,

        "finished_at": null,

        "fine_tuned_model": null,

        "organization_id": "org-소속아이디",

        "result_files": [],

        "status": "validating_files",

        "validation_file": null,

        "training_file": "file-파일아이디",

        "hyperparameters": {

          "n_epochs": "auto"

        },

        "trained_tokens": null,

        "error": null

      }

    • 이런식으로 뜰거임

    • 서버에러 나면 마찬가지로 잠시 기다렸다가 다시 하면 됨

    • https://platform.openai.com/finetune  에서 확인 가능. 이제 cmd 꺼도 됨



  • 이제 이런 모델을 자동 만화 번역기 BallonsTranslator에 적용하면 이런식임





이 프로그램은 https://arca.live/b/sickzil/83718470  에서 소개한 적이 있음

다음 글에는 어떻게 학습모델을 이 프로그램에서 쓰게 만드는지 쓸게용



다시 쓰지만 공유 데이터셋 주소는

https://docs.google.com/spreadsheets/d/1mmKeHdFrO_gdxl6LcqtW9OKG8VJAVhp3q8s3xwdovys/edit?usp=sharing

입니다. 님들도 데이터 추가 가능함!

오로지 떡인지 전용이라 다른 장르 만화는 데이터셋 따로 만드셔야 함;;


난 번역을 직접 한 적이 없어서 데이터셋이 많이 부실할거임


글 잘 못 쓰니까 헷갈리거나 설명이 잘못 된 부분들이 있다면 댓글로 알려주세용