LLM의 트레이닝 데이터가 실제로 적용될 때의 형태에 대해 궁금한게 있습니다.
LLM 트레이닝은 기본적으로 다음 토큰의 확률을 예측하는 것으로 알고 있습니다. 그렇다면 아래와 같은 질문-답변쌍을 모델에 학습시킬 때,
질문: "안녕하세요! 오늘 파리로 가나요?"
답변: "네, 그렇습니다만...."
실제 모델이 학습하는 쌍은
데이터셋1: [(안녕하세요! 오늘 파리로 가나요?), (네,)]
데이터셋2: [(안녕하세요! 오늘 파리로 가나요? 네,), (그렇습니다만)]
데이터셋3: [(안녕하세요! 오늘 파리로 가나요? 네, 그렇습니다만), (...)]
이렇게 학습데이터가 구성되어서 학습이 이루어지는거 맞나요?
만약 그렇다면 데이터에서 예측에 참고하는 텍스트의 길이는 보통 어느정도까지 두는지 궁금합니다..!