LLM의 트레이닝 데이터가 실제로 적용될 때의 형태에 대해 궁금한게 있습니다.

 LLM 트레이닝은 기본적으로 다음 토큰의 확률을 예측하는 것으로 알고 있습니다. 그렇다면 아래와 같은 질문-답변쌍을 모델에 학습시킬 때,

질문: "안녕하세요! 오늘 파리로 가나요?" 

답변:  "네, 그렇습니다만...."



실제 모델이 학습하는 쌍은 

데이터셋1: [(안녕하세요! 오늘 파리로 가나요?), (네,)]

데이터셋2: [(안녕하세요! 오늘 파리로 가나요? 네,), (그렇습니다만)]

데이터셋3: [(안녕하세요! 오늘 파리로 가나요? 네, 그렇습니다만), (...)]


이렇게 학습데이터가 구성되어서 학습이 이루어지는거 맞나요?


만약 그렇다면 데이터에서 예측에 참고하는 텍스트의 길이는 보통 어느정도까지 두는지 궁금합니다..!