저건 강화학습(Reinforcement Learning)이라 부르는 기술로 알파고의 근본임

ChatGPT에도 쓰인 학습 방법으로, 기계학습을 크게 세 분류로 나눴을 때 분류되는 분야 중 하나


원리는 파블로프의 개 실험을 생각하면 됨

인간이 어떤 상황에 대한 보상을 설계하고, 특정 상황에 도달하면 +점수, 아니면 -점수(패널티)를 주게 하고 AI는 총 점수의 합이 최대가 되도록 행동하는 방향으로 학습함


여기서 가장 큰 문제는 AI의 행동목표는 오로지 처음부터 지금까지의 점수를 극대화시키는 것이라는 것임

다른 말로 하면 인간이 보상 함수(Reward Function)을 제대로 설계하지 않으면 얘가 인간이 의도한 대로 나아가지 않는다는 것


만약 어떤 차를 특정 위치까지 옮기는 것이 목표라면,

가장 간단하게 쓸 수 있는 방법은 차의 현 위치와 목표 위치간의 거리가 좁혀질 수록 더 높은 보상을 주는 것이 됨


목표와 차 사이에 아무것도 없다면 문제 없이 제대로 될 것이지만, 만약 장애물이 존재한다면?

보상 함수에 장애물에 충돌했을 시 어떻게 보상이 주어지는가에 대한 사항이 없으니 얘는 부딫히든 말든 일단 가장 빠르게 움직이는 방향으로 이동함


부딫히면? 벽을 뚫을 수 있다면 뚫겠고, 못 뚫는다면 벽 따라서 이동하겠지

실제로는 자동차의 역학적 구조가 있기 때문에 단순히 그렇게 움직이지만은 않겠지만, 얘가 장애물에 부딫히든 말든 알바 아니라는 건 확실함


결론: 념글처럼 ai가 관제탑을 공격하거나 하는 병신같은 움직임을 보이는 이유는 보상을 설계한 인간이 병신이어서 그런것