알파고(AlphaGo)는 약 5백만 판 이상의 자체 대국(Self-Play)을 통해 압도적인 실력을 갖추었습니다.
하지만 인간이 이를 그대로 따라 하는 것은
타당하지도 않거니와 불가능합니다.
알파고는 초기에 프로 기사의 기보(바둑 기록) 약 16만 건을 학습하며 인간의 바둑 스타일을 익혔습니다. 이를 통해 기본적인 전략과 수읽기 능력을 습득했습니다.
이후 자체 대국(Self-Play)을 통해 수백만 번의 대국을 거듭하며 최적의 수를 찾고 개선했습니다.
알파고는 수백만 번의 자체 대국(Self-Play)을 통해 강해졌으며, 초기에는 인간 기보를 활용한 지도 학습도 일부 사용되었습니다.
하지만 인간은 같은 방식으로 학습할 수 없기에, 효율적인 학습 방법이 필요합니다. 우리는 지금까지 뾰족한 수가 없었고, 실력은 정체되어 불만족스러웠습니다.