인간은 알파고처럼 수백만 판을 둘 수 없어

알파고는 어떻게 강해졌는가?

알파고(AlphaGo)는 약 5백만 판 이상의 자체 대국(Self-Play)을 통해 압도적인 실력을 갖추었습니다.
하지만 인간이 이를 그대로 따라 하는 것은 타당하지도 않거니와 불가능합니다.

1. 초기 학습 - 인간 기보 활용

알파고는 초기에 프로 기사의 기보(바둑 기록) 약 16만 건을 학습하며 인간의 바둑 스타일을 익혔습니다. 이를 통해 기본적인 전략과 수읽기 능력을 습득했습니다.

2. 강화 학습 - 자체 대국(Self-Play)

이후 자체 대국(Self-Play)을 통해 수백만 번의 대국을 거듭하며 최적의 수를 찾고 개선했습니다.

  • 알파고 리(AlphaGo Lee): 약 3,000만 판 이상의 자체 대국 수행
  • 알파고 제로(AlphaGo Zero): 인간 기보 없이 자체 대국 490만 판만으로 이전 버전을 능가

3. 결론: 사람은 알파고처럼 할 수 없어...

알파고는 수백만 번의 자체 대국(Self-Play)을 통해 강해졌으며, 초기에는 인간 기보를 활용한 지도 학습도 일부 사용되었습니다.

하지만 인간은 같은 방식으로 학습할 수 없기에, 효율적인 학습 방법이 필요합니다. 우리는 지금까지 뾰족한 수가 없었고, 실력은 정체되어 불만족스러웠습니다.

목차로 가기