어떻게 맞췄는지 로또 번호를 예측한다는 업체의 홈페이지에 들어가서 자세히 살펴보았다.
업체에서 설명하는 내용은 대략 이러하다. 지금까지 가장 많이 나온 숫자들과 가장 적게 나온 숫자들의 조합으로 6개의 번호들을 만들어 낸다고 소개한다.
이는 무작위성이라는 성질을 무시한 확률이다. 로또 기계 자체가 무작위성을 가지도록 고안된 기계인데 무작위성은 과거의 데이터를 기억하는 성질이 아니라 아예 리셋이 되는 것이다. 즉, 조합은 독립이고 1등이 나올 확률은 매 회차별로 약 1/814만으로 동일하다. 가장 많이 나온 숫자든 적게 나온 숫자든 이를 이용해서 예측 번호를 내봤자 통계학적으로 말이 안된다는 것이다.
로또 번호를 예측한다는 업체들의 소개 내용을 보면 한가지 의문이 생긴다. 이 업체가 만들어낸 6개의 숫자를 예측한 조합이 여러개인지, 아니면 6개 번호 조합 1개만 부여하는지 이다.
아마도 6개 번호 조합 1개만 예측하여 모든 회원들에게 동일하게 제공하진 않는 것 같다. 여러개의 조합들을 만들어내서 회원들이 서로 다른 조합들을 받게 되야 이 업체에서 제공된 번호가 당첨될 확률이 높아질테니 말이다.
로또 번호를 예측할때 6개 번호로 조합된 것 1개만 예측하여 회원들에게 동일하게 제공하고 이 조합이 1등이 된다면 우리가 모르는 어마어마한 기술을 그들은 가지고 있다고 필자는 인정하겠다.
그러나 필자의 생각과 같이 로또를 예측하는 이들이 6개의 조합을 무수히 만들어 낸다면? 극단적으로 말해서 약 814만개를 만들어 낸다면 이중 한개의 당첨 번호가 나오는건 당연한거 아닌가.
그러면 업체가 해야할 일은 무엇일까? 회원들의 수를 최대한 많이 확보하고 자신들이 부여하는 여러개의 6개 조합을 받도록 한다면 이 업체에서 제공된 번호가 당첨될 가능성은 높아진다.
다시말해 극단적으로, 업체는 약 814만개의 조합을 제시하고 이 업체의 회원들이 약 814만명으로써 6개 번호 조합들을 1개씩 부여 받는다면 이 업체에서 당연히 당첨자가 나오게 되는 것이다.
눈치가 빠른 사람들은 이쯤에서 알아챘을것이다. 통계학적으로 로또를 자동으로 사는 것과 업체에서 제공되는 번호를 받아 구매하는것과 사실 별반 다를 것이 없다는 것을.... 무작위성이기 때문에....
그렇다면 로또 명당은?
이 역시 위와 비슷한 원리이다.
요즘 사람들이 로또 명당이라고 하여 그 곳에 많이 몰리게 되고 심지어 줄까지 서서 로또를 구매한다고 하는데 위 그림처럼 로또 명당과 일반 로또 판매처가 있다고 해보자.
당첨될 조합의 숫자는 정해져 있다. 이때 로또를 구매하는 곳의 사람들이 많으면 많을수록 그 당첨될 번호를 가져갈 가능성이 더 높지 않을까? 더 극단적인 예를 들어 보자. 로또 명당과 일반 로또 판매처 이렇게 두곳만 생각 했을때 로또 명당에서만 사람들이 로또를 사가고 일반 로또 판매처에서는 로또를 아무도 사지 않았다면? 당연히 로또 명당에서 당첨자가 나오지 않겠는가.
이런 생각을 배제하고 로또 명당의 현수막들을 본다면, 이 곳의 풍수지리와 여러가지 운들이 작용하여 당첨자가 많이 나온다는 그럴싸한 그림이 그려진다.
그러면 여기서 정리하고자 한다.
1. 로또 번호를 예측하는 시스템이 지금까지 가장 많이 나온 숫자와 그렇지 않은 숫자들을 조합하여 번호를 추출하는 거라면 무작위성의 원칙을 무시한 것이다. 무작위성에서 번호가 나온는게 로또인데 이 무작위성은 과거의 어떠한 것도 기억하지 않는다.
2. 로또 명당에는 사람이 많다. 하늘에서 비가 내릴때, 사람이 적은 지역보다 많은 지역에서 비맞은 사람이 많다.
위 정리 내용과 같이 과거에 자주 나온 번호라 하더라도 로또 시스템인 무작위성을 고려하면 지난 로또 번호를 가지고 예측을 한다는건 통계학적으로 맞지 않는 것이다. 다시말해서 이전에 나온 번호들은 그 무엇도 기억하지 않게 되며 나아가 과거의 데이터 자체가 리셋되기 때문에 미래를 예측한다는건 말이 안된다는 것이다.
그렇다면 백번 양보해서 예측할 수 있다는 주장을 펼치고자 할 때 다음과 같은 조건을 고려해 볼 수도 있겠다.
지난 회차별 추첨 번호가 나올때 다음과 같은 조건들이 만족 했다면?
- 로또 기계에 공을 넣는 순서가 정해진 패턴이 있었다.
- 공들의 무게가 아주 미세하게 달라졌다.
- 공을 섞을때 속도 및 바람 세기가 정해진 범위 내에서 패턴이 형성 되었다.
등등.. 이와 같이 어떠한 많은 조건들이 걸려 있다면 백번 양보해서 기계 학습 방법을 생각해 볼 수 일을 것이다. 그렇다면 조합된 번호가 당첨될 확률은 만들어 볼 수 있다. 하지만 이 조차 정답이라고 받아들이기 보다는 의사결정의 도구로 봐야 한다.
사실 필자는 로또 관련 인터뷰가 왔을때 로또 번호를 예측해주는 업체가 어떻게 예측을 할지 찾아보기 보다는 당연히 데이터마이닝 기법들 중 Negative Rule, Sequential Rule, Association Rule등과 같은 알고리즘을 이용했겠거니 했다. 아니면 로또 기계가 가진 특성이나 외부적 요소(위와 같이 백번 양보한 조건들)들을 업체들이 자체적으로 변수화(데이터화)하여 이들로 어떠한 패턴을 찾아 내서 Decision Tree, Neural Networks와 같은 분석 방법들을 썼겠구나 하는 생각이였다. 물론 이는 로또 기계와 주변 환경들이 무작위성을 방해하고 있다는 조건하에 가능하다(즉, 로또 당첨이 우리가 알고 있는 무작위가 아니라 공정하지 못하다고 밝혀졌을때의 얘기로 볼 수도 있겠다). 이 같은 조건하에 데이터마이닝 기법을 활용하면 조합된 번호가 1등이 될 확률이 얼마다라고 산출할 수는 있지만 이 역시 확신을 해서는 안된다. 이 결과 역시 확률 그 자체로 받아들여야지 정답으로 보면 안되고 번호 선택을 함에 있어서 그 의사결정의 도구로만 활용을 해야지 확신을 해선 안되기 때문이다. 그런데 앞에도 기재 했듯이 로또 예측을 하는 방법들을 알아본바, 단순 빈도를 이용하여 가중치를 주고 조합을 했다고 하니 더더욱 이건 아니다라는 생각을 하게 됐다.
이제 원점으로 돌아와서 말하면,
로또는 무작위 추첨이며 이에 대한 확률은 매 회차별로 봐야 한다. 사람들은 기대 심리에 의해서 옳고 그름을 충분히 인지 할 수 있음에도 순간 그럴싸해 보이면 그름도 옳음으로 믿어버리고 만다.
우리는 통계학적 관점의 확률에 대해서 이해할 필요가 있다. 로또는 그 회차별 각각에서의 확률(동일함)로 봐야 하고, 로또 예측을 한다는 사람들이 제시하는 확률은 무작위성을 배제 시킨 확률이다. 확률에 대한 통계적 교육이 이 사회에 많이 필요한 것 같다. 설령 올바른 확률을 낸다고 하여도 사람들은 그것을 확률이라고 받아들여야 하는데, 정답이라고 받아들이면 안된다는 거다. 로또 예측 확률 역시 이게 올바른 확률인지 잘못된 확률인지 볼 수 있는 통찰력이 필요한 시대가 아닌가 한다.
마지막으로 정리하면
로또 기계 자체가 무작위성을 가지도록 고안된 기계라고 한다. 그렇다면 과거 당첨된 번호를 확률로 이용해봤자 이론적으로는 받아들일 수없다. 그리고 백번 양보해서 로또 기계를 믿지 못하고 어떠한 다른 조건들이 생겨서 그 기계 자체에 어떠한 패턴이 생겼다면 예측은 할 수 있겠으나 이 역시 확률로 받아들여서 의사결정의 도구로 봐야지 당첨번호라고 받아들이면 안된다.
통계나 예측에 대한 이해가 없는 이들에게 그럴싸한 이론 장난으로 현혹시켜서는 안된다고 생각한다.
- (주)SA consulting[구.통계학술연구회] 공동대표 이재호 -