벤포드의 법칙

수학노트
둘러보기로 가기 검색하러 가기

개요[편집]

  • 수로 구성된 많은 데이터에서, 첫째 자리에 오는 숫자가 고르게 분포되어 있지 않은 현상
  • 다음과 같은 가정들로 설명됨.
    • 단위불변성(scale invariance)
    • base-invariance

 

 

발견[편집]

  • 미국의 수학자이자 천문학자인 사이먼 뉴컴(Simon Newcomb)은, 다른 사람과 함께 쓰던 로그책에서 책의 앞부분이 훨씬 낡아 있는 것을 발견
  • 로그표는 수가 커지는 순서대로 배열되어 있다. 그러므로 위 결과는, 실제 계산에서는 맨 앞자리수가 큰 숫자보다, 맨 앞자리수가 작은 수가 더 많이 쓰인다는 사실을 말해 준다.
  • 통상의 계산에서, 계산량이 많아지면 모든 크기의 수가 고르게 사용될텐데, 왜 이 수들의 최대 유효숫자는 이렇지 않을까?
  • 뉴컴은 다음과 같은 경험법칙을 얻는다.
    • 첫 유효숫자 <math>d</math> 로 시작하는 수의 비율은, (10진법에서) 1/9 가 아니라 <math>\log(1 + 1/d)</math> 와 같이 나타난다
  • 이 사실을 그는 American Journal of Mathematics 에 간략하게 실었으나, 수학적 분석이 없었으므로 별 주목을 받지 못했음. (1881)

 

<math>d</math> 직관적 확률 경험적 확률
<math>1</math> <math>0.111\cdots</math> <math>0.30103</math>
<math>2</math> <math>0.111\cdots</math> <math>0.17609</math>
<math>3</math> <math>0.111\cdots</math> <math>0.12494</math>
<math>4</math> <math>0.111\cdots</math> <math>0.09691</math>
<math>5</math> <math>0.111\cdots</math> <math>0.07918</math>
<math>6</math> <math>0.111\cdots</math> <math>0.06695</math>
<math>7</math> <math>0.111\cdots</math> <math>0.05799</math>
<math>8</math> <math>0.111\cdots</math> <math>0.05115</math>
<math>9</math> <math>0.111\cdots</math> <math>0.04578</math>

 

[2]

1938 년 미국 GE 의 물리학자 프랭크 벤포드(Frank Benford)가, 위의 뉴컴(Newcomb이 발견한 것과 정확히 같은 양상 - 즉 곧 첫 유효숫자의 분포는 <math>\log(1 + 1/d)</math> 와 같이 나타난다 - 을 재발견했다.

벤포드는 경험적 검증을 위해, 강의 넓이, 사망률, 야구 통계 등 전혀 무관한 임의의 20000 여개의 숫자들를 분석했다. 결과는 경험 법칙을 지지하는 방향으로 나타났다. (출처 필요)

 

[3]

많은 숫자의 나열이 벤포드 법칙을 따르지는 않는다. 극도로 임의적이거나, 정규분포나 균일 분포를 따르는 숫자의 나열이 그러하다.

자료가 벤포드 법칙을 따르려면 꼭 들어맞는 구조를 갖추어야 할 것으로 보인다.

어떤 분포를 임의로 골라서, 이 분포들에서 임의로 자료를 모으면, 각 분포들 자체는 그렇지 않더라도, 이렇게 결합된 자료는 벤포드 법칙을 따른다는 것을 1996년 힐이 보였다. (출처 필요)

 

[4]

단위 불변성은 벤포드 법칙을 함축한다.

단위불변성은, 임의의 환산 인자 <math>k</math> 를 곱했을 때도 자료에 남아 있는 성질이다.

 

관찰

고르게 선택된 숫자들에 2를 곱한 자료를 생각해 보자.

 

[1, 1.5) 2
[1.5, 2) 3
[2, 2.5) 4
[2.5, 3) 5
[3, 3.5) 6
[3.5, 4) 7
[4, 4.5) 8
[4.5, 5) 9
[5, 10) 1

위를 보면 알 수 있듯이, 첫 유효숫자의 분포는 고르지 않다. 첫자리에 1 이 올 확률은 나머지 2~9 가 올 확률의 합과 같다.

여기에서, 고르게 선택된 숫자들의 분포는 단위불변성을 갖지 않는다는 사실을 알 수 있다.

 

 

단위불변성(scale invariance)[편집]

  • 측정의 단위가 변해도, 분포가 변하지 않는 것을 일컫는다.
  • 확률변수 <math>X</math> 에 어떤 환산값을 곱해서 단위를 바꾸어도, 어느 구간에 있을 확률이 변하지 않는다면 단위불변성(Scale invariance)을 가진다고 하자.

 

정리

단위불변성을 가진 변수의 로그는 상수의 확률밀도함수를 가진다.

 

(증명)

확률변수 <math>X</math>에 대한 확률밀도함수 <math>\phi (x) </math> 를, <math>P(a \le X \le b) = \int_{a}^{b}\phi(x)dx</math> 와 같이 정의하고, 누적밀도함수 <math>\Phi(x)</math> 를 <math>\Phi(x) = P(X \le x) = \int^{x}\phi(t)dt</math> 와 같이 정의하자.

 

그렇다면 확률변수 <math>X</math> 는 <math>P( a < X < x) = P(ka < X < kx)</math> 와 같은 성질을 만족한다. 여기서 <math>a</math> 는 고정된 상수이고, <math>x</math> 는 변수, <math>k</math> 는 환산인자이다.

 

그러므로, 우리는 <math>\Phi(kx) - \Phi(ka) = \Phi(x) - \Phi(a)</math> 를 얻고, 미분하면 <math>k\phi(kx) = \phi(x)</math> 를 얻는다.

 

확률변수 <math>X</math> 에 대해, 다시 확률변수 <math>Y = \log_{b}X</math> 를 정의하자. 그리고 <math>Y</math> 에 대해, <math>\psi (y)</math> 와 <math>\Psi(y)</math> 를 위의 확률변수 <math>X</math> 에서와 같이 정의하자.

그러면 <math>\Psi(y) = P(Y \le y) = P(\log_b X \le y) = P(X \le b^y ) = \Phi(b^y) = \Phi(x)</math> 이므로, <math>\Psi(y) = \Phi(x)</math> 이다. 여기에서

<math>\psi(y) = \frac{d}{dy}\Phi(x) = \frac{dx}{dy}\phi(x)</math> 를 얻고, 따라서 조금 정리하면 <math>\psi( \log_b x) = x\phi(x) \ln{b}</math> 를 얻을 수 있다

<math>k\phi(kx) = \phi(x)</math> 에서, <math>x \phi(x) = \phi(1)</math> 이므로, 결국 <math>\psi</math> 는 상수함수임을 알 수 있다. ■

 

 

 

단위불변성을 통한 벤포드 법칙의 유도   [편집]

여기에서 벤포드 법칙을 이끌어낼 수 있다.

수 <math>n</math> 의 맨 왼쪽 수를 <math>d</math> 라 하자. 환산 인자를 <math>n</math> 에 곱할 때마다 첫 유효 숫자는 법 10 에서 변한다.

로그의 밑 <math>b</math> 를 <math>b = 10</math> 으로 삼으면, <math>\log_{10}x</math> 는 <math>0 \le x \le 1</math> 에서, 상수 1 의 확률밀도함수를 가질 것이다.

그러므로 단위불변성을 가정하면, <math>n = 1, 2, \cdots, 9</math> 에 대해

<math>\begin{tabular}{ll} $ P(d = n) $&$ = P(n \le x < n+1 )$ \\ & $= P(\log_{10} n \le \log_{10}x < \log_{10}(n+1)\ )$\\ & $=P(\log_{10}n \le y < \log_{10}(n+1) )$ \\ & =\log_{10}(n+1) - \log_{10}{n} = \log_{10}(1 + \frac{1}{n}) \end{tabular}</math>

를 얻고, 이것은 벤포드 법칙과 같다.

 

여기에서, 단위불변성을 가지는 자료는 벤포드 법칙을 만족함을 알 수 있다.

 

 

더 일반적인 significant digit law[편집]

  • 동일한 접근 방식으로 둘째 유효숫자에 대한 분석을 할 수도 있다. 둘째 유효숫자에서 가장 많이 나타나는 수는 0 인데, 빈도는 11.97% 정도 된다.
    • 참고할만한 자료의 Base-invariance implies Benford's law 참조.

 

벤포드 법칙의 응용[편집]

  • 여러 회계 자료들도 벤포드 법칙을 잘 따른다. 이것을 이용하여, 벤포드 법칙을 통해 숫자들의 패턴을 분석해서, 숫자 조작, 사기, 오류, 자료에 내재된 편견 등을 검증할수는 방법도 제안되었다.
    • Nigrini의 논문 참조.
  • 알파 붕괴의 반감기는 이론과 관측에서 벤포드 법칙을 따른다는 것이 확인되었다.

 

 

거듭제곱과 벤포드 법칙[편집]

  • 2부터, 2의 제곱, 2의 세제곱, …, 2의 100000제곱까지, 100000의 숫자에 대해 따져보면, 첫째 자리수가 {1,2,3,4,5,6,7,8,9} 인 숫자는 각각 {30103, 17610, 12493, 9691, 7919, 6695, 5797, 5116, 4576} (확인필요) 개씩 있다.
  • 2의 거듭제곱뿐 아니라, 대부분의 경우에도 성립.(10의 거듭제곱과 같은 경우는 제외)
  • 여기서 사용하는 <math>\log</math> 는 상용로그임
  • 가령 여섯자리수인 2의 거듭제곱의 첫째자리가 1인 경우는 자연수n에 대한 다음 부등식을 풀면 얻어진다:<math>100000\leq 2^n < 200000</math>:<math>\log 100000 \leq n \log 2 < \log 2 + \log 100000</math>:<math>\frac{5}{\log 2} \leq n < \frac{\log 2}{\log 2} + \frac{5}{\log 2} </math>
  • 마찬가지 방법으로 여섯자리수인 2의 거듭제곱의 첫째자리수가 p인 경우는 다음 부등식을 풀면 얻을 수 있다.:<math>\frac{\log p}{\log 2}+\frac{5}{\log 2} \leq n < \frac{\log (p+1)}{\log 2} + \frac{5}{\log 2} </math>
  • 여섯자리수인 2의 거듭제곱의 첫째자리수가 p의 경우는 길이가
     <math>\frac{\log(p+1)-\log p}{\log 2}=\frac{\log (\frac {p+1}{p})}{\log2}</math>
    인 구간에 있는 자연수의 개수라고 생각할 수 있음.
  • 따라서 여섯자리수인 2의 거듭제곱 중에서 첫째자리수가 p의 비율은 다음과 같음
<math>\log (\frac {p+1}{p})</math>
  • 여섯자리수뿐 아니라 더 일반적인 경우에도 첫째자리가 p의 경우에도 그 비율은 위와 똑같다는 것을 알 수 있음.
  • 따라서 2의 거듭제곱의 첫째자리수는 벤포드의 법칙을 따르게 됨.
  • 2의 거듭제곱뿐 아니라 일반적인 수 <math>\alpha</math> 의 거듭제곱 <math>\log \alpha</math> 가 무리수이면 벤포드의 법칙을 따르게 됨.

 

 

피보나치 수열과 벤포드의 법칙[편집]

  • Benford's Law for Fibonacci and Lucas Numbers
    • L. C. Washington
    • The Fibonacci Quarterly vol. 19, 1981, pages 175-177

 

 

재미있는 사실[편집]

  • 미드 numb3rs의 두번째 시즌 15번째 에피소드에 등장
  • Mark J. Nigrini 박사의 수학적으로 면밀하진 않지만, 좀 더 쉽게 이해되는 설명
    주식시장을 생각해 봅시다. 우리가 1,000로 다우존스 평균을 생각하는 경우에, 우리의 첫번째 자릿수는 1입니다. 첫 번째 자리수가 2가 되려면 평균은 2천이 되야하고 100%가 증가해야합니다.일년에 20%씩 증가한다고 해도 5년이 소요됩니다. 그런데 만약 첫번째 자리가 5라면, 20% 증가라면 6이 되는데 단지 1년이 필요하죠. 9000천 이라면 11% 만으로 다시 첫번째 자리가 1이 됩니다. 다시 10000에서 20000이 되는데는 5년이 필요합니다. 고로 1이 주로 나타나게 됩니다.

 

역사[편집]

 

 

메모[편집]

  • Kronecker theorem on ergodicity

 

 

매스매티카 파일 및 계산 리소스[편집]

 

 

관련된 항목들[편집]

 

 

관련도서[편집]

한 기업의 회계관이 디지털분석법을 사용하여 의료부서의 책임자가 제출한 청구서를 점검한 결과 뭔가 이상한 점을 발견했다. 의료 관련 지출서의 첫 두 유효숫자가 벤포드법칙을 따르는지 조사했더니 65로 시작되는 숫자들이 특별히 높은 값을 보였다. 그래서 6500달러에서 6599달러 사이의 수표들에 대한 회계감사를 실시한 결과, 책임자가 처리한 심장수술 청구서가 허위였으며 그 돈은 책임자가 착복한 것으로 밝혀졌다. 

- 14장 로그가 넘치는 세상, 244쪽


 

 

리뷰논문, 에세이, 강의노트[편집]

 

 

관련논문[편집]

 

 

 

관련링크 및 웹페이지[편집]

 

관련기사[편집]


 

블로그[편집]