"벤포드의 법칙"의 두 판 사이의 차이

수학노트
둘러보기로 가기 검색하러 가기
141번째 줄: 141번째 줄:
  
 
여기에서, 고르게 고른 숫자들의 분포는 단위불변성을 갖지 않는다는 사실을 알 수 있다.
 
여기에서, 고르게 고른 숫자들의 분포는 단위불변성을 갖지 않는다는 사실을 알 수 있다.
 +
 +
 
  
 
 
 
 
146번째 줄: 148번째 줄:
 
'''분석'''
 
'''분석'''
  
확률밀도함수 <math>\phi (x) </math> 를, <math>P(a \le X \le b) = \int_{a}^{b}\phi(x)dx</math> 와 같이 정의하고, 누적밀도함수 <math>\Phi(x)</math> 를 <math>\Phi(x) = P(X \le x) = \int^{x}\phi(t)dt</math> 와 같이 정의하자.
+
정의
 +
 
 +
* 확률변수 <math>X</math> 에 어떤 환산값을 곱해서 단위를 바꾸어도, 어느 구간에 있을 확률이 변하지 않는다면 단위불변성을 가진다고 하자.
 +
확률밀도함수 <math>\phi (x) </math> 를, <math>P(a \le X \le b) = \int_{a}^{b}\phi(x)dx</math> 와 같이 정의하고, 누적밀도함수 <math>\Phi(x)</math> 를 <math>\Phi(x) = P(X \le x) = \int^{x}\phi(t)dt</math> 와 같이 정의하자.<br>
 +
 
 +
 
 +
 
 +
그렇다면 확률변수 <math>X</math> 는 <math>P( a < X < x) = P(ka < X < kx)</math> 와 같은 성질을 만족한다. 여기서 <math>a</math> 는 고정된 상수이고, <math>x</math> 는 변수, <math>k</math> 는 환산인자이다.
 +
 
 +
 
 +
 
 +
그러므로, 우리는 <math>\Phi(kx) - \Phi(ka) = \Phi(x) - \Phi(a)</math> 를 얻고, 미분하면 <math>k\phi(kx) = \phi(x)</math> 를 얻으므로,
  
 
 
 
 

2009년 7월 8일 (수) 23:36 판

요기 있던 말은 0 우리끼리 생각 남기는 곳 으로 옮겨놓았음.

작업방식과 관련된 논의는 그곳에서

 

간단한 소개
  • 수로 구성된 많은 데이터에서, 첫째 자리에 오는 숫자가 고르게 분포되어 있지 않은 현상

 

 

[1]

미국의 수학자이자 천문학자인 Simon Newcomb 은, 다른 사람과 함께 쓰던 로그책에서 책의 앞부분이 훨씬 낡아 있는 것을 눈치채었다.

로그표는 수가 커지는 순서대로 배열되어 있다. 그러므로 위 결과는, 실제 계산에서는 맨 앞자리수가 큰 숫자보다, 맨 앞자리수가 작은 수가 더 많이 쓰인다는 사실을 말해 준다.

통상의 계산에서, 계산량이 많아지면 모든 크기의 수가 고르게 사용될텐데, 왜 이 수들의 최대 유효숫자는 이렇지 않을까?

Newcomb 은 다음과 같은 경험법칙을 얻는다.

  • 첫 유효숫자 \(d\) 로 시작하는 수의 비율은, (10진법에서) 1/9 가 아니라 \(\log(1 + 1/d)\) 와 같이 나타난다

이 사실을 그는 American Journal of Mathematics 에 간략하게 실었으나, 수학적 분석이 없었으므로 별 주목을 받지 못했음. (1881)

\(d\) 직관적 확률 경험적 확률
\(1\) \(0.111\cdots\) \(0.30103\)
\(2\) \(0.111\cdots\) \(0.17609\)
\(3\) \(0.111\cdots\) \(0.12494\)
\(4\) \(0.111\cdots\) \(0.09691\)
\(5\) \(0.111\cdots\) \(0.07918\)
\(6\) \(0.111\cdots\) \(0.06695\)
\(7\) \(0.111\cdots\) \(0.05799\)
\(8\) \(0.111\cdots\) \(0.05115\)
\(9\) \(0.111\cdots\) \(0.04578\)

(출처 필요)

 

[2]

1938 년 미국 GE 의 물리학자 Frank Benford 가, 위의 Newcomb 가 발견한 것과 정확히 같은 양상 - 즉 곧 첫 유효숫자의 분포는 \(\log(1 + 1/d)\) 와 같이 나타난다 - 을 재발견했다.

벤포드는 경험적 검증을 위해, 강의 넓이, 사망률, 야구 통계 등 전혀 무관한 임의의 20000 여개의 숫자들를 분석했다. 결과는 경험 법칙을 지지하는 방향으로 나타났다. (출처 필요)

 

[3]

많은 숫자의 나열이 벤포드 법칙을 따르지는 않는다. 극도로 임의적이거나, 정규분포나 균일 분포를 따르는 숫자의 나열이 그러하다.

자료가 벤포드 법칙을 따르려면 꼭 들어맞는 구조를 갖추어야 할 것으로 보인다.

 

어떤 분포를 임의로 골라서, 이 분포들에서 임의로 자료를 모으면, 각 분포들 자체는 그렇지 않더라도, 이렇게 결합된 자료는 벤포드 법칙을 따른다는 것을 1996년 힐이 보였다. (출처 필요)

 

[4]

단위 불변성은 벤포드 법칙을 함축한다.

단위불변성은, 임의의 환산 인자 \(k\) 를 곱했을 때도 자료에 남아 있는 성질이다.

 

관찰

고르게 고른 숫자들에 2를 곱한 자료를 생각해 보자.

 

[1, 1.5) 2
[1.5, 2) 3
[2, 2.5) 4
[2.5, 3) 5
[3, 3.5) 6
[3.5, 4) 7
[4, 4.5) 8
[4.5, 5) 9
[5, 10) 1

위를 보면 알 수 있듯이, 첫 유효숫자의 분포는 고르지 않다. 첫자리에 1 이 올 확률은 나머지 2~9 가 올 확률의 합과 같다.

여기에서, 고르게 고른 숫자들의 분포는 단위불변성을 갖지 않는다는 사실을 알 수 있다.

 

 

분석

정의

  • 확률변수 \(X\) 에 어떤 환산값을 곱해서 단위를 바꾸어도, 어느 구간에 있을 확률이 변하지 않는다면 단위불변성을 가진다고 하자.
  • 확률밀도함수 \(\phi (x) \) 를, \(P(a \le X \le b) = \int_{a}^{b}\phi(x)dx\) 와 같이 정의하고, 누적밀도함수 \(\Phi(x)\) 를 \(\Phi(x) = P(X \le x) = \int^{x}\phi(t)dt\) 와 같이 정의하자.

 

그렇다면 확률변수 \(X\) 는 \(P( a < X < x) = P(ka < X < kx)\) 와 같은 성질을 만족한다. 여기서 \(a\) 는 고정된 상수이고, \(x\) 는 변수, \(k\) 는 환산인자이다.

 

그러므로, 우리는 \(\Phi(kx) - \Phi(ka) = \Phi(x) - \Phi(a)\) 를 얻고, 미분하면 \(k\phi(kx) = \phi(x)\) 를 얻으므로,

 

 

 

[5]

벤포드 법칙을 통해 숫자들의 패턴을 분석하면, 숫자 조작, 사기, 오류, 자료에 내재된 편견 등을 검증할 수 있다.

 

 

 

재미있는 사실

 

 

역사
많이 나오는 질문과 답변

 

관련된 고교수학 또는 대학수학

 

 

관련된 다른 주제들

 

 

관련도서 및 추천도서

 

참고할만한 자료

 

관련기사

 

 

블로그

 

이미지 검색

 

동영상