정규 분포

간단한 소개

고딩과정의 통계에서는 정규분포의 기본적인 성질과 정규분포표 읽는 방법을 배움.
정규분포의 확률밀도 함수는 다음과 같음이 알려져 있음.
\(\frac{1}{\sigma \sqrt{2\pi} } \exp \left(-\frac{(x-\mu)^2}{2\sigma ^2} \right)\)
- [/pages/1950958/attachments/1448292 Gauss-detail2.jpg]
이 확률밀도함수가 어떻게 해서 얻어지는가 하는 것은 일반적인 고등학교 수준에서는 약간 어려움이 있지만, 호기심이 있는 학생들은 한번 도전해 보는 것도 괜찮아 보임.
방법1. 이항분포에 대한 중심극한정리를 통한 방법
방법2. 가우스의 '오차의 법칙' 을 통한 방법
- The law of errors ('Excursions in calculus' 206~216p 에서 가져옴)

중심극한정리의 역사

중심극한정리는 여러 과정을 거쳐 발전
이항분포의 중심극한 정리
- 라플라스의 19세기 초기 버전

확률변수 X가 이항분포 B(n,p)를 따를 때, n이 충분히 크면 X의 분포는 근사적으로 정규분포 N(np,npq)를 따른다

- 드무아브르가 18세기에 발견한 것은 이항분포에서 확률이 1/2인 경우

드무아브르의 중심극한정리

확률변수 X가 이항분포 B(n,1/2)를 따를 때, n이 충분히 크면 X의 분포는 근사적으로 정규분포 N(n/2,n/4)를 따른다

쉬운 말로 쓰자면,

동전을 여러번 던져서 앞면 혹은 뒷면이 나오는 경우를 셀 때, 동전을 많이 던질 경우 이것이 대체로 정규분포곡선을 따르게 된다는 것이다.

정규분포 \(N\(\mu, \sigma^2\)\)의 확률밀도함수는 그냥 대략 종모양인 것이 아니라 수학적으로

\(\frac{1}{\sigma \sqrt{2\pi} } \exp \left(-\frac{(x-\mu)^2}{2\sigma ^2} \right)\)

불필요한 상수들을 좀더 간략하게 표현을 하자면, 이 함수는

\(b \exp \left(-ax^2 \right)\)

아무튼 다음 글에서는 우리 고교 과정에서 빼먹어주신 부분을 메꾸는 작업을 하는데, 드무아브르 버전의 중심극한정리를 대강 유도한다. (다시 말하자면, \(b \exp \left(-a x^2 \right)\) 형태로 주어지는 함수의 등장을 두 눈으로 보게 될 것이라는 얘기)

이를 가지고 수능시험에도 낼 수 있는 수준의 문제를 들자면,

동전을 100회 던질 때, 앞면이 45회 이상 55회 이하 나올 확률을 구하여라.

라고 물으면,

정규분포표를 보고 0.7286이라고 대답하면 된다.

정규분포 \(N\(\mu, \sigma^2\)\)의 확률밀도함수는 다음과 같다.

\(\frac{1}{\sigma \sqrt{2\pi} } \exp \left(-\frac{(x-\mu)^2}{2\sigma ^2} \right)\)

지난 글에서는, 상수를 무시하고 보면 이 함수가

\(b \exp \left(-ax^2 \right)\)

꼴이라는 이야기를 했는데, 사실 앞에 붙어 있는 상수에 대해 언급을 할 필요가 있다는 생각이 들었다. 바로

\(\sqrt{2\pi}\)

말이다.

사실 여기엔 드무아브르에게는 다소 섭섭할만한 역사가 담겨져 있다. 정규분포 이야기에서 잠시 벗어나 보이는 팩토리얼 얘기를 조금 한다. 위에 있는 숫자의 근원이 여기에 있기 때문이다. 소위 스털링의 공식이라고 알려져 있는 팩토리얼의 근사식은 다음과 같다.

\( n! \approx \sqrt{2\pi n}\, \left(\frac{n}{e}\right)^{n}\)

팩토리얼은 정의는 간단할지라도 n이 조금만 커지기 시작하면 계산하기가 그리 만만치 않은 녀석이다. 따라서 위의 식은 실용적인 측면에서도 매우 유용한 근사식이 된다. 드무아브르는 이 근사식을 유도한 바가 있다. 다만 \(\sqrt{2\pi}\)라는 상수를 구하지 않고 다음과 수준의 표현을 남긴다. 적당한 상수 B가 있어 다음과 같이 된다는 것을!

\( n! \approx B \sqrt{n} \left(\frac{n}{e}\right)^{n}\)

역사는 다음과 같은 이야기를 전한다.

In Miscellanea Analytica (1730) appears Stirling’s formula (wrongly attributed to Stirling) which de Moivre used in 1733 to derive the normal curve as an approximation to the binomial. In the second edition of the book in 1738 de Moivre gives credit to Stirling for an improvement to the formula. De Moivre wrote:-
I desisted in proceeding farther till my worthy and learned friend Mr James Stirling, who had applied after me to that inquiry, [discovered that c = √(2 π)].

크레딧을 스털링에게 돌린 드무아브르. 오늘날 팩토리얼의 근사식은 (드무아브르의 이름은 온데간데 없이) 스털링의 공식으로 불려진다. 나같은 오타쿠가 아니라면, 수학을 공부해도 스털링의 이름 앞에 드무아브르가 와야 한다는 주장을 들어본 적이 없기 쉬울 것이다. 그러나 팩토리얼에 대한 드무아브르-스털링 공식이 옳지 않겠는가? 이러한 주장에 대해서는
[Historical Note on the Origin of the Normal Carve of Errors BY KARL PEARSON]을 참조하시면 되겠다.

후대 사람들은 정규분포의 확률밀도함수는 가우시안으로 부르며, 팩토리얼 근사식은 스털링 공식이라 부르고 있다는 사실을 죽은 드무아브르가 안다면 얼마나 억울해 하겠는가?

이야기는 다음 편에 계속된다.

지금 말하고 있는 드무아브르의 발견은 대략 1730년대 즈음에 벌어졌던 것이다.

데카르트가 살았던 것은 1596년 3월부터 1650년 2월까지, 뉴턴이 살았던 때가 1643년 1월부터 1727년 3월까지라고 나와 있으니, 그야말로 거인들의 어깨 위에 우뚝 선 사람들에 의해 새로운 시대의 새로운 발견이 쏟아지던 시기였을 것이다. 기억하는가? 사람들은 17세기 서양사를 천재들의 세기라 부른다는 사실을.

이보다 좀 전의 시기였던, 1655년, 영국 수학자 월리스(John Wallis)는 Wallis product라고 불려지는 다음과 같은 공식을 남긴다.(증명은 링크 참조)

\( \prod_{n=1}^{\infty} \frac{(2n)(2n)}{(2n-1)(2n+1)} = \frac{2}{1} \cdot \frac{2}{3} \cdot \frac{4}{3} \cdot \frac{4}{5} \cdot \frac{6}{5} \cdot \frac{6}{7} \cdot \frac{8}{7} \cdot \frac{8}{9} \cdot \cdot \cdot = \frac{\pi}{2}. \)

스털링이 드무아브르가 남긴 문제를 해결하고 역사에 이름을 남길 때, 스털링은 바로 이 월리스의 공식을 사용했다.

지금 우리의 목표는 동전을 몇 번 던질때, 몇 번 나올 확률이 얼마인지에 대한 근사식을 찾아내는 것이다. 이렇게 일반적인 문제의 해결은 다음으로 미루고, 일단 다음과 같은 구체적인 문제를 먼저 해결하자.

(n이 충분히 클 때) 동전을 2n 번 던질때, 앞뒷면이 각각 n 번 나올 확률은 얼마인가?

답을 먼저 말하자면, 이 확률은 대략

\(\frac{1}{\sqrt{\pi n}}\)

가 된다. 물리학자 파인만은 답속에서 숫자 파이를 보면, 이 문제 상황에서 ‘원’이 어디 있는가를 살펴야 한다고 했다. 혹시 동전이 둥글기 때문에? 땡~!!! 왜 나오는지는 명료하게 말하기 어렵다. (하나의 답은 월리스 공식의 유도과정에 있을 수 있다) 그리고 그 신비에 대한 탐구는 당신의 몫이다.

동전을 2n 번 던질때, 앞뒷면이 각각 n 번 나올 확률은 수학적으로 다음과 같다.

\(\frac{1}{2^{2n}}{2n\choose n} = \frac{1}{2^{2n}}{{(2n)!} \over {n!n!}}\)

한편 월리스의 공식에서 일반항은 다음과 같은데,

\( p_n ={1\over{2n+1}}\prod_{k=1}^{n} \frac{(2k)^4 }{((2k)(2k-1))^2}={1\over{2n+1}}\cdot {{2^{4n}\,(n!)^4}\over {((2n)!)^2}} \)

따라서

\( p_n ={1\over{2n+1}}\cdot {{2^{4n}\,(n!)^4}\over {((2n)!)^2}} \approx {1\over{2n}}\cdot {{2^{4n}\,(n!)^4}\over {((2n)!)^2}} \)

이는 월리스의 공식을 다음과 같은 방식으로도 쓸 수 있다는 것을 말해준다.

\( \frac{\pi}{2} =\lim_{n \to \infty} {1\over{2n}}\cdot {{2^{4n}\,(n!)^4}\over {((2n)!)^2}} \)

그리고 이는 다음을 말해준다.

\( \frac{1}{2^{2n}}{{(2n)!} \over {n!n!}}= \frac{1}{2^{2n}}{2n\choose n} \approx \frac{1}{\sqrt{\pi n}} \)

드무아브르의 마지막 펀치! 그 이야기는 다음 편에 계속된다.

이제 예정보다 길어진 시리즈의 마지막편이다. 처음 글에서 제기했듯이, 이 글은 고교 교과 과정에서 다음과 같이 얼버무리고 간 내용에 대해 약간의 구멍을 메꾸기 위한 것이다.

확률변수 X가 이항분포 B(n,p)를 따를 때, n이 충분히 크면 X의 분포는 근사적으로 정규분포 N(np,npq)를 따른다는 것이 알려져 있다.

잠시 여담이지만, 이렇게 중고딩 교과서에 ‘~임이 알려져 있다’라고 하는 부분은 사실 교사에게도 학생에게도 크게 중요한 것은 아닐 것이다. 그러나 나의 경험으로 볼 때, 이 순간이야말로 선생님들이 어린 아이들의 가슴 속에 세상에 매우 긍정적인 야망을 심어줄 수 있는 좋은 찬스인 것이다. 바로 이런 곳에 더 높은 수준의 학문을 향한, 학생들이 밟을 수 있는 디딤돌이 놓여져 있는 사회가 건강하고 튼튼한 것이라는 믿음하에 이 글은 작성되고 있다. 또한 중심극한정리라는 것은, 이 세상에서 왜 일어나야 할 일들이 일어나고 있는지를 설명해주는 중요한 수학적, 통계학적 교양의 소재이기도 하다.

드무아브르의 중심극한정리라는 것을 다시 한번 쉬운 말로 표현하자면, 동전을 많이 던졌을 때 앞면이 나오는 횟수의 확률분포는 거의 정규분포를 따른게 된다는 것이다.

지난 글에서는

\( \frac{1}{2^{2n}}{2n\choose n} \approx \frac{1}{\sqrt{\pi n}} \)

임을 월리스 공식을 사용하여 보인 바가 있다. 동전을 2n번 던질때, n번 나올 확률이 얼마인지 근사식을 차아본 것이다. 이제 동전을 2n번 던져서, n+k 번 나올 확률이 얼마인지를 알아보려 한다. 그리하려 계산하려 하는 것은 바로 다음 식이 되겠다.

\( {2n\choose n+k}{2n\choose n}^{-1} \)

앞서 구한 것을 이용하고자 비율을 구할 것이다.

\( {2n\choose n+k}{2n\choose n}^{-1} = \frac{n! n!}{(n+k)!(n-k)!} = \frac{n(n-1)\cdots(n-k+1)}{(n+k)(n+k-1)\cdots (n+1)}= \frac{1 (1-1/n)\cdots(1-(k-1)/n)}{(1+k/n)(1+(k-1)/n)\cdots (1+1/n)} \)

이제 우변의 근사값을 구하기 위해, 로그를 사용하는데, 이 과정에서 로그에 대해 알아야 할 것은 이전과 마찬가지로 두 가지. 하나는 로그는 곱셈을 덧셈으로 바꾼다. 그리고 또 하나는 x가 충분히 작을 때,

\(\ln (1+x) \approx x\)

라는 것이다.

우변에 로그를 취하게 되면,

\(\ln \frac{(1-1/n)\cdots(1-(k+1)/n}{(1+k/n)(1+(k-1)/n)\cdots (1+1/n)}\)

\(= \ln { (1-1/n)\cdots(1-(k+1)/n})- \ln {(1+k/n)(1+(k-1)/n)\cdots (1+1/n)}\)

이 되고,

\( \ln {(1-1/n)\cdots(1-(k+1)/n)} \approx - (\frac{1}{n}+\frac{2}{n}+\cdots +\frac{k-1}{n}) = - \frac{k(k-1)}{2n}\)

\(\ln {(1+k/n)(1+(k-1)/n)\cdots (1+1/n)} \approx (\frac{k}{n}+\frac{k-1}{n}+\cdots +\frac{1}{n} = \frac{k(k+1)}{2n}\)

따라서, 다시 지수함수를 취해주게 되면 다음과 같은 식이 얻어지게 된다.

\( \frac{1 (1-1/n)\cdots(1-(k-1)/n)}{(1+k/n)(1+(k-1)/n)\cdots (1+1/n)} \approx \frac{\exp(-\frac{k(k-1)}{2n})}{\exp(\frac{k(k+1)}{2n})} = \exp(-\frac{k^2}{n})\)

두둥! 마침내 무언가가 나타났다. 지금까지 한 작업을 요약하자면,

\( {2n\choose n+k}{2n\choose n}^{-1} \approx \exp(-\frac{k^2}{n}) \)

\( {2n\choose n+k} \approx {2n\choose n}\exp(-\frac{k^2}{n}) \)

따라서 동전을 2n번 던져서 n+k번 나올 확률이란,

\(\frac{1}{2^{2n}}{2n\choose n+k} \approx \frac{1}{\sqrt{\pi n}} \exp(-\frac{k^2}{n})\)

이 되는 것이다. 마침내 다음과 같이 생긴 녀석,

\(b \exp \left(-ax^2 \right)\)

가우시안이 등장한 것이다.

여기서 이제 n+k=x 로 두고, 2n번 던져서 x 번 나올 확률을 보게 되면 그 확률은 대략,

\( \frac{1}{\sqrt{\pi n}} \exp(-\frac{(x-n)^2}{n})\)

이 된다. 그리고 B(2n,1/2)의 평균과 표준편차

\(\mu=n, \sigma^2=\frac{n}{2}\)

를 이용하여, 중심극한정리가 예측했던 바를 써보면,

\(\frac{1}{\sigma \sqrt{2\pi} } \exp \left(-\frac{(x-\mu)^2}{2\sigma ^2} \right) = \frac{1}{\sqrt{\frac{n}{2}}\sqrt{2\pi} } \exp \left(-\frac{(x-n)^2}{2 \frac{n}{2}} \right) = \frac{1}{\sqrt{\pi n}} \exp(-\frac{(x-n)^2}{n})\)

우리가 얻은 식과 똑같지 않은가! 이상 드무아브르 버전의 중심극한정리를 유도해보았다.

다 쓰고 보니, 수식치기만 힘들었지 다들 떠나고 읽을 사람은 얼마 안 될 것 같다는 … OTL … 이상으로 이번 시리즈는 여기서 마무리 지으니 블로그 쥔장에게 격려의 박수를… -_-;

간단한 소개

하위주제들

하위페이지

0 토픽용템플릿
- 0 상위주제템플릿

재미있는 사실

많이 나오는 질문

네이버 지식인
- http://kin.search.naver.com/search.naver?where=kin_qna&query=

정규 분포

목차

간단한 소개

중심극한정리의 역사

드무아브르의 중심극한정리

간단한 소개

하위주제들

하위페이지

재미있는 사실

관련된 단원

많이 나오는 질문

관련된 고교수학 또는 대학수학

관련된 다른 주제들

관련도서 및 추천도서

참고할만한 자료

관련기사

블로그

이미지 검색

동영상

둘러보기 메뉴

검색