최적화로 얻어진 거듭제곱 분포 - HOT

수학노트
둘러보기로 가기 검색하러 가기

미첸마허의 논문에 제시된, 최적화를 통해 거듭제곱 분포가 얻어지는 원리를 #에 소개했습니다. 오늘은 그 논문에 참고문헌으로 달려 있는 칼슨과 도일의 논문을 간단히 소개합니다. 서지사항은 다음과 같습니다.

J.M. Carlson and John Doyle, Highly optimized tolerance: A mechanism for power laws in designed systems, Phys. Rev. E 60, 1412-1427 (1999).

논문 제목 중 첫 세 낱말의 약자가 HOT입니다. 굳이 한글로 옮기자면 '매우 최적화된 허용' 쯤 되려나요;; 그냥 편하게 HOT라고 하겠습니다. 사실 이 논문 끝까지 보지도 않았고, '최적화를 통한 거듭제곱 분포 유도'만 정리하려고 합니다.

실제공간이든 상태공간이든 X라고 씁니다. 이 공간 위의 한 곳 x에서 사건이 시작될 확률을 p(x)로 씁니다. 숲불 모형(forest fire model)으로 생각하면, 2차원 평면의 각 자리에 나무가 있거나 없고 이웃한 자리에 있는 나무들끼리 주루룩 연결되어 하나의 작은 '숲'을 만든다고 생각합니다. 그런데 번개가 랜덤하게 치는데 거기 맞은 나무에서 불이 나기 시작합니다. 그 나무가 속한 숲으로 불이 모두 번지고 끝나겠죠. 어떤 위치 x에 있는 나무에 번개가 칠 확률이 p(x)입니다.

이 불로 인해 타버린 나무의 개수 또는 타버린 영역의 면적을 A(x)라 합니다. 이 사건으로 인해 치룬 비용은 C(x)라고 하는데 물론 A에 따라 커지는 값입니다. 일반적으로 C와 A가 거듭제곱 관계에 있다고 가정합니다. (왜?)

\(C(x)\sim A(x)^\alpha\)

사건의 기대비용은 다음과 같습니다.

\(E(A^\alpha)=\int_X p(x)A(x)^\alpha dx\)

사건으로 인한 피해를 줄이기 위해 방화벽을 세우는 등 할 일이 생기는데 이를 위해 필요한 자원을 R(x)라고 합니다. 자원의 양이 다음처럼 한정되어 있다고 합니다.

\(\int_X R(x)dx=\kappa\)

여기서 R의 정의가 좀 모호한데, x에서 시작한 사건을 제한하기 위해 필요한 자원으로 보입니다. 이 R도 A와 거듭제곱 관계에 있다고 또 가정합니다.

\(A(x)=R(x)^{-\beta}\)

R이 커지면 방화벽을 많이 세우니까 A가 줄어들겠죠. 자원에 대한 제약 조건 하에서 비용을 최소화함으로써 '최적화'를 하겠다는 말입니다. (라그랑지 곱수 방법으로 보이네요.)

\(\delta[E(A^\alpha)-\lambda\kappa]=0\to \delta\int_X[p(x)A(x)^\alpha-\lambda R(x)]dx=0\)

오른쪽 식의 적분 안에 대괄호 안이 0이 되도록 하고 A와 R 사이의 관계를 이용하면 p와 A의 관계가 다음처럼 얻어집니다.

\(p(x)\sim A(x)^{-\gamma},\ \gamma=\alpha+1/\beta\)

p의 분포를 알면 A의 분포도 P(p)dp=P(A)dA를 통해 바로 알 수 있습니다. 예를 들어 X가 1차원 공간이고 x가 연속일 때, p(x)가 거듭제곱 꼴이거나 지수함수, 가우스 분포일 때 A의 분포도 거듭제곱 분포가 됨을 알 수 있습니다.

최적화의 결과로서 한 사건으로 인한 피해지역의 분포, 또는 간단히 사태의 분포가 거듭제곱 분포로 나오는 건 맞는데, 사실 중간에 이미 A와 C와 R 사이의 거듭제곱 관계를 가정하지 않고는 얻어지지 않는 결과입니다. 순환논리라는 비판을 받아도 별로 할 말이 없다는 말이죠.

그건 그렇다쳐도 기존의 거듭제곱 분포 모형과는 다른 원리를 제시했다는 면에서 의미가 있습니다. 대개 통계물리 모형에서는스템의 요소들이 균질하다고 가정되며 공학적인 접근보다 자연적인 현상을 이해하려고 하는 편이며, 그런 흐름에서 거듭제곱 분포도 임계점 또는 임계점으로 자동으로 끌려가는 장치를 도입한 모형을 통해 이해해왔습니다. 하지만 생물이나 기술(technology)적인 현상에서는 요소들이 불균질하며 자연선택이든 최적화든 (제가 이해하기로는) 좀더 적극적인 적응(?)이 중요하게 여겨지며, 이런 흐름에서 거듭제곱 분포도 최적화를 통해 이해할 수 있다고 주장합니다.

제가 아직 명확하게 이해하지 못하고 쓰고 있네요. 사실 균질한 요소를 가정하는 통계물리 모형에서도 일종의 '최적화'가 없지 않습니다. 이를테면 최대엔트로피 원리, 즉 시스템은 어떤 외부 환경에서도 가장 있을법한 상태를 찾아간다는 원리를 전제하고 있으니까요. 평형통계물리의 임계점에서 거듭제곱 관계나 거듭제곱 분포가 나타나는 것도 일종의 최적화의 산물이라고 이해하고 있습니다.

여튼 저자들은 임계점이 아닌 곳에서 더 높은 산출을 보일 수 있음을 HOT 원리를 실제 모형에 적용함으로써 보여주는데 이걸 보면 앞서 말했듯이 좀더 적극적인 '적응/최적화를 통한 거듭제곱 분포'를 제시하는 것으로 보입니다. 여기까지.