Tecnología y arte
엔트로피의 수학적 표현 - 1 본문
<엔트로피의 수학적 표현>
엔트로피의 수학적 표현에 대해서 생각하기 전에 다시한번 불확실성이 가져야 하는 성질에 대해 리뷰해보겠습니다.
아래 글을 참조하셔도 됩니다.
https://ingartemus.tistory.com/entry/엔트로피의-수학적-표현-1
1) 불확실성은 0보다 크거나 같은 수로 대응되어야 한다.
2) 불확실성이 클수록 그 수는 커져야 한다.
3) 독립적 확률 변수의 불확실성을 한번에 수치화하면, 각각의 불확실성을 수치화한 값들을 더해서 표현할 수 있어야 한다.
4) 절대적 불확실성의 값이 커질수록 상대적 불확실성의 차이는 비중이 줄어든다.
1장에서 위의 4가지 특성을 만족시킬 수 있는 함수는 로그(log function)일 것이라는 추측을 했었습니다. 이를 바탕으로 앞서 살펴본 주사위의 예를 들어 엔트로피의 수학적 표현방식을 찾아보겠습니다.
완전히 이상적인 동전의 앞뒤면이 나올 확률은 각각 0.5이고, 이를 bit를 사용해서 불확실성을 묘사하면 1bit (0 또는 1)가 필요하다고 살펴보았습니다. 이때의 불확실성을 묘사하는 bit의 수를, 즉 엔트로피를 다른 말로 "정보량(measure of information)"이라고 합니다. 즉, 동전을 던지는 행위의 불확실성을 bit정보량으로 표현하면 1bit의 정보량이면 "충분"합니다. 또한, "최소" 1bit의 정보량이 "필요"합니다. 동전던지기를 2bit의 정보량으로 표현한다고 가정해보겠습니다.
앞-------->00
뒤-------->01
10
11
2bit의 정보량으로 표현하면 위와같이 두 가지 경우의 수가 남습니다. 따라서 동전던지기를 2 bit정보량으로 표현하는 것은 낭비라고 할수 있습니다. 그렇기 때문에 우리는 다음과 같은 조금더 간략한 정의를 새로 도입할 수 있습니다.
"엔트로피 = 확률 변수의 불확실성에 대응되는(또는 불확실성을 표현하기 위한) 최소의 정보량"
그렇다면, 확률 변수의 불확실성을 나타내는 엔트로피는 어떤 수학적 모양을 가져야 할까요? 엔트로피는 다음의 조건을 만족하여야 할것입니다.
1) 하나의 확률 변수의 특정 사건의 확률만이 아니라 그 확률 변수의 모든 발생 가능한(확률 0이상의) 사건의 확률이 모두 고려되어야 한다.
2) 로그함수의 특성이 반영되어야 한다.
1)번의 조건을 살펴보기 위해 한 확률변수의 특정 사건의 정보량을 생각해보겠습니다.. 동전던지기에서 앞면이 나오는 사건의 확률은 0.5이고, 이때 필요한 정보량은 1bit입니다.. 그런데, 뒷면이 나오는 사건의 정보량을 고려하지 않고, 앞면이 나오는 사건의 정보량을 가지고 "동전던지기"라는 확률적 행위의 불확실성을 모두 표현할 수 있을까요? 이는 "동전던지기"에서 발생가능한 사건중 하나만 고려하기 때문에 "동전던지기"의 불확실성이 제대로 표현되었다고 볼수 없습니다. 따라서, 뒷면이 나오는 사건의 정보량까지 동시에 고려하여 엔트로피를 정의해야 합니다. 이때 직관적으로 보았을때 가장 사용하기 쉬운 수학적 도구는 바로 "평균"입니다. 즉, 확률 변수의 각 사건에 대응하는 엔트로피를 평균하여 묘사하는 것이 확률 변수 전체의 엔트로피를 구하는 직관적인 방법이 될것입니다. 따라서, 위의 정의는 한단계 더 발전하여 다음과 같이 다시 정의할수 있습니다.
"엔트로피 = 확률 변수의 불확실성을 표현하기 위한 최소의 평균 정보량"
이러한 논리를 통해 다음과 같은 수식의 정의가 가능합니다. 즉, 확률 변수 \(X\)에 대해서
$$H(X) = E[h(x)]$$
여기서, \(h(x)\)는 \(X\)의 특정 사건 \(x\)에 해당하는 엔트로피입니다.. \(E[ \cdot]\)는 확률 변수의 모든 사건에 대한 평균을 나타냅니다. 따라서, \(h(x)\)를 정의하는 것이 마지막으로 남은 일입니다.
다시한번, 엔트로피는 로그함수의 특성을 가져야 한다는 점을 생각해보면, 동전던지기의 앞면이 나오는 확률은 다음과 같이 나타낼수 있습니다.
$$ p(x=front) = \frac{1}{2} $$
그럼 위의 확률과 로그함수의 특성을 가져야 하는 엔트로피의 성질을 이용해서 다음과 같은 표현을 생각해볼 수 있습니다.
$$ h(x=front) = \log (p(x=front)) $$
우리는 이미 엔트로피는 0보다 크거나 같아야 한다는 사실도 알고 있습니다. 하지만 위의 표현은 항상 0보다 작게 되기 때문에 우리는 위의 수식에 음수(-)부호를 붙이고, 이를 앞면이 나오는 사건의 엔트로피로 정의합니다. 즉,
$$ h(x=front) = - \log (p(x=front)) $$
의 수식을 유도하게 됩니다.. 여기서 비트정보량으로 나타낼때 동전의 앞면이 나오는 사건의 엔트로피가 1bit이므로,
$$ h(x=front) = - \log (\frac{1}{2}) = 1 $$
이어야 하고, 따라서 \(\log = \log_2 \)가 됩니다.. 즉, bit 정보량으로 나타낼때는 로그함수의 기저가 2가 됨을 알수 있습니다.
이를 바탕으로 동전던지기의 엔트로피를 구해보면 아래와 같습니다.
$$ H(X) = - \frac{1}{2} \log_2 (\frac{1}{2}) - \frac{1}{2} \log_2 (\frac{1}{2}) = \frac{1}{2} \cdot 1 + \frac{1}{2} \cdot 1 = 1 $$
따라서, 우리가 직관적으로 구한 동전던지기의 불확실성을 나타내는 bit 수와 위의 정의에서 구한 bit 정보량이 일치함을 볼수 있습니다..
'Communication Engineering' 카테고리의 다른 글
5G 통신 이해하기 - Peak throughput 관점에서 5G의 이점. (0) | 2018.06.23 |
---|---|
5G 통신 이해하기 - Peak throughput 에 대해서 (0) | 2018.06.13 |
5G 통신 이해하기 - 5G라는 이름의 의미 (0) | 2018.06.07 |
엔트로피(Entropy)의 개념 - 2 (0) | 2010.08.06 |
정보이론 : 엔트로피(Entropy)의 개념 - 1 (0) | 2010.05.11 |