X가 있을 때, 확률은 X에 따라 대응되고,
X가 가질 수 있는 값이 x에 따라 확률은 다양하게 있으니깐,
확률분포가 생긴다.
그럴 때 과연 어떻게 생길까? 에 대해서 학습해보자.
즉 확률분포 자체의 성질에 대해 얘기해보자
확률분포 자체의 성질이라면 예를 들어 평균, 분산이 있다.
12. 1 확률변수의 평균
확률변수의 평균을 알기 전에 먼저 예시를 통해 이해해보도록 하자.
(이걸 이해해야 확률변수 평균 구하는 식이 왜 그렇게 나왔는지 이해됨)

예시에서 '두개의 동전을 던지는 것'을 하나의 시행이라고 본다.
그리고 각 시행에서 나오는 앞면의 수를 X라고 한다. 그렇다면
X의 값은 무엇이 있을까?
두 개의 동전을 던지는 시행을 한 번했을때, 앞면이 2번 나오는 경우가 있다.
두 개의 동전을 던지는 시행을 한 번했을때, 앞면이 1번, 뒷면이 1번 나오는 경우가 있다.
두 개의 동전을 던지는 시행을 한 번했을때, 앞면이 0번, 뒷면이 2번 나오는 경우가 있다.
즉 X의 값은 0 , 1, 2가 있다.
알고 싶은건 매 시행에서 앞면이 나오는 평균갯수이다
즉 X의 평균이 궁금하다.
문제에서 시행을 16번 했다고 했다.
즉 '두개의 동전을 던지는 것' 자체를 16번 했다 ( 동전을 32번 던짐!)
이때, 매 시행에서 앞면이 나오는 평균 갯수를 구해보자.

16번의 시행에서 앞면이 0 번 나온 시행의 횟수는 4번
16번의 시행에서 앞면이 1번 나온 시행의 횟수는 7번
16번의 시행에서 앞면이 2번 나온 시행의 횟수는 5번 임을 통해 X의 평균을 구했다.
그런데 위의 그림을 자세히보자
파란색 네모로 쳐진 부분은 '도수'의 개념이다.
왜냐하면, 앞면이 x번 나온 시행의 '횟수' 즉 '몇 번 나왔는가'에 대한 개념이기 때문이다.
도수의 관점에서 식을 잠깐 변형해보자.

그랬더니
X가 가질 수 있는 값( ex.0 , 1, 2) 곱하기 '전체 시행 횟수(16번) 중 X가 가질수 있는 그 값이 몇번 나왔는가?' 의 합으로
생각할 수 있다.
특히 전체 시행 횟수 중 몇번 나왔는가에 해당하는 파란색 네모는 '상대도수'이다.
전체 횟수 중 몇번 발생했는가를 뜻하기 때문이다.
전체 16번 시행에서 앞면이 x번 나온 시행이 몇번인가 관점은
상대 도수의 관점이다. 위의 식에서 16번의 시행중에서 앞면의 갯수가 0이 나온 시행의 횟수는 4번이다.
즉 0의 상대도수는 4/16이다.
중요한 점은 상대도수는 확률의 개념과 관련이 있다는 점이다. (상대도수 → 확률)
왜냐하면 상대도수 : 이미 몇번을 했을 때 그 중 몇번이 나왔는가?' 를 뜻하는데
만일 시행을 무한히 하였을때, 나오는 극한값이 '확률'이기 때문이다.
수학적 확률 : 상대도수의 극한 개념
그래서 확률변수의 평균은 다음과 같이 정의할 수 있다.

앞선 예제에서는 확률변수 X의 평균을 구하기위해서 실제로 16번의 시행을 한 후 ,
실제로 나온 X의 값을 통해,
X가 가질 수 있는 값( ex.0 , 1, 2) 곱하기 '전체 시행 횟수(16번) 중 X가 가질수 있는 그 값이 몇번 나왔는가?' 의 합
즉 = (X의 값) * (X가 그 값인 상대도수)의 합으로 구했다.
이건 실제로 나오는 값의 관점에서 X의 평균을 구했다고 생각할 수 있다.
반면, 나오리라고 예측되는 값의 관점에서 X의 평균을 구한다고 생각할 땐,
시행을 무한히 했다고 생각한다.
(그래서 X의 평균을 '시행을 무한히 했을때 기대할 수 있는 X의 값'이라고 표현한다.
즉 X의 기댓값이라고 표현한다. 근데 X의 평균 = X의 기댓값 은 서로 같은 말이라고 생각하면 된다. )

따라서 X의 평균(기댓값)은 (X의 값) * ( X가 그 값일 확률)의 합으로 계산한다.
앞선 예제의 X의 평균을 해석해보자.
1.06이 나왔는데 이게 무슨 뜻이냐면,
16번이 나온 결과를 되돌아보니, 한번 시행(= 두개의 동전을 던짐)을 할때마다 앞면이 1.06개씩 나온셈이다를 뜻한다.
주의할점은 사실 두개의 동전을 던질때 실제로 앞면이 1.06개 나오지 않는다.
그냥 대략적으로 1.06개 나온다곤 생각할 수 있다는 점을 알아두자
앞선 예시를 다시 풀어보자
이번에는 나오리라고 예측되는 값의 관점에서 X의 평균을 구해보자.
표본공간 S = { HH , HT, TH, TT }
이땐 표본점마다 확률이 동일하다고 생각한다.
확률값은 다음과 같이 구할 수 있고
P(X = 0 ) = P(TT) = 1/4
( = 16번 시행이 아닌 시행을 무한히 했을때, 앞면의 갯수가 0이 나올 확률)
P(X = 1) = P(TH)+ P(HT) = 1/2
P(X = 2) = P(HH) = 1/4
X의 평균은 다음과 같다.

이번에는 16번 던질때 를 생각하는 것이 아니라
시행을 무한히 하였을때 를 생각한다 (= 수학적 기댓값으로서의 확률)
기댓값이 이번엔 1.06이 아닌 1 이 나왔다
뜻은 두개의 동전을 계속 던진다고 하였을때, 앞면이 1개 정도 나올 것이라고 기대된다는 것을 의미한다.
이렇게 예제를 통해서
이산형/ 연속형 확률변수에 따라 확률변수의 기댓값을 구하는 식을 이해할 수 있을 것이다.
이산형 확률변수의 기댓값

연속형 확률변수의 기댓값

* 종속 확률변수
확률과 확률분포가 주어졌을때, 평균(=기댓값)을 구하는 방법을 생각해보았다.
이번에는 확률변수X가 함수의 형태(ex. g(x)) 로 변형되었을 경우를 생각해보자.
이때 이 함수를 종속확률변수라고 한다.
우리가 이전에 알고 있는 확률변수 X는 표본점이나 사상을 수치로 표현한 수였다.
함수의 개념으로 생각해보자면, 표본점이나 사상을 수치에 대응시킨 것이 확률변수이다.

이번에는 X를 변형시켜서 X에 대한 식 g(x)를 생각해보자.
X는 수치에 대응되는 것과 마찬가지로
g(x)도 수치에 대응되는 또 다른 확률변수이다.
그렇지만 g(x)는 X와 별개의 확률변수가 아닌 X를 변형시켜 만들어진 확률변수이므로
g(x)를 종속확률변수라고 한다.

이 종속확률변수의 기댓값은 어떻게 구하는 가?에 대해서 예제를 통해 알아보자

주사위 윗면의 숫자를 X라고 두고
상금을 또 다른 확률 변수 Y라고 두자.
그렇다면 주사위 윗면의 숫자에 따라서 상금이 달라지니깐
상금 Y 라는 확률변수는 X에 대한 식으로 나타낼 수 있다.
Y = 100X
그리고
X = x 일 확률과 Y = y 일 확률은 동일하다.
이 상태에서 X의 확률분포와 Y의 확률분포를 표를 이용해서 나타내보자.

여기서 Y의 기댓값을 구해보면 다음과 같다.

Y의 기댓값을 구하는 건 기댓값의 정의에 따라서 구하면되므로 특별한 점이 없다.
그러나 여기서 관찰해야할 부분이 있다.

x를 변형시켜서 y를 만들었고 y의 평균을 구한다는 관점에서 생각해본다면,
y는 x에 관한 식이므로, y를 x에 관하여 g(x) 라고 표현할 수 있다.
해당 예제에선 y = 100x 이므로 , g(x) = 100x 가 된다.
그렇다면 y의 기댓값은 x에 관한 식으로 표현할 수 있다는 말!
따라서 종속확률변수의 기댓값은 g(x) * f(x) 로 표현할 수 있다.

이산형 / 연속형 확률변수인가에 따라서
종속확률변수의 기댓값을 구하는 식은 살짝 다르지만
결국 개념은
(x로 표현된 종속확률변수 * X=x일 확률) 를 가능한 모든 x에 대해서 더해(or 연속형확률변수인 경우 적분)주면 된다.

두 확률변수에 대한 기댓값
지금까지 확률변수와 확률분포가 주어졌을때
그 확률변수의 기댓값을 구하는 법을 배웠다.
그렇다면 두개의 확률변수가 있고 , 또한 두개의 확률변수의 확률분포 즉 결합확률분포가 주어졌을때
그 두 확률변수에 대한 기댓값을 구하는 법을 생각해보자.
근데
기댓값을 구하기 위해 사전에 생각해야하는 것이 있다.
기댓값은 계속 얘기했지만 확률변수 * 확률 를 가능한 모든 확률변수에 대해 다 더한 값이라고 얘기했다.
그렇다면 두 확률변수에 대한 기댓값을 구하기 위해선
어떤 확률변수의 기댓값을 생각해야할까?를 고민해야한다.
해답은 바로 종속확률변수에 있다.
즉 X로 표현되며 Y로 표현된 새로운 확률변수인 종속확률변수를
두 확률변수에 대한 기댓값을 구하기 위한 확률변수로 사용하기로 한다.
따라서 두 확률변수에 대한 기댓값은 다음과 같다.

확률은 두 확률변수의 확률분포 ( = f(x , y) )를 사용하기로 한다.
이산형확률변수인 경우 확률분포 자체 (함수값)가 확률값이고
연속형확률변수인 경우 확률분포를 구간에 따라 적분한 값이 확률값이다.
주변분포와 기댓값
이번에는 결합확률분포가 주어졌을 떄의 X만의 기댓값, Y만의 기댓값을 생각해보자.
이는 주변분포와 관련이 있다.

식이 왜 이렇게 되는지
f(x , y)가 주어졌을 때 주변분포를 이용하여
E(X)를 구하는 법을 설명해보겠다.
먼저 X가 이산확률변수 일때 ,

X가 연속확률변수 일때

이렇게 주변분포를 이용해서 X만의 평균을 구할 수 있다.
'수리통계학1' 카테고리의 다른 글
| 14강. 선형결합된 확률변수의 평균과 분산 (0) | 2024.07.02 |
|---|---|
| 13강. 분산과 공분산 (0) | 2024.07.02 |
| 9강. 조건부 분포, 통계적 독립 , 여러 개의 확률변수 (0) | 2024.06.29 |
| 8강 결합 확률분포 (0) | 2024.06.28 |
| 7강. 확률변수, 이산형 확률분포 , 연속형 확률분포 (0) | 2024.06.28 |