8.1 결합 확률분포
앞서 이산확률변수의 확률은 어떠한가?와
연속확률변수의 확률은 어떠한가?에 대해 배웠고
이산확률변수의 확률은 확률변수에 대응되는 확률값이며
연속확률변수의 확률은 확률변수 구간에서의 적분임을 알게됐다.
그렇다면 확률변수가 1개가 아니라 여러개인 경우 확률(확률분포)은 어떠할 것인가?에 대해서 학습해보자.
확률변수가 여러개인 경우는 예를들어 과목별로 성적이 나온다면, 과목마다 다른 확률변수가 있을 것이다.
이번 학습에선 확률변수가 2개인 경우,
이산확률변수 상황에서 확률이 어떠할 가와
연속확률변수 상황에서 확률이 어떠할 가에 대해 구분지어 설명해보자
확률변수가 2개라면, 확률변수를 ( ① , ② ) 이렇게 순서쌍으로 나타낼 수 있다.
즉 2차원적으로 확률변수를 생각한다.
이산확률변수와 결합확률분포
예를 들어보자
동전을 두번 던지는 경우, 첫번째 결과의 확률변수를 X, 두 번째 결과의 확률변수를 Y로 표시하고,
앞면이 나올 경우의 값을 0, 뒷 면이 나올 경우의 값을 1이라 하면,
확률변수 X와 Y가 취할 수 있는 값, 즉 나올 수 있는 x , y에 대한 순서쌍 (x, y) 는 다음과 같다.

이때 , P( X = 0 , Y= 0 ) 을 구해보자
P( X = 0 , Y= 0 ) 뜻은 사상의 관점에서 생각해본다면,
첫번째 결과 앞면이 나오면서, 두번째 결과 때 뒷면이 나오는 경우를 뜻한다.
즉 두가지 경우가 동시에 일어나는 결합사상의 확률을 뜻하며
집합의 관점에선 교집합의 확률을 뜻한다.
그래서 P( X = 0 , Y= 0 ) 이를 다음과 같이 표시할 수 있다.

따라서 해당예제에서 P( X = 0 , Y= 0 ) 은 1/2 * 1/2 = 1/4 이다.
이렇게 두 개의 이산형 확률변수 X , Y 에 대해
확률변수가 취할 값에 대해 숫자(=확률)을 대응시켜주는 함수를 f(x, y)라 표시하고
이를 결합확률분포, 또는 결합확률질량함수라고 한다.
결합확률분포는 다음과 같은 조건을 만족시켜야 한다.

여기서
P[ (X , Y) ∈ A ] 에서
A란 (x ,y) 의 영역을 나타내는 기호이다.
그리고 해당 수식이 의미하는 바는, 'x와 y가 A라는 영역에 속할 확률은'?을 뜻한다.
따라서 3번 조건의 의미는
x와 y가 A라는 영역에 속할 확률은 x와 y가 동시에 일어나는 경우과 대응되는 확률을 모두 더한 값이다.
예를 들어 다음과 같다.


연속확률변수와 결합밀도함수
변수가 2개 주어질 경우
연속확률변수의 확률밀도함수는 일변수함수가 아닌 이변수 함수 f(x , y)로 표현한다.
이 함수를 결합밀도함수라고 부르며 , f(x, y)는 더이상 선이 아니라 , xy평면 위의 곡면을 뜻한다.
(왜냐하면 연속확률변수 x와 y는 각각 모든 실수를 의미하고 x라는 실수 y라는 실수를
차원으로 표현하면 곡면으로 나타나기 때문이다.)
따라서 A가 xy평면상의 영역이라면 , (x,y) 가 A 란 영역이란 범위 안에 있을 확률 즉 수식으로 표현하면
P[ (X , Y) ∈ A ] 는 밑면 A위의 곡면 아래 입체의 부피 이다.
즉 확률은 부피가 되며 구하는 방법은 이중적분을 통해 구하면 된다.
다시말해서 확률은 A 영역 에서의 이중적분이다 .
f(x, y)는 다음과 같은 조건을 만족한다면 연속확률변수 X 와 Y의 결합밀도함수라고 한다.

예시를 통해서 이해해보자.

0< x < 1 과 0< y < 1에서의 결합밀도함수가 x와 y 두 가지 변수로 표현이 된 이변수함수임을 알 수 있다.
이 경우에 확률은 어떠한가?를 구해보자.

먼저 위의 식의 의미를 살펴보자.

1인 이유 : 먼저 모든 가능한 x에 대하여 f(x)를 적분하였고, 이후
모든 가능한 y에 대하여 적분했던 값을 또다시 이중적분하였기 때문에
순서쌍 (x, y)의 모든 경우의 확률을 고려하였으므로 전체 확률 1 이 된다.
해당예제를 위의 식에 대입해보자
0< x < 1 과 0< y < 1 의 경우에만 확률밀도함수가 x ,y 변수에 따라 정의되었기 때문에
주어진 식을 구할 때 0부터 1까지 범위에서만 적분하면 된다.

다음 문제를 풀어보자 이번에는 영역이 주어진 경우 그 영역안에서의 확률은 어떻게 되는가?를 묻고있다.
연속확률변수의 결합확률분포는 ,
연속확률변수의 결합확률밀도함수가 전처럼 일변수함수가 아닌 이변수함수(=f(x, y))로 주어져 있기 때문에
면적이 아닌 '부피'가 된다. (확률이 부피가 됨)
따라서 확률을 구하기 위해선
그냥 적분하는 게 아니라 x에 대하여 적분한 다음 y에 대하여 적분을 하는 이중적분의 방식으로 구해야한다.
( 순서는 뒤바껴도되는데, 특수한 경우에 조금 까다로울 수 있음)

A라는 범위가 주어졌으므로 , P[ (X , Y) ∈ A ] = P[ 0 < X < 1/2 , 1/4 < Y < 1/2 ] 이다.
다시 언급하면
P[ (X , Y) ∈ A ] 를 다른말로 표현하면
= P[ 0 < X < 1/2 , 1/4 < Y < 1/2 ] 이렇게 표현을 할 수 있고
이 식의 의미는
'X가 해당 범위안에 있음과 동시에 Y역시 언급한 범위안에 있는 확률'을 뜻한다.
이를 이중적분통해서 구하면된다.
(TIP. X, Y가 독립적으로 움직인다는 뜻은(= 0 < X < 1/2 , 1/4 < Y < 1/2) X, Y의 범위가
곡면이라기 보단 직사각형 모양의 범위라는 것을 의미함)
주변분포
만약 확률변수 X, Y의 결합확률분포(결합확률밀도함수), 식으로 표현하면 f(x, y)가 주어졌을때,
X 혹은 Y 하나만의 확률분포(밀도함수)를 구하는 문제를 생각해보자.
X만의 확률분포(Y는 생각하지 않고!)를 g(x)라고 정의하고
Y만의 확률분포(X는 생각하지 않고!)를 h(y)라고 정의한다면 ,
g(x)는 f(x, y)를 y의 모든 값에 대해 합하면(또는 적분하면), 얻을 수 있다.
h(x)는 f(x, y)를 x의 모든값에 대해 합하면(또는 적분하면), 얻을 수 있다.
이러한 g(x) 와 h(x)를 각각 X와 Y의 주변분포 라고 한다.

즉
g(x)는 확률변수 X의 확률분포
h(y)는 확률변수 Y의 확률분포 이다.
'수리통계학1' 카테고리의 다른 글
| 12강. 확률변수의 평균 (0) | 2024.07.01 |
|---|---|
| 9강. 조건부 분포, 통계적 독립 , 여러 개의 확률변수 (0) | 2024.06.29 |
| 7강. 확률변수, 이산형 확률분포 , 연속형 확률분포 (0) | 2024.06.28 |
| 6강. 전확률의 정리와 베이즈 정리 (0) | 2024.06.27 |
| 5강. 조건부 확률, 승법정리 (0) | 2024.06.27 |