수리통계학1

13강. 분산과 공분산

datavwy 2024. 7. 2. 12:23

 

 

분산의 정의 

 

 

 

확률변수와 평균의 제곱을 X에 대한 식 g(x) 즉 종속확률변수의 평균을 분산으로 정의한다. 

복습!) 앞서 종속확률변수의 기댓값(= E(g(x))을 구하는 식은

종속확률변수 * (X= x가 일어날 확률) 을 가능한 모든 x의 확률변수에 대하여 다 더한 값이라고 했다.

 

 

마찬가지로 분산은 확률변수와 평균의 제곱이라는 종속확률변수(= g(x)) 의 평균이므로, 

종속확률변수에 대한 평균의 정의를 사용하면 위와 같다. 

 

이산확률변수인가 연속확률변수인가 에 따라서 

분산의 식이 살짝 다르지만 개념은 같다. 

 

 

 

분산의 식을 조금더 쉽게 계산하는 방법을 알아보자. 

(문제가 나왔다고 무턱대고 계산하지 말고 이 점을 꼭 염두해두자) 

 

증명하는 방법은 그냥 분산의 식을 풀어보면 된다. 

위의 식은 이산형확률변수이든 연속형확률변수이든 상관없이 성립하는 식인데, 

어차피 증명할 때 방법은 같으니깐 

 

이산형 확률변수라고 가정한 뒤 , 식을 증명해보자. 

 

 

 

 

 

종속확률변수의 분산 

 

이번에는 종속확률변수의 분산을 생각해보자 

 

 

 

식 설명) g(x)도 x로 표현되었지만 엄면히 확률변수이다!

그래서 , X의 분산 식에 X 대신 g(x)를 넣으면 그 식이 종속확률변수의 분산 식이 된다. 

 

 

공분산 

 

 

이번에는 확률변수가 2개 있을 때의 공분산에 대해서 얘기해보자. 

공분산의 식은 다음과 같이 정의한다. 

 

 

왜 식이 저럴까? 조금 직관적으로 설명한다면, 

원래 분산의 식은 확률변수 X와 평균의 편차의 제곱 이었다. 

이번에는 확률변수 2개 의 공분산을 알고싶은거니깐.. (확률변수 - 평균) * (확률변수 - 평균) 이런 형태로 

나타낼 수 있다. 

 

 

 

(확률변수 X와 평균의 차이) 와 (확률변수 Y와 평균의 차이) 의 곱의 평균이 공분산이다. 

 

 

풀어서 말하면, 

 

(확률변수 X와 평균의 차이) 와 (확률변수 Y와 평균의 차이) 의 곱을

가능한 모든 x에 대해서 그리고 가능한 모든 

y에 대해서 더한 합이 공분산이다.  

 

 

분산과 마찬가지로 

 

공분산을 쉽게 구하는 식이 있다. 

 

 

 

 

증명도 마찬가지로 , 

증명하는 방법이 이산형 확률변수이든 연속형 확률변수이든 동일하므로 ,

 

이산형 확률변수 일때에만 증명해보자. 

 

 

식을 풀어보자. 

 

 

 그러면 최종식이 이렇게 나온다. 

 

상관계수 

 

다른 공분산과 비교하기 위해 표준화된 지표가 필요한데 그게 바로 상관계수이다. 

 

상관계수의 식은 다음과 같다.