·
1.4 자료의 요약
앞서 기술통계학을 이용하여 자료를 요약한다고 했다.
기술통계학은 어떤 것이 있는지 살펴보자
· 모수(parameter) : 모집단의 특성을 나타내는 수치들 (ex. 모평균, 모분산, 모비율, 모상관계수 등)
- 추측통계학은 표본의 자료를 바탕으로 모수를 추정하는 것이다.
- 그리스 문자로 표시한다
· 통계량(statistic) : 표본의 특성값
- 같은 모집단이라도 표본을 어떻게 꺼내는가에 따라 통계량이 달라진다.
- 영어의 알파벳을 사용한다.
숫자로 나타나는가? 여부에 따라 자료를 크게 2가지 자료로 나눌수 있다.
(※예외: 질적자료,범주형자료이지만 숫자로 나타내는 명목자료, 순서자료
양적자료이지만 범주로 나타내는 집단화자료 )
· 질적자료, 범주형자료 : 수&량과 관계없는 자료 , 숫자로 나타나지 않는다.
예외 : - 명목자료: 범주를 사용하기 편하도록 숫자를 대치한 자료 (예: 우편번호)
따라서 , 이 숫자 자체가 수나 양을 뜻하지 않는다.
- 순서자료: 숫자가 '순서'의 의미를 가지지만 '수'나 '양'의 뜻을 내포하지 않는다.
· 양적자료 : 자료가 수로 표현되며 그 숫자가 수나 양의 의미를 갖는 자료
예외: -집단화자료: 양적자료를 범주로 묶어서 나타냄
예: 학점에서 A는 90점이상, B는 80~89점 등)
[1] 위치측도(대표값) - 자료의 중심을 나타냄
ⓛ 평균
· 모평균
· 표본평균

평균의 단점: 이상값, 극단값, 특이점이 발견된다면, 평균은 대표값으로의 의미를 상실해버린다.
② 중앙값 : 자료를 크기순으로 늘어뜨려놓을때, 가운데에 해당하는 값
자료의 수가 홀수면 바로 가운데의 수가 중앙값이지만,
자료의 수가 짝수면 가운데번째 수가 소수나 나와서 그 가운데번째 수 양옆의 번째수를 더한뒤 평균낸 값으로 계산
식으로 나타내면, 다음과 같다.

③ 절사평균(trimmed mean) : '절'이 切(끊을 절)이란 뜻으로 특정비율을 기준으로 가장 앞(작은),뒤(큰) 부분을 제거한뒤, 남은 자료의 평균을 뜻한다. 만약 10%을 기준인 절사평균을 기호로 나타낸다면,

그리고 만약 자료가 1, 2, 2, 3, 3, 4, 5, 5, 7, 100 주어진다면, 총 자료의 개수 10개 중에 10%인 1만큼을 가장 앞의 자료부터 한개의 자료를 제외시키고 , 다시 가장 뒤의 자료부터 한 개만큼의 자료를 제외시키면 된다.
그렇다면 나머지 자료인 2, 2, 3, 3, 4, 5, 5, 7의 평균이 바로 절사평균이고 구하면 3.875가 나온다.
이렇게 절사평균을 사용한다면, 이상값의 영향을 덜 받게된다.
④ 최빈값: 한번만 나타난 자료는 사용하지 않고 두 번 이상 나타난 자료 중에서 그 빈도 수가 최대인 값
- 관측값이 많아도 쉽게 구할수 있고
- 질적자료에도 사용할 수 있지만
- 존재하지 않는 경우, 그리고 여러 개 존재하는 경우
(예: 2개의 빈도로 3의 값이 나오면서 2개의 빈도로 4의 값이 나오면 , 3과 4중 무엇을 최빈값으로??)
이런 이유때문에 최빈값은 대표값으론 잘 쓰진 않는다.
[2] 산포도 : 자료가 얼마나 퍼져있는가를 측정하는 측도
① 범위 : 최댓값 - 최솟값
② 분산과 표준편차
각각의 관측값이 평균에서 얼마나 떨어져 있는가를 나타내는 지표
스토리형식으로 이해하면 쉽다.
각각의 관측값이 평균에서 얼마나 떨어져 있는가 자체를 계산해서 모두 더한다면, 0이 나온다.

어떻게하면, 자료가 평균에서 떨어진 정도를 잘 표현할 수 있을까?
앞서 계산할때, 결과값이 0이 나온 이유를 직관적으로 생각해본다면 평균보다 높은 자료가 있을것이고 평균보다 낮은 자료가 있을것이다. 따라서 자료에서 평균값을 뺀 결과는 (+) 혹은 (-)가 나오기때문에 결과들을 모두 더한다면 상쇄되었기 때문에 0이란 결과가 나온 것이다. 따라서 (-)의 값을 (+)의 값으로 만듦으로써 의미를 부여하기위해 자료가 평균에서 떨어진 정도를 제곱해보자 . 이때 분산의 개념이 등장한다.
· 모분산

· 표본분산

산포도를 나타내기위한 지표를 알게되었다. 그러나 분산의 문제점은
단위가 제곱이라는 점이다. 따라서 분산의 제곱근을 구한다.
이를 표준편차라고 한다.
· 모표준편차

한편, 표분산을 다른 식으로도 표현할 수 있다.

· 변동계수 = 표준편차의 정도를 표준화한 값을 의미함, 쉽게말해서 ,
단위가 서로 다른 자료들의 '각 자료들은 다른 자료와 비교했을때 얼마나 벌어져있는가?' 성질을 파악하기 위한 지표
= 표준편차/평균
④ 사분위수 범위
사분위수: 크기 순서에 따라 나열했을 경우, 4등분을 하면 3개의 구역으로 나눌수 있는데,
이때, 4등분이 되는 위치의 관측값
1분위수: 25번째라고 생각하기 쉬운데, 중앙값이 자료의 갯수가 홀수인가 짝수인가에 따라
중앙값의 일반식이 다른 것처럼, 1분위수도 자료의 갯수가 홀수인가 짝수인가를 고려해야한다.
그런데 여기서 뜻밖의 사실이 뭐냐면, 중앙값의 일반식도 결국, 하나의 식으로 표현할 수 있다.
설명을 하자면,

결국 n이 짝수라, (n+1)/2 가 정수가 아닌 소수일지라도, (n+1)/2번째 x를 가상의 수(ex. 3.5번째 수)라고 취급하면,
결국 n이 홀수이든, 짝수이든, 중앙값은 (n+1)2번째 수가 된다.
따라서, 식을 하나로 표현할수 있고 이에 따라

이렇게 표현할수 있다
그리고 혹시라도 제1사분위수 혹은 제 3사분위수번째가 소수가 나왔을때 수를 구하는 방법은 가중치를 고려하면 된다.
예시를 통해 구체적으로 설명한다면,
자료가 0, 0, 1, 1, 2, 3, 4, 5, 7, 8 이렇게 있을때,
1분위수는 (10+1)/4 = 2.75번째 순위의 값이다. 즉 2번째 값인 0과 3번째 값인 1 사이에 있다. 그 사이에서
구체적으로 어디에 있냐면, 3:1을 내분하는 점에 위치하고 있다.

따라서 이를 반영한 가중치를 수에 곱해줘야한다.

1.5 도표를 이용한 자료정리
자료의 특성을 명확히 보여줄수 있다.
도수분포표: 자료들의 빈도수가 얼마나 나오는가?를 나타낸다.
도수분포표들끼리도 비교하고싶을땐 상대도수분포표를 이용한다.
상대도수분포표: 각 계급별 상대도수(도수/n)를 나타낸 표
히스토그램: 도수분포표를 그래프로 표현한 것 (확률분포와 관련이 있다.)
줄기-잎 그림: 자료의 관측값 중 큰 단위값을 줄기로 하고 작은 단위의 값들을 잎으로 하여, 세로줄에 줄기를 표시하고 가로줄에 각 줄기에 해당하는 잎을 나열한다.
'수리통계학1' 카테고리의 다른 글
| 6강. 전확률의 정리와 베이즈 정리 (0) | 2024.06.27 |
|---|---|
| 5강. 조건부 확률, 승법정리 (0) | 2024.06.27 |
| 4강. 사상의 확률, 가법정리 (0) | 2024.06.25 |
| 3강. 표본공간, 사상, 경우의 수 (0) | 2024.06.25 |
| 1강 통계학 개요,표본추출, 실험 (0) | 2024.06.24 |