수리통계학1

2강 자료의 요약, 도표를 이용한 자료의 정리

datavwy 2024. 6. 24. 23:58

·

1.4 자료의 요약

앞서 기술통계학을 이용하여 자료를 요약한다고 했다. 

 

기술통계학은 어떤 것이 있는지 살펴보자 

 

· 모수(parameter) : 모집단의 특성을 나타내는 수치들 (ex. 모평균, 모분산, 모비율, 모상관계수 등) 

  - 추측통계학은 표본의 자료를 바탕으로 모수를 추정하는 것이다. 

  - 그리스 문자로 표시한다 

 

· 통계량(statistic) : 표본의 특성값

  - 같은 모집단이라도 표본을 어떻게 꺼내는가에 따라 통계량이 달라진다. 

  - 영어의 알파벳을 사용한다. 

 

숫자로 나타나는가? 여부에 따라 자료를 크게 2가지 자료로 나눌수 있다. 

(※예외: 질적자료,범주형자료이지만 숫자로 나타내는 명목자료, 순서자료 

 양적자료이지만 범주로 나타내는 집단화자료 ) 

 

· 질적자료, 범주형자료 : 수&량과 관계없는 자료 , 숫자로 나타나지 않는다.  

   

   예외 : - 명목자료: 범주를 사용하기 편하도록 숫자를 대치한 자료 (예: 우편번호) 

                따라서 , 이 숫자 자체가 수나 양을 뜻하지 않는다. 

             - 순서자료: 숫자가 '순서'의 의미를 가지지만 '수'나 '양'의 뜻을 내포하지 않는다. 

 

· 양적자료 : 자료가 수로 표현되며 그 숫자가 수나 양의 의미를 갖는 자료 

 

   예외: -집단화자료: 양적자료를 범주로 묶어서 나타냄 

              예: 학점에서 A는 90점이상, B는 80~89점 등) 

 

[1] 위치측도(대표값) - 자료의 중심을 나타냄 

 

  평균 

    · 모평균 

    · 표본평균 

 

  

    평균의 단점: 이상값, 극단값, 특이점이 발견된다면, 평균은 대표값으로의 의미를 상실해버린다. 

 

  ② 중앙값 : 자료를 크기순으로 늘어뜨려놓을때, 가운데에 해당하는 값 

       자료의 수가 홀수면 바로 가운데의 수가 중앙값이지만, 

       자료의 수가 짝수면 가운데번째 수가 소수나 나와서 그 가운데번째 수 양옆의 번째수를 더한뒤 평균낸 값으로 계산   

       식으로 나타내면, 다음과 같다. 

 

③ 절사평균(trimmed mean) : '절'이 切(끊을 절)이란 뜻으로 특정비율을 기준으로 가장 앞(작은),뒤(큰) 부분을 제거한뒤, 남은 자료의 평균을 뜻한다. 만약 10%을 기준인 절사평균을 기호로 나타낸다면, 

이렇게 표현한다

그리고 만약 자료가 1, 2, 2, 3, 3, 4, 5, 5, 7, 100 주어진다면, 총 자료의 개수 10개 중에 10%인 1만큼을 가장 앞의 자료부터 한개의 자료를 제외시키고 , 다시 가장 뒤의 자료부터 한 개만큼의 자료를 제외시키면 된다. 

그렇다면 나머지 자료인  2, 2, 3, 3, 4, 5, 5, 7의 평균이 바로 절사평균이고 구하면 3.875가 나온다. 

이렇게 절사평균을 사용한다면, 이상값의 영향을 덜 받게된다. 

 

④ 최빈값: 한번만 나타난 자료는 사용하지 않고 두 번 이상 나타난 자료 중에서 그 빈도 수가 최대인 값

    - 관측값이 많아도 쉽게 구할수 있고 

    - 질적자료에도 사용할 수 있지만 

    - 존재하지 않는 경우, 그리고 여러 개 존재하는 경우

 (예: 2개의 빈도로 3의 값이 나오면서 2개의 빈도로 4의 값이 나오면 , 3과 4중 무엇을 최빈값으로??)

 

   이런 이유때문에 최빈값은 대표값으론 잘 쓰진 않는다. 

 

[2] 산포도 : 자료가 얼마나 퍼져있는가를 측정하는 측도 

 

① 범위 : 최댓값 - 최솟값

② 분산과 표준편차 

    각각의 관측값이 평균에서 얼마나 떨어져 있는가를 나타내는 지표 

 

   스토리형식으로 이해하면 쉽다. 

  각각의 관측값이 평균에서 얼마나 떨어져 있는가 자체를 계산해서 모두 더한다면,  0이 나온다. 

 

설명

   

어떻게하면, 자료가 평균에서 떨어진 정도를 잘 표현할 수 있을까? 

앞서 계산할때, 결과값이 0이 나온 이유를 직관적으로 생각해본다면 평균보다 높은 자료가 있을것이고 평균보다 낮은 자료가 있을것이다. 따라서 자료에서 평균값을 뺀 결과는 (+) 혹은 (-)가 나오기때문에 결과들을 모두 더한다면 상쇄되었기 때문에 0이란 결과가 나온 것이다. 따라서 (-)의 값을 (+)의 값으로 만듦으로써 의미를 부여하기위해 자료가 평균에서 떨어진 정도를 제곱해보자 . 이때 분산의 개념이 등장한다. 

 

· 모분산

 

· 표본분산

분모가 n이 아닌 n-1인 이유는 나중에

 

산포도를 나타내기위한 지표를 알게되었다. 그러나 분산의 문제점은 

단위가 제곱이라는 점이다. 따라서 분산의 제곱근을 구한다. 

이를 표준편차라고 한다. 

 

· 모표준편차 

 

한편, 표분산을 다른 식으로도 표현할 수 있다. 

·  변동계수 = 표준편차의 정도를 표준화한 값을 의미함, 쉽게말해서 , 

단위가 서로 다른 자료들의 '각 자료들은 다른 자료와 비교했을때 얼마나 벌어져있는가?' 성질을 파악하기 위한 지표

                   = 표준편차/평균 

 

④ 사분위수 범위 

 

    사분위수: 크기 순서에 따라 나열했을 경우, 4등분을 하면 3개의 구역으로 나눌수 있는데,

    이때, 4등분이 되는 위치의 관측값

  

    1분위수: 25번째라고 생각하기 쉬운데, 중앙값이 자료의 갯수가 홀수인가 짝수인가에 따라 

    중앙값의 일반식이 다른 것처럼, 1분위수도 자료의 갯수가 홀수인가 짝수인가를 고려해야한다. 

    그런데 여기서 뜻밖의 사실이 뭐냐면, 중앙값의 일반식도 결국, 하나의 식으로 표현할 수 있다. 

    설명을 하자면,

     결국 n이 짝수라, (n+1)/2 가 정수가 아닌 소수일지라도, (n+1)/2번째 x를 가상의 수(ex. 3.5번째 수)라고 취급하면, 

     결국 n이 홀수이든, 짝수이든, 중앙값은 (n+1)2번째 수가 된다. 

     따라서, 식을 하나로 표현할수 있고 이에 따라 

     이렇게 표현할수 있다

     그리고 혹시라도 제1사분위수 혹은 제 3사분위수번째가 소수가 나왔을때 수를 구하는 방법은 가중치를 고려하면 된다. 

     예시를 통해 구체적으로 설명한다면, 

     자료가 0, 0, 1, 1, 2, 3, 4, 5, 7, 8 이렇게 있을때, 

     1분위수는 (10+1)/4 = 2.75번째 순위의 값이다. 즉 2번째 값인 0과 3번째 값인 1 사이에 있다. 그 사이에서 

     구체적으로 어디에 있냐면, 3:1을 내분하는 점에 위치하고 있다.

 

      

        따라서 이를 반영한 가중치를 수에 곱해줘야한다.

 

 

1.5 도표를 이용한 자료정리

자료의 특성을 명확히 보여줄수 있다. 

 

도수분포표: 자료들의 빈도수가 얼마나 나오는가?를 나타낸다. 

 

도수분포표들끼리도 비교하고싶을땐 상대도수분포표를 이용한다. 

 

상대도수분포표: 각 계급별 상대도수(도수/n)를 나타낸 표

 

히스토그램: 도수분포표를 그래프로 표현한 것 (확률분포와 관련이 있다.)

 

줄기-잎 그림: 자료의 관측값 중 큰 단위값을 줄기로 하고 작은 단위의 값들을 잎으로 하여, 세로줄에 줄기를 표시하고 가로줄에 각 줄기에 해당하는 잎을 나열한다.