모집단(population)

관측 대상이 되는 전체 집단이다.


모수(parameter)

모집단의 특성을 나타낸 수치이다.

알 수 없는 상수이다. (연구자의 관심 대상)

ex) 모평균, 모분산, 모표준편차, 모비율 등등


모 평균(population mean)

모 집단의 평균이다.

데이터를 모두 더한 후 전체 데이터 수 N으로 나눈다.

일반적으로 를 사용한다.


모 분산(population variance)

편차 제곱의 평균

관측값에서 모 평균을 빼고 그것을 제곱한 값을 모두 더하여 전체 데이터 수 N으로 나눈 것이다.

일반적으로 를 사용한다.

 


모 표준 편차(population standard deviation)

모분산의 제곱근이다.

제곱했던 수치인 분산의 크기를 완화시켜준다.

일반적으로 를 사용한다.



표본(sample)

모 집단에서 일부만 추출한 것이다.


임의표본(random sample)

iid(independent and identically distributed) 라고함 

서로 독립이고, 동일한 분포에서 추출된 표본

표본 X1,X2,...Xn 이 서로 독립이고 동일 분포(동일한 모집단)를 가지면 임의 표본이라고 한다.


통계치(statistic)

관측표본으로부터 산출된 한 개의 수치이다. (X1, X2 등등 각각을 통계치라고함)


통계량(statistics)

표본의 특성을 나타낸 수치이다.

모수를 추정하기 위해 표본을 이용하여 만든 확률변수이다.

ex) 표본평균, 표본분산, 표본표준편차, 표본사분위수, IRQ 등등


표본분포(sampling distribution)

통계량의 확률분포이다.

통계량은 확률변수이기 때문에 확률분포를 가진다.


표본 평균(sample mean)

표본을 모두 더한 후 데이터 수 n으로 나눈다.

일반적으로 를 사용한다. 


표본 분산(sample variance)

관측값에서 표본 평균을 빼고 제곱한 값을 모두 더한 것을 n-1로 나눈 것이다.

일반적으로 를 사용한다.


표본 표준 편차(sample standard deviation)

표본 분산의 제곱근, 제곱했던 수치인 분산의 크기를 완화시켜줌

일반적으로 를 사용한다.


표준 오차(standard error)

통계량의 표준편차

표본의 크기가 커질수록 표준 오차는 감소한다.


평균 절대 편차(average absolute deviation 또는 mean absolute deviation)

관측값과 평균의 차이의 절대값 평균



중앙값 절대 편차(median absolute deviation)

관측값과 중앙값의 차이의 절대값 평균


표본 평균과 표본 중간값의 비교

표본 평균은 이상치에 대해 민감

표본 중간값은 이상치에 대해 거의 영향을 받지 않음

-> 자료에 이상치가 있을 경우 자료의 중심을 나타내는 값으로

표본 평균보다 표본 중간 값이 더 좋은 측도

 

표본분위수(sample quantile)

표본을 4분위로 나눠서 생각함 

제 1분위수 (1st quartile) = Q1 = 25% 백분율

제 2분위수 (2nd quartile) = Q2 = 50% 백분율 =  표본 중앙값

제 3분위수 (3rd quartile) = Q3 = 75% 백분율

 

표본분위수는 n*p로 구할 수 있다.

ex) 21개 자료에서 Q1 을 구한다고 하면

21 * 0.25 = 5.25 => 6번째 수가 Q1 이다.

# 표본분위수가 실수라면 무조건 올림

 

표본범위(sample range)

표본범위(R) = 최댓값 최솟값


표본 사분위수 범위 (sample InterQuartile Range)

IQR = Q3(제 3분위수) - Q1(제 1분위수)

 

 

+ Recent posts