본문 바로가기
공부/데이터

통계용어정리, 기술통계, 추론통계

by demonic_ 2019. 2. 17.
반응형

통계에서 가장 중요한 것은 데이터를 원하는 형태로 가공하는 방법이다. 

데이터 관련 업종 많은 이들이 여기에 시간을 다수 할애한다.


# 통계용어 정리 


- 모집단(population)

- 장점: 데이터의 정확성 향상

- 단점: 비용이 많이듬(시간, 인력등 낭비가 커질 수 있음)

- 표본집단(sample)

- 표집(sampling)

- 어떻게 표집할 것인가?

- 특정기준을 주면 데이터 쏠림현상이 생길 수 있다 => 이를 편향 또는 오염이라 함(bios)

- 이런 현상을 줄이기 위해 랜덤샘플링을 사용한다. (무작위로 데이터를 차출하는 것)


- 모평균: 평균을 구하는 것

- 이는 데이터만 있으면 구할 수 있지만 데이터가 없거나 너무방대하면 처리하기 힘들다.

- 기호: m

- 모분산: 관찰값들이 얼마나 많이 퍼져있는지 조사하는 것

- 기호: σ2(제곱)

- 모표준편차: 분산을 제곱근 한 것. 제곱해서 커진 값을 제곱근해서 다시 원래크기로 줄인다.

- 기호: 시그마(σ)


- 표본평균: 표본에서 구한 평균

- 기호: X Bar (특수기호라 표시가 안됨)

- 표본분산: 관찰값들이 얼마나 많이 퍼져있는지 조사하는 것

- 기호: s2(제곱)

- 표본표준편차: 표본에서 분산을 제곱근 한 것. 제곱해서 커진 값을 제곱근해서 다시 원래크기로 줄인다.

- 기호: s



우리가 가진 대부분의 데이터는 표본이다.


샘플을 이용해 통계산출 하는 것을 기술통계라 한다.

여기서 기술이란 테크닉(technique)이 아닌 수집한 데이터를 묘사 설명(Descriptive)하는 것이다. 즉 데이터분석이 아닌 현상설명에 불과하다.


기술통계를 하는 이유: 기술통계를 이용해 모집단 통계를 맞춰야 한다. 이를 추론통계라 한다.


추론통계를 하는것이 통계의 목적이다.


반응형

댓글