[DataScience][Study] 데이터 과학을 위한 통계 1-2

2 분 소요

Chapter 1 탐색적 데이터 분석

1.4 변이 추정

위치는 데이터의 특징을 요약하는 다양한 요소들 중 하나.
두번째 요소인 변이는 데이터가 얼마나 밀집해 있는지 혹은 퍼져 있는지 나타내는 산포도를 나타낸다.
용어정리
- 편차 (deviation) : 관측값과 위치 추정값 사이의 차이
- 분산(variance) : 평균과 편차를 제곱한 값들의 n-1로 나눈 값, n은 데이터 갯수
- 표준편차 (standard deviation) : 분산의 제곱근
- 평균 절대 편차 : 평균과 편차의 절댓값의 평균
- 중간값의 중위 절대 편차 : 중간값과의 편차의 절댓값의 중간값
- 범위 : 데이터의 최댓값과 최솟값 차이
- 순서 통계량 : 최소에서 최대까지 정렬된 데이터 값에 따른 계량형
- 백분위수 : 어떤 값들이 p 퍼센트가 이값 혹은 더 작은 값을 갖고 (100-p)퍼센트가 이값 혹은 더 큰값을 가지는 것.
- 사분위범위 : 75번째 백분위수와 25번째 백분위수 사이의 차이

1.4.1 표준편차와 관련 추정값들

편차 : 데이터가 중앙값을 주변으로 얼마나 퍼져 있는지 말해준다.
표준편차는 원래 데이터와 같은 척도에 있기때문에 분산보다 훨씬 해석하기 쉽다.
분산, 표준편차, 평균절대편차 모두 특잇값과 극단값에 로버스트하지않다.
분산 표준편차는 제곱 편차를 사용하기 때문에 특히 특잇값에 민감하다.
로버스트한 변위 추정값으로는 중간값으로부터의 중위절대편차가 있다.

1.4.2 백분위수에 기초한 추정

데이터가 얼마나 퍼져있는지 확인하여 변이 추정.
정렬(순위) 데이터를 나타내는 통계량을 순서통계량이라고 부름.

1.4.3 예제 : 주별 인구의 변위 추정

> sd(state[["Population"]])
[1] 6848235
> IQR(state[["Population"]])
[1] 4847308
> mad(state[["Population"]])
[1] 3849870

표준편차는 MAD의 거의 두배가 됨. 표준편차는 특잇값에 민감하기 때문.

1.5 데이터 분포 탐색하기

용어정리

상자그림 (boxplot) : 데이터 분포를 시각하기 위한 간단한 방법으로 소개
도수 분포표 : 어떤 구간에 해당하는 수치 데이터 값들의 빈도를 내타내는 기록
히스토그램 : x축은 구간들을, y 축은 빈도수를 나타냄
밀도그림 : 히스토그램을 더 부드럽게 표현

1.5.1 백분위수와 상자그림

백분위수

> quantile(state[["Murder.Rate"]], p=c(.05, .25, .5, .75, .95))
   5%   25%   50%   75%   95% 
1.600 2.425 4.000 5.550 6.510 	

상자그림

boxplot(state[["Population"]]/1000000, ylab = "Population (millinons)")

Rplot02

1.5.2 도수분포표와 히스토그램

도수 분포표 : 범위를 동일한 크기의 구간으로 나눈 다음, 각 구간마다 몇개의 변수 값이 존재하는지 보여주기 위해 사용.

# 인구의 최솟값과 최댓값 사이를 10개 구간으로 나눈다.
breaks <- seq(from = min(state[["Population"]]), to = max(state[["Population"]]), length=11)
# 나눈 기준으로 도수 분포표로 데이터 구간을 자른다.
pop_freq <- cut(state[["Population"]], breaks = breaks,
                right = TRUE, include.lowest = TRUE)
# 테이블 형태로 출력한다.
table(pop_freq)

히스토그램
- x축에는 구간들을 표시하고, y축에는 해당 구간별 데이터의 개수를 표시.
```
hist(state[["Population"]], breaks = breaks)
```
- 특징
  - 그래프에 빈 구간들이 있을수 있음
  - 구간은 동일한 크기
  - 구간의 수(크기)는 사용자가 정할 수 있음
  - 빈 구간이 있지 않는 이상, 막대 사이는 공간 없이 서로 붙어 있음.

1.5.3 밀도 추정

밀도 그림 : 더 부드러운 히스토그램, 데이터의 분포를 연속 선에서 보여줌.
커널 밀도 추정을 통해 데이터로 부터 직접 계산

R의 density 함수 사용

hist(state[["Murder.Rate"]], freq = FALSE)
lines(density(state[["Murder.Rate"]]), lwd = 3, col = "blue")

Rplot04

히스토그램과의 큰 차이는 y 축 값의 단위가 배율로 표시됨.(히스토그램은 개수 )

1.6 이진 데이터와 범주 데이터 탐색하기

범주형 데이터는 간단한 비율이나 퍼센트를 통해 분석
용어 정리
- 최빈값 : 데이터의 빈도 수
- 기댓값 : 범주에 해당하는 수치가, 범주에 출현 확률에 따른 평균
- 막대도표 : 각 범주의 빈도수 혹은 비율을 막대로 나타냄
- 파이그림 : 각 범주의 빈도수 혹은 비율을 원의 부채꼴 모양으로 나타냄
사례 : 2010년 이후 댈러스-포트워스 공하에서 항공기 운행 지연 원인
- R의 barplot 함수 사용
```
barplot(as.matrix(dfw)/6, cex.axis = .5)
```
- 막대 도표에서 x축은 각 요인의 변수, 수치적으로 나타낼 수 도 있음.
파이 도표는 시각적으로 효과적이지 않기 때문에 통계학자나 데이터 시각화 전문가들은 잘 사용하지 않음.

1.6.1 최빈값

자주 등장하는 값.
범주형 데이터를 분석하는데 사용
수치형은 잘 사용되지 않음.

1.6.2 기댓값

기댓값은 가중 평균과 같음
보통 주관적인 평가에 따른 미래의 기댓값과 각 확률 가중치만큼을 모두 더한 값.

참고 : 해당 포스트의 내용은 O’REILLY 시리즈 데이터 과학을 위한 통계 ( 피터 브루스 & 앤드루 브루스 저, 한빛미디어 출판) 도서를 요약한 내용입니다.

[DataScience][Study] 데이터 과학을 위한 통계 1-2

Chapter 1 탐색적 데이터 분석

1.4 변이 추정

1.4.1 표준편차와 관련 추정값들

1.4.2 백분위수에 기초한 추정

1.4.3 예제 : 주별 인구의 변위 추정

1.5 데이터 분포 탐색하기

1.5.1 백분위수와 상자그림

1.5.2 도수분포표와 히스토그램

1.5.3 밀도 추정

1.6 이진 데이터와 범주 데이터 탐색하기

1.6.1 최빈값

1.6.2 기댓값

댓글남기기

참고

[Python] Chapter14 파일 입출력

[Python] Chapter13 함수 활용과 모듈

[Python] Chapter12 함수2

[Python] Chapter11 함수1