[DataScience][Study] 데이터 과학을 위한 통계 1-1
Chapter 1 탐색적 데이터 분석
- 통계학은 데이터 분석과 모델링을 다루는 일종의 응용 과학.
- 이 책의 목표는 데이터 과학과 빅데이터라는 측면에서 그것들이 왜 중요한지, 동시에 부족한 것은 무엇인지를 정확히 파악하는데 있음.
- EDA : Expoloratory data analysis, 탐색적 데이터 분석.
1.1 정형화된 데이터 요소
- 정형화 되지 않은 데이터
- 이미지 : RGB 컬러 정보를 담고 있는 픽셀들의 집합체
- 방문 내역 정보 : 웹페이지를 사용하는 사용자들의 반응을 배열 형태로 모아 놓은것
-
정형화 데이터
-
연속형 : 일정 범위 안에서 어떤 값이든 취할 수 있는 데이터 (풍속이나 지속 시간 같은..)
-
이산형 : 횟수와 같은 정수값만 취할 수 있다. (사건의 발생 빈도)
-
범주형 : 가능한 범주 안의 값만 취할 수 있다. (TV 스크린 종류 : 플라즈마, LCD, LED)
- 순서형 : 값들 사이에 분명한 순위가 있는 범주형 데이터 (영화 평점)
-
이진 : 두개의 데이터 (0/1, 참/거짓) 두값 중 하나만 갖는 특수한 경우
-
1.2 테이블 데이터
- 데이터 분석에서 가장 대표적으로 사용되는 객체의 형태
-
엑셀 스프레드시트나 데이터 베이스 테이블과 같은 데이터 테이블
- 테이블 데이터 : 각 레코드(사건)를 나타나는 행과 피처(변수)를 나타내는 열로 이루어진 이차원 행렬
- 피처 : 테이블의 각 열이 하나의 피처를 의미(특징, 속성, 변수등)
- 레코드 : 테이블의 각 행은 하나의 레코드를 의미(실제 값, 사건, 사례등)
1.2.1 데이터 프레임과 인덱스
- 파이썬
pandas
라이브러리를 통해 기본 테이블 형태 구현 . DataFrame 객체를 제공- DataFrame에서는 각 행마다 순차적으로 정수인 값을 붙여 이를 인덱스로 사용.
- 다중/계측적 인덱스 사용 가능
- R
- data.frame이라는 객체 제공, 내부적으로 행 번호에 따라 정수로된 인덱스 가지고 있음.
- row.names 속성을 조정하면 원하는 키로 설정가능.
- 다중 인덱스 지원을 위해 data.table, dplyr 사용
1.2.2 테이블 형식이 아닌 데이터 구조
- 시계열 데이터
- 동일한 변수 안에 연속적인 측정값을 가짐.
- 통계적 예측 기법에서 다양하게 사용가능.
- 공간 데이터
- 객체를 표현할 때는, 어떤 객체(주택 같은)와 그것의 공간 좌표가 데이터의 중심이 됨.
- 필드 정보는 공간을 나타내는 작은 단위들과 적당한 측정 기준값(예를들어 픽셀의 밝기)에 중점을 둠.
- 그래프 데이터
- 물리적, 사회적, 추상적 관계를 표현.
- 사례 : 페이스북, 링크드인등 소셜 네트워크에서 사용함.
1.3 위치 추정
- 개념 : 데이터를 살펴보는 가장 기초적인 단계는 각피처(변수)의
대푯값
을 구하는 것. -
곧 대부분의 값이 어디쯤 위치하는지(중심경향성) 추정 가능하게 함.
- 용어정리
-
평균(mean) : 모든 값의 총합을 개수로 나눈 값.
- 가중평균(weighted mean) : 가중치를 곱한 값의 총합을 가중치의 총합으로 나눈 값.
- 중간값(Meidan) : 데이터에서 가장 가운데 위치한 값.
- 가중 중간값(weighted median) : 데이터를 정렬한 후, 각 가중치 값을 위에서부터 더할 때, 총합의 중간이 위치하는 데이터 값.
- 절사 평균(trimmed mean) : 정해진 개수의 극단값을 제외한 나머지 값들의 평균
- 로버스트 하다 (robust) : 극단 값들에 민감하지 않다는 것을 의미. rubust는 건장하다는 뜻인데, 통계량이 이상치/에러값으로 부터 영향을 크게 받지 않는다. 건장하다! 라는 의미를 가진다.
- 특잇값(outlier) : 대부분의 값과 매우 다른 데이터 값(= 극단값)
-
1.3.1 평균
-
가장 기본적인 위치 추정 방법
- 모든 값의 총합을 개수로 나눈 값.
- 모집단 표본의 평균을 의미하는 x bar
- 절사 평균 : 양끝에 일정 개수의 값들을 삭제한 뒤 남은 값들을 가지고 구한 평균, 극단값의 영향을 제거
- 가중 평균 : 각 x~i~ 에 가중치 w~i~ 를 곱한 값들의 총합을 다시 가중치의 총합으로 나눈 것.
1.3.2 중간값과 로버스트 추정
- 데이터를 정렬하고 가운데 위치하는 값을 중간 값이라고 한다.
- 상황에 따라 데이터에 매우 민감한 평균 보다는 중간값이 많은 경우 위치 추정에 유리하다.
- 가중 중간값 : 가중치를 가진 각 데이터 값의 중간 값.
1.3.3 예제: 인구에 따른 살인 비율의 위치 추정
> mean(state[["Population"]])
[1] 6162876
> mean(state[["Population"]], trim = 0.1)
[1] 4783697
> median(state[["Population"]])
[1] 4436370
- 평균이 절사 평균보다 크다.
- 절사 평균은 중간값 보다 크다.
- 절사 평균은 각 끝에서 10%를 제외한 값을 제외하고 평균을 구한 값이다.
참고 : 해당 포스트의 내용은 O’REILLY 시리즈
데이터 과학을 위한 통계
( 피터 브루스 & 앤드루 브루스 저, 한빛미디어 출판) 도서를 요약한 내용입니다.
댓글남기기