[DataScience][Study] 데이터 과학을 위한 통계 1-1

2 분 소요


Chapter 1 탐색적 데이터 분석

  • 통계학은 데이터 분석과 모델링을 다루는 일종의 응용 과학.
  • 이 책의 목표는 데이터 과학과 빅데이터라는 측면에서 그것들이 왜 중요한지, 동시에 부족한 것은 무엇인지를 정확히 파악하는데 있음.
  • EDA : Expoloratory data analysis, 탐색적 데이터 분석.

1.1 정형화된 데이터 요소

  • 정형화 되지 않은 데이터
    • 이미지 : RGB 컬러 정보를 담고 있는 픽셀들의 집합체
    • 방문 내역 정보 : 웹페이지를 사용하는 사용자들의 반응을 배열 형태로 모아 놓은것
  • 정형화 데이터

    • 연속형 : 일정 범위 안에서 어떤 값이든 취할 수 있는 데이터 (풍속이나 지속 시간 같은..)

    • 이산형 : 횟수와 같은 정수값만 취할 수 있다. (사건의 발생 빈도)

    • 범주형 : 가능한 범주 안의 값만 취할 수 있다. (TV 스크린 종류 : 플라즈마, LCD, LED)

      • 순서형 : 값들 사이에 분명한 순위가 있는 범주형 데이터 (영화 평점)
    • 이진 : 두개의 데이터 (0/1, 참/거짓) 두값 중 하나만 갖는 특수한 경우

1.2 테이블 데이터

  • 데이터 분석에서 가장 대표적으로 사용되는 객체의 형태
  • 엑셀 스프레드시트나 데이터 베이스 테이블과 같은 데이터 테이블

  • 테이블 데이터 : 각 레코드(사건)를 나타나는 행과 피처(변수)를 나타내는 열로 이루어진 이차원 행렬
  • 피처 : 테이블의 각 열이 하나의 피처를 의미(특징, 속성, 변수등)
  • 레코드 : 테이블의 각 행은 하나의 레코드를 의미(실제 값, 사건, 사례등)

1.2.1 데이터 프레임과 인덱스

  • 파이썬
    • pandas라이브러리를 통해 기본 테이블 형태 구현 . DataFrame 객체를 제공
    • DataFrame에서는 각 행마다 순차적으로 정수인 값을 붙여 이를 인덱스로 사용.
    • 다중/계측적 인덱스 사용 가능
  • R
    • data.frame이라는 객체 제공, 내부적으로 행 번호에 따라 정수로된 인덱스 가지고 있음.
    • row.names 속성을 조정하면 원하는 키로 설정가능.
    • 다중 인덱스 지원을 위해 data.table, dplyr 사용

1.2.2 테이블 형식이 아닌 데이터 구조

  • 시계열 데이터
    • 동일한 변수 안에 연속적인 측정값을 가짐.
    • 통계적 예측 기법에서 다양하게 사용가능.
  • 공간 데이터
    • 객체를 표현할 때는, 어떤 객체(주택 같은)와 그것의 공간 좌표가 데이터의 중심이 됨.
    • 필드 정보는 공간을 나타내는 작은 단위들과 적당한 측정 기준값(예를들어 픽셀의 밝기)에 중점을 둠.
  • 그래프 데이터
    • 물리적, 사회적, 추상적 관계를 표현.
    • 사례 : 페이스북, 링크드인등 소셜 네트워크에서 사용함.

1.3 위치 추정

  • 개념 : 데이터를 살펴보는 가장 기초적인 단계는 각피처(변수)의 대푯값을 구하는 것.
  • 곧 대부분의 값이 어디쯤 위치하는지(중심경향성) 추정 가능하게 함.

  • 용어정리
    • 평균(mean) : 모든 값의 총합을 개수로 나눈 값.

    • 가중평균(weighted mean) : 가중치를 곱한 값의 총합을 가중치의 총합으로 나눈 값.
    • 중간값(Meidan) : 데이터에서 가장 가운데 위치한 값.
    • 가중 중간값(weighted median) : 데이터를 정렬한 후, 각 가중치 값을 위에서부터 더할 때, 총합의 중간이 위치하는 데이터 값.
    • 절사 평균(trimmed mean) : 정해진 개수의 극단값을 제외한 나머지 값들의 평균
    • 로버스트 하다 (robust) : 극단 값들에 민감하지 않다는 것을 의미. rubust는 건장하다는 뜻인데, 통계량이 이상치/에러값으로 부터 영향을 크게 받지 않는다. 건장하다! 라는 의미를 가진다.
    • 특잇값(outlier) : 대부분의 값과 매우 다른 데이터 값(= 극단값)

1.3.1 평균

  • 가장 기본적인 위치 추정 방법

  • 모든 값의 총합을 개수로 나눈 값.
  • 모집단 표본의 평균을 의미하는 x bar
  • 절사 평균 : 양끝에 일정 개수의 값들을 삭제한 뒤 남은 값들을 가지고 구한 평균, 극단값의 영향을 제거
  • 가중 평균 : 각 x~i~ 에 가중치 w~i~ 를 곱한 값들의 총합을 다시 가중치의 총합으로 나눈 것.

1.3.2 중간값과 로버스트 추정

  • 데이터를 정렬하고 가운데 위치하는 값을 중간 값이라고 한다.
  • 상황에 따라 데이터에 매우 민감한 평균 보다는 중간값이 많은 경우 위치 추정에 유리하다.
  • 가중 중간값 : 가중치를 가진 각 데이터 값의 중간 값.

1.3.3 예제: 인구에 따른 살인 비율의 위치 추정

> mean(state[["Population"]])
[1] 6162876
> mean(state[["Population"]], trim = 0.1)
[1] 4783697
> median(state[["Population"]])
[1] 4436370
  • 평균이 절사 평균보다 크다.
  • 절사 평균은 중간값 보다 크다.
  • 절사 평균은 각 끝에서 10%를 제외한 값을 제외하고 평균을 구한 값이다.

참고 : 해당 포스트의 내용은 O’REILLY 시리즈 데이터 과학을 위한 통계 ( 피터 브루스 & 앤드루 브루스 저, 한빛미디어 출판) 도서를 요약한 내용입니다.

댓글남기기