A. 금일 학습내용

1. EDA (Exploratory Data Analysis, 탐색적 데이터 분석)

- 사전적 정의: 데이터를 분석하고 결과를 내는 과정에 있어서 지속적으로 해당 데이터에 대한 '탐색과 이해'를 기본으로 가져야 한다.

- 벨 연구소의 수학자 '존 튜키'가 개발한 데이터분석 과정에 대한 개념

- 다양한 측면으로 데이터를 탐색하면서 인사이트를 얻는 것이다.

2. 목적

- maximize insight in to a data set

- uncover underlying structure

- extract important variables

- detect outliers and anomaloes

- test underlying assumptions

- develop parsimonious models

- determine optimal factor settings

1.1.1 What is EDA? NIST, https://www.itl.nist.gov/div898/handbook/eda/section1/eda11.htm

가장 적합한 듯하여 인용한다.

3-1. 결측치 탐색

- isna() or isnull() : 결측치의 존재여부 확인

- isna().any(), isnull.any() : 각 컬럼에 하나 이상의 결측치 여부 확인하기

- isna().sum(), isnull.sum()  : 각 컬럼에 있는 결측치 수 계산하기

- 데이터는 서울 상가 5000개 데이터이며, df_shop에 할당해두었다.

- 해당 데이터는 위와 같이 생겼다.

- 먼저 결측치를 확인하면 다음과 같다.

3-2. 결측치 처리

- dropna() : 결측치가 있는 행 또는 열 삭제하기

- fillna() : 결측치를 특정 값으로 대체하기

 

B. 마무리

EDA 및 결측치에 대해 학습하였다. 자주 사용하게 될 것 같으니 확실히 익혀두는 것이 좋을 것 같다.

+ Recent posts