A. 금일 학습내용
1. EDA (Exploratory Data Analysis, 탐색적 데이터 분석)
- 사전적 정의: 데이터를 분석하고 결과를 내는 과정에 있어서 지속적으로 해당 데이터에 대한 '탐색과 이해'를 기본으로 가져야 한다.
- 벨 연구소의 수학자 '존 튜키'가 개발한 데이터분석 과정에 대한 개념
- 다양한 측면으로 데이터를 탐색하면서 인사이트를 얻는 것이다.
2. 목적
- maximize insight in to a data set
- uncover underlying structure
- extract important variables
- detect outliers and anomaloes
- test underlying assumptions
- develop parsimonious models
- determine optimal factor settings
1.1.1 What is EDA? NIST, https://www.itl.nist.gov/div898/handbook/eda/section1/eda11.htm
가장 적합한 듯하여 인용한다.
3-1. 결측치 탐색
- isna() or isnull() : 결측치의 존재여부 확인
- isna().any(), isnull.any() : 각 컬럼에 하나 이상의 결측치 여부 확인하기
- isna().sum(), isnull.sum() : 각 컬럼에 있는 결측치 수 계산하기
- 데이터는 서울 상가 5000개 데이터이며, df_shop에 할당해두었다.
- 해당 데이터는 위와 같이 생겼다.
- 먼저 결측치를 확인하면 다음과 같다.
3-2. 결측치 처리
- dropna() : 결측치가 있는 행 또는 열 삭제하기
- fillna() : 결측치를 특정 값으로 대체하기
B. 마무리
EDA 및 결측치에 대해 학습하였다. 자주 사용하게 될 것 같으니 확실히 익혀두는 것이 좋을 것 같다.
'Today I Learned' 카테고리의 다른 글
[내일배움캠프_데이터분석]5주차 목요일 TIL _ 가상환경 (0) | 2024.07.25 |
---|---|
[내일배움캠프_데이터분석] 5주차 화요일 TIL _ 이상치, 시각화 (0) | 2024.07.23 |
[내일배움캠프_데이터분석] 4주차 금요일 TIL _ pandas (0) | 2024.07.19 |
[내일배움캠프_데이터분석] 4주차 목요일 TIL _ 컴프리핸선 (0) | 2024.07.18 |
[내일배움캠프_데이터분석] 4주차 수요일 TIL _ 데이터 타입간 변경 (0) | 2024.07.17 |