A. 금일 학습 내용

1. pandas

- Python에서 데이터를 조작하고 쉽게 분석할 수 있게 도와주는 라이브러리

- 주요 특징

  대용량 데이터 처리가 가능

  : 데이터를 메모리에 로드하고, 다양한 연산을 빠른 처리가 가능하며 대용량 데이터를 처리하는데 최적화되어 있다.

  데이터 조작 기능

  : 데이터 정렬, 필터링, 집계, 결측값 처리 등 데이터를 쉽게 가공할 수 있다.

  데이터 시각화 기능 제공

  데이터를 구조화하여 분석 가능

  : DataFrame이라는 자료형을 제공하여 데이터를 표형태로 나타내어 분석이 가능하다.

 

2. pandas 구조

 - DataFrame : 표 형태

   index : 각 아이템을 특정할 수 있는 고유의 값

   columns: 하나의 속성을 가진 데이터 집합

- Series : 하나의 속성을 가진 데이터 집합

3. 사용방법

pip install pandas # pandas 설치
import pandas as pd #pandas 불러오기

- 해당 가상공간에 pandas 라이브러리를 설치하고, import pandas 를 이용하여 불러온다.

- as 는 Alias(별칭)로 pandas의 경우 pd 라고 지칭하는 것이 일반적인 관례이다. 

df=pd.read_csv("tips_data.csv") #데이터 불러오기

- 해당 방식처럼 기존 데이터를 불러올 수 있다.

# 사용자가 직접 인덱스를 설정한 데이터프레임 생성
df = pd.DataFrame(
    {   'A': [1, 2, 3], 
        'B': ['a', 'b', 'c']
        }, 
        index=['idx1', 'idx2', 'idx3'])

- 혹은 사용자가 직접 DataFrame을 만들어 생성할 수도 있다.

- 이 외의 내용은 아래 pandas 안내 홈페이지를 살펴보면 된다. 정의가 잘 되어 있어 처음 함수를 사용할 때 사용하면 100% 함수활용이 가능할 것이다.

pandas documentation — pandas 2.2.2 documentation (pydata.org)

 

pandas documentation — pandas 2.2.2 documentation

API reference The reference guide contains a detailed description of the pandas API. The reference describes how the methods work and which parameters can be used. It assumes that you have an understanding of the key concepts.

pandas.pydata.org

 

B. 마무리

처음 pandas을 접했을 때 새로운 언어인 줄 알았다. 하지만 하나의 라이브러리였고, 결국에는 파이썬이라는 것을 알게 되었다. pandas는 pandas만의 문법이 있을 뿐이다. 그러니 너무 어렵게만 생각하지 말자.

 

 

+ Recent posts