A. 금일 학습 내용
비즈니스 인텔리전스를 통해 데이터 분석 및 시각화 서비스를 제공하는 Tableau 툴에 대해 학습하였다.
1주차
- BI 소개
- 지표를 선택하는데 매우 깊은 고민이 필요하다.
- 대시보드 구축에 필요한 업무 미팅
- Ad-hoc 업무 발생 → 다양한 팀들의 의사결정을 서포트하는 역할
- 전사 지표를 취합한 하나의 대시보드를 만들기도 함
- BI 워크 프로우
- 데이터 레이크 → 데이터 웨어하우스 → 데이터 마트 → BI 툴
- 데이터 레이크: 모든 raw data(정형 데이터, 로그 데이터, 테이블 등) 저장할 수 있는 스토리지
- 데이터 웨어하우스: 데이터를 장기적인 보존용으로 통합, 정제, 분석하여 정리한 저장소 (AWS Redshift, Snowflake, Google Bigquery
- 데이터 마트: 부서별, 목적별 분석용으로 만든 데이터 웨어하우스의 데이터 일부분
- 왜 Tableau 일까?
- 장점
- 다양한 형식의 파일을 대시보드로 만들어 쉽게 공유 가능
- 손쉬운 Drag & Drop으로 인터랙티브한 대시보드와 그래프 시각화 가능
- 최근 가장 많으 회사가 사용함
- 무료로 활발한 글로벌 커뮤니티, 템플릿, 강의를 참고 가능
- 단점
- 데이터 용량이 크거나 개발된 대시보드의 양이 많아지면 대시보드 로딩 속도가 느려짐
- 비쌈
- 장점
- 데이터 레이크 → 데이터 웨어하우스 → 데이터 마트 → BI 툴
2주차
- 데이터 원본 연결 형태
- 라이브 VS 추출
- 라이브: 원본 파일이 바뀌면 연동이 됨. 새로 고침 버튼을 클릭하면 실시간으로 데이터가 업데이트할 수 있음
- 추출: 라이브 연결을 끊고 현재 데이터만 로컬로 가져오는 형태로, 원본 데이터 파일이 클 때 사용하기 좋음
- 라이브 VS 추출
- 병합 방식
- 관계: 하나의 테이블로 병합x, 관계를 설정해서 뷰에서 필드를 사용할 수 있다. 조인보다 유연하고 동적인 방법, 효율적, 실무에서 조인보다 많이 사용
- 유니온: SQL의 UNION과 비슷한 개념, 테이블 구조가 같은 형식인 경우
- 조인: SQL 조인과 비슷함, 테이블은 항상 하나의 테이블로 병합
- 블랜딩: 물리적으로 테이블을 병합하지 않고, 워크시트 화면에 두 테이블이 같이 있음, 하나의 테이블을 병합하는 것이 아니라 서로 다른 데이터 베이스에서 데이터를 불러오고 임시로 분석할 때 사용함
- 관계와 조인의 차이점: https://help.tableau.com/current/online/ko-kr/datasource_relationships_learnmorepage.htm?source=productlink
- 커넥터 연동: 구글 빅쿼리 → 이런 것도 있다.
- 차원 VS 측정값
- 차원(dimension): 측정 기준 또는 분석의 기준
- 측정값(metric): 측정하는 값 또는 항목 → agg함수로 통계함수 사용
- 연속형 vs 불연속형
- 연속형: 하나로 연결되어 이어진 데이터
- 불연속형: 이어지지 않고 각각 구분되는 개별적인 데이터
- 계산된 필드
- 기존 컬럼을 계산해서 새로운 컬럼 생성, 계산된 필드를 사용하면 대이터 워본에 있는 데이터에서 새로운 필드를 만들 수 있음
- 지표에 대한 작업을 하기에 잘 알아두기!!!
3주차
- 데이터 시각화: 데이터를 그래프 형식으로 나타내어 직관적으로 이해하기 쉽게 만든다. 그래프를 활용하여 데이터의 추세, 분포, 상관 관계 등을 시각적으로 표현할 수 있음
- 효과적인 차트 고르기
- 비교
- 막대, 선 차트
- 관계
- 스케터 차트
- 버블 차트
- 분포
- 히스토그램
- 구성
- 스택 플랏
- 파이차트, 워터풀 차트
- 비교
- 데이터 시각화의 장점
- 데이터를 빠르게 이해하고 의사결정 가능
- 실무에서 협업할 때, 효과적으로 커뮤니케이션 할 수 있음
- 직관적인 데이터의 이해를 통해 인사이트를 도출 가능
- 기본 그래프
- 선 그래프(LINE PLOT)
- 간단하고 사용하기 쉬움
- 시계열 데이터를 시각화할 경우, 변화량과 트랜드를 한눈에 보기에 용이함
- 연속적 데이터에 사용하기 적합, 연속형 데이터: 온도, 시간 등
- 막대 그래프(BAR PLOT)
- 간단하고 사용하기 쉬움
- 범주 간의 차이나 분포를 시각적으로 이해하기 쉬움
- 범주형 데이터에 사용하기 적합함
- 맵 차트(MAP CHART)
- 지도를 활용해서 지리적 위치를 살펴볼 수 있음
- 각 지역별 데이터의 분포 및 비중을 한 눈에 확인할 때 주로 사용
- 기능
- 뷰 툴바: 확대 축소
- 백그라운드 레이어: 투명도설정, 해안선, 건물 표시 등 지도 배경에 대한 다양한 기능이 있음
- 파이 차트(PIE CHART)
- 각 부분의 크기가 상대적인 비율이기 때문에 각 부분이 전체에서 차지하는 비중을 쉽게 이해할 수 있음
- 데이터의 구성 비율과 분포를 한눈에 파악할 수 있음
- 다양한 변수를 다루기에는 적합하지 않을 수 있음. 변수가 적을 때 직관적으로 사용하기 용이함
- 트리맵 차트(TREEMAP CHART)
- 데이터를 계층적으로 표현하는데 사용
- 카테고리별로 특정 데이터 집합이 전체 데이터에서 차지하는 비율을 면적으로 표현하여 카테고리별 구성 요소를 한눈에 파악할 수 있음
- 선 그래프(LINE PLOT)
- 심화 그래프
- 도넛 차트(DONUT CHART)
- 파이 차트와 비슷한 형태로 가운데 구멍이 뚫린 경우를 도넛 차트라고 부름
- 각 부분의 크기가 상대적인 비율이기 때문에 각 부분이 전체에서 차지하는 비중을 쉽게 이해할 수 있음
- 태블로에서는 대시보드의 KPI 카드로 많이 활용함
- 히트맵 차트(HEATMAP CHART)
- 태블로에서 하이라이트 테이블이라고도 부름
- 색상을 활용해서 데이터 값을 시각적으로 강조할 수 있음. 색상의 그라데이션을 통해 측정값을 한 눈에 비교할 수 있음
- 영역 차트(AREA CHART)
- 영역 차트는 선 아래 영역을 색을 채워서 데이터의 영역 크기를 파악
- 시간에 따른 데이터 추이를 시각적으로 나타냄
- 데이터의 변화 및 흐름을 쉽게 파악할 수 있음.
- 스택 플랏(STACKED PLOT)
- 100% 누적 그래프: 기준을 비교하기 쉬움
- 단순 누적 그래프: 기준선이 일정하지 않기 때문에 비교하기가 어려움
- 상대적인 비율을 직관적으로 시각화 가능
- 시간에 따라 데이터가 어떻게 변하는지 시각적으로 알 수 있음
- 도넛 차트(DONUT CHART)
- 시각화 레벨업
- 이중 축(콤보차트)
- 하나의 차원을 두 개 이상의 측정값으로 동시에 파악하고 싶을 때 활용
- 두 가지 서로 다른 데이터 집합을 한 번에 비교 가능
- 축에 서로 다른 단위나 기준을 가지고 있는 경우, 그래프를 볼 때 한눈에 알아보기 어려움
- 평균선/참조선
- 분석 패널에서 평균선 라인/상수라인/참조선을 추가해서 의사결정을 빠르게 할 수 있음
- 이중 축(콤보차트)
- 데이터 분석하기
- 박스 플랏(BOX PLOT)
- 데이터의 분포와 이상치를 시각적으로 파악할 때 사용하는 그래프
- 파레토 차트(PARETO CHART)
- 파레토 법칙: 전체 결과의 80%가 전체 원인의 20%에서 일어난다는 마케팅 기법 (다수의 결과는 소수의 원인에 의해 생겨남)
- 상관관계(SCATTER PLOT)
- 지표간 어떤 선형적인 관계가 있는지 알아보기 위해 상관분석을 자주 활용함
- 피어슨 상관관계
- 시계열 예측
- 태블로에서 지수 평활법을 활용해서 예측 모델링을 함.
- 과거 데이터에 기반하여 미래를 예측하는 시계열 예측
- 박스 플랏(BOX PLOT)
4주차
- 텍스트 레이블
- 데이터 형태
- 행과 열로 이루어짐
- 데이터 구조화 형식에는 대표적으로 2가지 형식의 WIDE FORMAT TABLE과 LONG FORMAT TABLE이 있다.
- 태블로의 표현 방식에서 텍스트 테이블로 표현해 활용 가능
- WIDE FORMAT TABLE
- 옆으로 넓은 형태로 데이터가 쌓임. 하나의 열에 여러 개의 데이터를 나란히 나열하는 형태
- 데이터 분석을 할 경우 많이 사용되는 형태로 표를 비교하거나 그래프 시각화 하기 쉬움.
- 상관관계를 분석하거나 각 변수의 분포를 비교할 때 적합
- LONG FORMAT TABLE
- 아래로 쌓이는 긴 데이터 셋
- 한 개의 특성을 나타내는 열을 가진 여러 개의 행
- 시간에 따른 변화와 카테고리 간 비교를 시각화하기에 적합함
- 총계
- 분석탭에서 열과 행의 총합계 계산 가능
- 태블로 작동 원리
- 필터별 작동원리 (순서 중요함)
- 추출 필터 : 데이터 소스에서 추출된 데이터 필터링(데이터 연결을 추출로 선택했을때만 사용가능)
- 데이터 원본 필터: 데이터 원본 소스에서 일부 데이터만 필터링
- 컨텍스트 필터: 특정값에 대한 데이터만 필터링
- 차원 필터: 차원을 기준으로 데이터 필터링
- 측정값 필터: 측정값을 기준으로 데이터 필터링
- 테이블 계산 필터: 특정 계산 결과를 기준으로 데이터 필터링
- 계산과 필터의 작동 순서
- 쿼리 파이프 라인: 계산과 필터의 태블로 작업 순서
- 필터를 추가할 때 해당 필터가 항상 작업 순서에 따라 설정된 순서대론 실행
- 필터 활용법
- Top N : 컨텍스트 필터를 활용하여 작동 순서를 바꿀 수 있음
- 기본 계산식 활용
- 계층과 드릴 업다운
- 날짜 형태는 자동으로 되어 있음
- 퀵테이블 계산
- 계층과 드릴 업다운
- 태블로 함수 (SQL과 대강 비슷함)
- 필터별 작동원리 (순서 중요함)
- 데이터 형태
- LOD 식 (세분 수준 식)
- 계산할 세분 수준을 제어할 수 있음
- LOD식은 세분화된 수준(INCLUDE), 덜 세분화 된 수준(EXCLUDE), 완전히 독립적인 수준(FIXED)로 나뉨
- 구조
- {[FIXED | INCLUDE | EXCLUDE] [ 차원1], [차원2] : AVG([측정값])}
- FIXED
- 뷰에 있는 차원과 상관없이 계산된 필드에서 FIXED 계산식을 고정시켜 지정된 차원 계산
- INCLUDE
- 뷰에 지정된 차원 뿐만 아니라 모든 차원을 포함해서 계산
- EXCLUDE
- 차원을 제거해서 계산
- 대시보드 설계와 구성
- 대시보드 구축 프로세스
- 대시보드 뷰어 및 목적 선정
- 문제 정의
- 필요한 데이터 선정 및 데이터 마트 구축 (실무)
- 지표 선정
- 스케치
- 시각화
- 대시보드 완성
- 대시보드에서 이끌어내는 액션
- 완성된 대시보드 게시 또는 대시보드팀 뷰어 권한 부여
- 실무에 필요한 지표 정의 및 선정 (실무)
- 지표 정의 및 선정
- 비즈니스별 지표 선정 : 메트릭 하이라키
- 대시보드 기능
- 컨테이너(가로, 세로)와 뷰가 있음
- 바둑판식 기능과 부동 기능으로 구성됨
- 바둑판식 기능 : 컨테이너와 뷰가 서로 겹치지 않으며, 전체 대시보드 크기에 따라 크기가 자동 조정이 됨
- 부동 기능: 시계열 예측처럼 다른 뷰와 겹칠 수 있음
- 피그마와 부동기능
- 피그마 툴과 태블로 부동기능을 활용하면 조금 더 전문적이고 깔끔한 대시보드를 만들 수 있음
- 대시보드 레이아웃
- 일관된 레이아웃
- 그리드 표시
- 레이아웃 크기 설정
- 뷰어 유형에 따라 3가지 버전 중 크기 선택 가능
- 데스크톱 버전, 태블릿 버전, 모바일 전화 버전
- 뷰어 유형에 따라 3가지 버전 중 크기 선택 가능
- 일관된 레이아웃
- 대시보드 설계
- 대시보드 구성
- 대시보드 게층 구조화
- 상단: 주요 지표
- 하단: 그래프 시각화
- 대시보드 스케치
- 스케치와 디자인 구성이 중요함
- 전주의적 속성
- 어떤 것을 보자마자 뇌에서 바로 알아차릴 수 있도록 강조하기 위한 시각화 속성으로 이를 활용하면 대시보드 사용자가 인사이트를 발굴할 수 있도록 함
- 핵심정보가 한눈에 파악할 수 있도록 방향, 길이, 너비, 색상 요소들을 활용해서 강조할 수 있음
- 컬러 선정
- RGB 색상 및 컬러 조합을 맞춰 시각화하면 뷰어 관점에서 직관적으로 한눈에 들어옴
- 대시보드 게층 구조화
- 대시보드 구성
- 대시보드 만들기
- 대시보드 구축 프로세스
Tableau의 기초 내용에 대하여 알아보았다.
B. 마무리
지금까지 공부한 EDA, 머신러닝과 달리 드래그앤드롭 방식의 툴로 코딩을 하지 않아도 된다.
지금까지 배운 내용만으로도 충분히 데이터 시각화를 할 수 있다 생각할 수 있지만 해당 툴을 이용하면 데이터에 관심이 없는 사람이어도 한눈에 정보를 파악하고 이해할 수 있다.
이는 데이터분석가가 궁극적으로 추구하는 목표이다. 정보의 효과적인 전달이 가능하고 의사결정에 더욱 큰 도움이 된다는데 사용하지 않을 이유가 무엇인가.
비록 처음 사용하는 툴이라 어색하기는 하지만 잘 사용하고 싶다.
'Today I Learned' 카테고리의 다른 글
[내일배움캠프_데이터분석] 14주차 수요일 TIL _ 시계열 데이터 (2) | 2024.09.25 |
---|---|
[내일배움캠프_데이터분석] 14주차 화요일 TIL _ 메모리 관리 (1) | 2024.09.24 |
[내일배움캠프_데이터분석] 9주차 수요일 TIL _ 군집분석(과제) (0) | 2024.08.21 |
[내일배움캠프_데이터분석] 9주차 화요일 TIL _ 선형회귀분석(과제) (0) | 2024.08.20 |
[내일배움캠프_데이터분석] 8주차 금요일 TIL _ 로지스틱 회귀분석(분류분석) (0) | 2024.08.16 |