A. 금일 학습 내용

비즈니스 인텔리전스를 통해 데이터 분석 및 시각화 서비스를 제공하는 Tableau 툴에 대해 학습하였다.

1주차

  1. BI 소개
    1. 지표를 선택하는데 매우 깊은 고민이 필요하다.
    2. 대시보드 구축에 필요한 업무 미팅
    3. Ad-hoc 업무 발생 → 다양한 팀들의 의사결정을 서포트하는 역할
    4. 전사 지표를 취합한 하나의 대시보드를 만들기도 함
  2. BI 워크 프로우
    1. 데이터 레이크 → 데이터 웨어하우스 → 데이터 마트 → BI 툴
      1. 데이터 레이크: 모든 raw data(정형 데이터, 로그 데이터, 테이블 등) 저장할 수 있는 스토리지
      2. 데이터 웨어하우스: 데이터를 장기적인 보존용으로 통합, 정제, 분석하여 정리한 저장소 (AWS Redshift, Snowflake, Google Bigquery
      3. 데이터 마트: 부서별, 목적별 분석용으로 만든 데이터 웨어하우스의 데이터 일부분
    2. 왜 Tableau 일까?
      1. 장점
        1. 다양한 형식의 파일을 대시보드로 만들어 쉽게 공유 가능
        2. 손쉬운 Drag & Drop으로 인터랙티브한 대시보드와 그래프 시각화 가능
        3. 최근 가장 많으 회사가 사용함
        4. 무료로 활발한 글로벌 커뮤니티, 템플릿, 강의를 참고 가능
      2. 단점
        1. 데이터 용량이 크거나 개발된 대시보드의 양이 많아지면 대시보드 로딩 속도가 느려짐
        2. 비쌈

2주차

  1. 데이터 원본 연결 형태
    1. 라이브 VS 추출
      1. 라이브: 원본 파일이 바뀌면 연동이 됨. 새로 고침 버튼을 클릭하면 실시간으로 데이터가 업데이트할 수 있음
      2. 추출: 라이브 연결을 끊고 현재 데이터만 로컬로 가져오는 형태로, 원본 데이터 파일이 클 때 사용하기 좋음
  2. 병합 방식
    1. 관계: 하나의 테이블로 병합x, 관계를 설정해서 뷰에서 필드를 사용할 수 있다. 조인보다 유연하고 동적인 방법, 효율적, 실무에서 조인보다 많이 사용
    2. 유니온: SQL의 UNION과 비슷한 개념, 테이블 구조가 같은 형식인 경우
    3. 조인: SQL 조인과 비슷함, 테이블은 항상 하나의 테이블로 병합
    4. 블랜딩: 물리적으로 테이블을 병합하지 않고, 워크시트 화면에 두 테이블이 같이 있음, 하나의 테이블을 병합하는 것이 아니라 서로 다른 데이터 베이스에서 데이터를 불러오고 임시로 분석할 때 사용함
    5. 관계와 조인의 차이점: https://help.tableau.com/current/online/ko-kr/datasource_relationships_learnmorepage.htm?source=productlink
  3. 커넥터 연동: 구글 빅쿼리 → 이런 것도 있다.
  4. 차원 VS 측정값
    1. 차원(dimension): 측정 기준 또는 분석의 기준
    2. 측정값(metric): 측정하는 값 또는 항목 → agg함수로 통계함수 사용
  5. 연속형 vs 불연속형
    1. 연속형: 하나로 연결되어 이어진 데이터
    2. 불연속형: 이어지지 않고 각각 구분되는 개별적인 데이터
  6. 계산된 필드
    1. 기존 컬럼을 계산해서 새로운 컬럼 생성, 계산된 필드를 사용하면 대이터 워본에 있는 데이터에서 새로운 필드를 만들 수 있음
    2. 지표에 대한 작업을 하기에 잘 알아두기!!!

3주차

  1. 데이터 시각화: 데이터를 그래프 형식으로 나타내어 직관적으로 이해하기 쉽게 만든다. 그래프를 활용하여 데이터의 추세, 분포, 상관 관계 등을 시각적으로 표현할 수 있음
  2. 효과적인 차트 고르기
    1. 비교
      1. 막대, 선 차트
    2. 관계
      1. 스케터 차트
      2. 버블 차트
    3. 분포
      1. 히스토그램
    4. 구성
      1. 스택 플랏
      2. 파이차트, 워터풀 차트
  3. 데이터 시각화의 장점
    1. 데이터를 빠르게 이해하고 의사결정 가능
    2. 실무에서 협업할 때, 효과적으로 커뮤니케이션 할 수 있음
    3. 직관적인 데이터의 이해를 통해 인사이트를 도출 가능
  4. 기본 그래프
    1. 선 그래프(LINE PLOT)
      1. 간단하고 사용하기 쉬움
      2. 시계열 데이터를 시각화할 경우, 변화량과 트랜드를 한눈에 보기에 용이함
      3. 연속적 데이터에 사용하기 적합, 연속형 데이터: 온도, 시간 등
    2. 막대 그래프(BAR PLOT)
      1. 간단하고 사용하기 쉬움
      2. 범주 간의 차이나 분포를 시각적으로 이해하기 쉬움
      3. 범주형 데이터에 사용하기 적합함
    3. 맵 차트(MAP CHART)
      1. 지도를 활용해서 지리적 위치를 살펴볼 수 있음
      2. 각 지역별 데이터의 분포 및 비중을 한 눈에 확인할 때 주로 사용
      3. 기능
        1. 뷰 툴바: 확대 축소
        2. 백그라운드 레이어: 투명도설정, 해안선, 건물 표시 등 지도 배경에 대한 다양한 기능이 있음
    4. 파이 차트(PIE CHART)
      1. 각 부분의 크기가 상대적인 비율이기 때문에 각 부분이 전체에서 차지하는 비중을 쉽게 이해할 수 있음
      2. 데이터의 구성 비율과 분포를 한눈에 파악할 수 있음
      3. 다양한 변수를 다루기에는 적합하지 않을 수 있음. 변수가 적을 때 직관적으로 사용하기 용이함
    5. 트리맵 차트(TREEMAP CHART)
      1. 데이터를 계층적으로 표현하는데 사용
      2. 카테고리별로 특정 데이터 집합이 전체 데이터에서 차지하는 비율을 면적으로 표현하여 카테고리별 구성 요소를 한눈에 파악할 수 있음
  5. 심화 그래프
    1. 도넛 차트(DONUT CHART)
      1. 파이 차트와 비슷한 형태로 가운데 구멍이 뚫린 경우를 도넛 차트라고 부름
      2. 각 부분의 크기가 상대적인 비율이기 때문에 각 부분이 전체에서 차지하는 비중을 쉽게 이해할 수 있음
      3. 태블로에서는 대시보드의 KPI 카드로 많이 활용함
    2. 히트맵 차트(HEATMAP CHART)
      1. 태블로에서 하이라이트 테이블이라고도 부름
      2. 색상을 활용해서 데이터 값을 시각적으로 강조할 수 있음. 색상의 그라데이션을 통해 측정값을 한 눈에 비교할 수 있음
    3. 영역 차트(AREA CHART)
      1. 영역 차트는 선 아래 영역을 색을 채워서 데이터의 영역 크기를 파악
      2. 시간에 따른 데이터 추이를 시각적으로 나타냄
      3. 데이터의 변화 및 흐름을 쉽게 파악할 수 있음.
    4. 스택 플랏(STACKED PLOT)
      1. 100% 누적 그래프: 기준을 비교하기 쉬움
      2. 단순 누적 그래프: 기준선이 일정하지 않기 때문에 비교하기가 어려움
      3. 상대적인 비율을 직관적으로 시각화 가능
      4. 시간에 따라 데이터가 어떻게 변하는지 시각적으로 알 수 있음
  6. 시각화 레벨업
    1. 이중 축(콤보차트)
      1. 하나의 차원을 두 개 이상의 측정값으로 동시에 파악하고 싶을 때 활용
      2. 두 가지 서로 다른 데이터 집합을 한 번에 비교 가능
      3. 축에 서로 다른 단위나 기준을 가지고 있는 경우, 그래프를 볼 때 한눈에 알아보기 어려움
    2. 평균선/참조선
      1. 분석 패널에서 평균선 라인/상수라인/참조선을 추가해서 의사결정을 빠르게 할 수 있음
  7. 데이터 분석하기
    1. 박스 플랏(BOX PLOT)
      1. 데이터의 분포와 이상치를 시각적으로 파악할 때 사용하는 그래프
    2. 파레토 차트(PARETO CHART)
      1. 파레토 법칙: 전체 결과의 80%가 전체 원인의 20%에서 일어난다는 마케팅 기법 (다수의 결과는 소수의 원인에 의해 생겨남)
    3. 상관관계(SCATTER PLOT)
      1. 지표간 어떤 선형적인 관계가 있는지 알아보기 위해 상관분석을 자주 활용함
      2. 피어슨 상관관계
    4. 시계열 예측
      1. 태블로에서 지수 평활법을 활용해서 예측 모델링을 함.
      2. 과거 데이터에 기반하여 미래를 예측하는 시계열 예측

4주차

  1. 텍스트 레이블
    1. 데이터 형태
      1. 행과 열로 이루어짐
      2. 데이터 구조화 형식에는 대표적으로 2가지 형식의 WIDE FORMAT TABLE과 LONG FORMAT TABLE이 있다.
      3. 태블로의 표현 방식에서 텍스트 테이블로 표현해 활용 가능
      4. WIDE FORMAT TABLE
        1. 옆으로 넓은 형태로 데이터가 쌓임. 하나의 열에 여러 개의 데이터를 나란히 나열하는 형태
        2. 데이터 분석을 할 경우 많이 사용되는 형태로 표를 비교하거나 그래프 시각화 하기 쉬움.
        3. 상관관계를 분석하거나 각 변수의 분포를 비교할 때 적합
      5. LONG FORMAT TABLE
        1. 아래로 쌓이는 긴 데이터 셋
        2. 한 개의 특성을 나타내는 열을 가진 여러 개의 행
        3. 시간에 따른 변화와 카테고리 간 비교를 시각화하기에 적합함
      6. 총계
        1. 분석탭에서 열과 행의 총합계 계산 가능
    2. 태블로 작동 원리
      1. 필터별 작동원리 (순서 중요함)
        1. 추출 필터 : 데이터 소스에서 추출된 데이터 필터링(데이터 연결을 추출로 선택했을때만 사용가능)
        2. 데이터 원본 필터: 데이터 원본 소스에서 일부 데이터만 필터링
        3. 컨텍스트 필터: 특정값에 대한 데이터만 필터링
        4. 차원 필터: 차원을 기준으로 데이터 필터링
        5. 측정값 필터: 측정값을 기준으로 데이터 필터링
        6. 테이블 계산 필터: 특정 계산 결과를 기준으로 데이터 필터링
      2. 계산과 필터의 작동 순서
        1. 쿼리 파이프 라인: 계산과 필터의 태블로 작업 순서
        2. 필터를 추가할 때 해당 필터가 항상 작업 순서에 따라 설정된 순서대론 실행
      3. 필터 활용법
        1. Top N : 컨텍스트 필터를 활용하여 작동 순서를 바꿀 수 있음
      4. 기본 계산식 활용
        1. 계층과 드릴 업다운
          1. 날짜 형태는 자동으로 되어 있음
        2. 퀵테이블 계산
      5. 태블로 함수 (SQL과 대강 비슷함)
  2. LOD 식 (세분 수준 식)
    1. 계산할 세분 수준을 제어할 수 있음
    2. LOD식은 세분화된 수준(INCLUDE), 덜 세분화 된 수준(EXCLUDE), 완전히 독립적인 수준(FIXED)로 나뉨
    3. 구조
      1. {[FIXED | INCLUDE | EXCLUDE] [ 차원1], [차원2] : AVG([측정값])}
    4. FIXED
      1. 뷰에 있는 차원과 상관없이 계산된 필드에서 FIXED 계산식을 고정시켜 지정된 차원 계산
    5. INCLUDE
      1. 뷰에 지정된 차원 뿐만 아니라 모든 차원을 포함해서 계산
    6. EXCLUDE
      1. 차원을 제거해서 계산
  3. 대시보드 설계와 구성
    1. 대시보드 구축 프로세스
      1. 대시보드 뷰어 및 목적 선정
      2. 문제 정의
      3. 필요한 데이터 선정 및 데이터 마트 구축 (실무)
      4. 지표 선정
      5. 스케치
      6. 시각화
      7. 대시보드 완성
      8. 대시보드에서 이끌어내는 액션
      9. 완성된 대시보드 게시 또는 대시보드팀 뷰어 권한 부여
      10. 실무에 필요한 지표 정의 및 선정 (실무)
    2. 지표 정의 및 선정
      1. 비즈니스별 지표 선정 : 메트릭 하이라키
    3. 대시보드 기능
      1. 컨테이너(가로, 세로)와 뷰가 있음
      2. 바둑판식 기능과 부동 기능으로 구성됨
        1. 바둑판식 기능 : 컨테이너와 뷰가 서로 겹치지 않으며, 전체 대시보드 크기에 따라 크기가 자동 조정이 됨
        2. 부동 기능: 시계열 예측처럼 다른 뷰와 겹칠 수 있음
        3. 피그마와 부동기능
          1. 피그마 툴과 태블로 부동기능을 활용하면 조금 더 전문적이고 깔끔한 대시보드를 만들 수 있음
        4. 대시보드 레이아웃
          1. 일관된 레이아웃
            1. 그리드 표시
          2. 레이아웃 크기 설정
            1. 뷰어 유형에 따라 3가지 버전 중 크기 선택 가능
              1. 데스크톱 버전, 태블릿 버전, 모바일 전화 버전
    4. 대시보드 설계
      1. 대시보드 구성
        1. 대시보드 게층 구조화
          1. 상단: 주요 지표
          2. 하단: 그래프 시각화
        2. 대시보드 스케치
          1. 스케치와 디자인 구성이 중요함
        3. 전주의적 속성
          1. 어떤 것을 보자마자 뇌에서 바로 알아차릴 수 있도록 강조하기 위한 시각화 속성으로 이를 활용하면 대시보드 사용자가 인사이트를 발굴할 수 있도록 함
          2. 핵심정보가 한눈에 파악할 수 있도록 방향, 길이, 너비, 색상 요소들을 활용해서 강조할 수 있음
        4. 컬러 선정
          1. RGB 색상 및 컬러 조합을 맞춰 시각화하면 뷰어 관점에서 직관적으로 한눈에 들어옴
    5. 대시보드 만들기

 Tableau의 기초 내용에 대하여 알아보았다.

 

B. 마무리

지금까지 공부한 EDA, 머신러닝과 달리 드래그앤드롭 방식의 툴로 코딩을 하지 않아도 된다.

지금까지 배운 내용만으로도 충분히 데이터 시각화를 할 수 있다 생각할 수 있지만 해당 툴을 이용하면 데이터에 관심이 없는 사람이어도 한눈에 정보를 파악하고 이해할 수 있다. 

이는 데이터분석가가 궁극적으로 추구하는 목표이다. 정보의 효과적인 전달이 가능하고 의사결정에 더욱 큰 도움이 된다는데 사용하지 않을 이유가 무엇인가.

비록 처음 사용하는 툴이라 어색하기는 하지만 잘 사용하고 싶다. 

+ Recent posts