Data Visualization

[Tableau] Intro

andre99 2025. 2. 7. 19:36

1. 태블로(Tableau) 소개

  • BI (Business Intelligence)란?
    “기업이 보유하고 있는 수많은 데이터를 정리하고 분석해 기업의 의사결정에 활용하는 일련의 프로세스”
    • 조직이 좀 더 데이터 기반의 의사결정을 하도록 지원함.
    • 비즈니스 분석, 데이터 마이닝, 데이터 시각화, 데이터 도구, 인프라 모범 사례가 모두 포함된다고 정의할 수 있음.
  • 데이터 시각화란?
    • 데이터 분석 결과를 쉽게 이해할 수 있도록 시각적으로 표현하고 전달하는 과정.
    • 왜 해야 할까? : 많은 양의 데이터를 한 눈에 볼 수 있고 전문지식 없이도 쉽게 인사이트 도출할 수 있음.

➡️ 태블로 데이터 시각화를 하는 BI 솔루션  

 

데이터 시각화 과정

: Raw 데이터 전처리 → 태블로와 연결해 시각화 → 결과물 공유

  1. Tableau Prep: 원본 데이터(Raw Data)에 대한 분석 및 전처리
  • Prep Builder: 데이터를 결합, 변형, 정리
  • Prep Conductor: 데이터 흐름 예약, 모니터링 및 관리
  1. Tableau Desktop: 전처리 과정을 거친 데이터를 시각화
  2. Share: 결과물 공유
  • Tableau Online: 클라우드에서 Tableau 본사 서버로 호스팅하는 형태
  • Tableau Server: 클라우드가 아닌 자체적 서버에 직접 설치해 사용하는 온 프레미스 형태

태블로 라이선스 과정

라이선스는 Creator, Explorer, Viewer로 나눠짐

  1. Creator
  • 처음부터 끝까지 모든 절차에 관여하는 End to End Workflow를 지원함.
  • 데이터 원본 설계, 정리, 선별과 시각화, 대시보드 생성 등 태블로 기능의 모든 권한을 가지고 있음.
  1. Explorer
  • Creator보다 제한된 기능.
  • Creator가 작성한 데이터에 접근해 분석 가능함.
  • 셀프서비스 분석을 통해 데이터를 탐색하고 자신만의 대시보드 작성 및 게시 가능.
  1. Viewer
  • Explorer보다 제한된 기능.
  • 게시된 시각화와 대시보드를 보고 상호작용이 가능 & 컨텐츠 구독을 통해 업데이트와 알림 수신 가능.

2. 데이터 연결

슈퍼 스토어 샘플 데이터 연결

① 라이브 (Live)

  • 태블로가 데이터에 직접 연결하여 실시간으로 데이터를 불러옴.
  • 원본 데이터가 변경되면 즉시 반영됨.
  • 단점: 데이터 양이 많아지면 성능 저하 및 속도 저하 발생 가능.

② 추출 (Extract)

  • 현재 데이터 원본을 Hyper 파일 형태로 저장하여 사용.
  • 원본 데이터의 일정 상태를 저장하므로 오프라인에서도 작업 가능.
  • 라이브 연결보다 처리 속도가 빠름.
  • 하지만 원본 데이터가 업데이트되더라도 즉시 반영되지 X, 업데이트를 위해 다시 추출해야 함.

3. 데이터 결합

① 관계

  • 데이터 원본을 독립적으로 유지하면서 연결.
  • 유연한 연결 방식, 개별 데이터 원본을 독립적으로 활용 가능.
  • 특정 상황에서 더 적합하게 데이터를 활용할 수 있음.

② 조인

  • 두 개 이상의 테이블을 결합하는 방법.
  • 조인 방식
    • Inner Join: 공통된 데이터만 포함.
    • Left Join: 왼쪽 테이블의 모든 데이터 + 오른쪽 테이블의 일치하는 데이터.
    • Right Join: 오른쪽 테이블의 모든 데이터 + 왼쪽 테이블의 일치하는 데이터.
    • Outer Join: 양쪽 테이블의 모든 데이터 포함.

③ 혼합

  • 서로 다른 데이터 원본을 결합하는 방법이지만 실제 데이터를 병합하지 않음.
  • 개별 데이터 원본에서 데이터를 독립적으로 집계한 뒤 시각화 과정에서 결합.
  • 실제 데이터 원본이 변경되지 않음.

④ 유니온

  • 동일한 구조를 가진 테이블을 합치는 방법.
  • 각 테이블의 필드 수가 동일해야 함 & 필드 이름과 데이터 유형이 일치해야 함.

4. 라이브 & 추출

  라이브 연결 추출
데이터 업데이트 실시간 반영 수동 업데이트 필요
성능 데이터 크기에 따라 속도 저하 가능 미리 저장된 데이터 활용으로 더 빠름
오프라인 사용 여부 X O
복잡한 연산 데이터베이스 성능에 의존 최적화된 데이터로 빠르게 처리

5. 필터 & 데이터 형식

  • 필드명 위에 표시된 데이터 형식 아이콘을 클릭하면 해당 필드가 어떤 형식으로 지정되어 있는지 확인 가능.
  • 데이터 형식을 변경할 수 있도록 한 이유: 데이터를 가져올 때 데이터 형식을 잘못 인식할 수 있기 때문.
  • 필드의 데이터 형식이 다르면 필터 적용 방식도 달라짐.

6. 차원 & 측정 값

  • 차원: 집계되거나 개선되지 않는 독립적인 필드
  • 측정 값: 정량적인 수치 값을 가지고 있는 데이터
  • 차원은 일반적으로 불연속형 필드, 측정 값은 연속형 필드로 구분됨.
    • 하지만 두 개념은 서로 다른 개념이므로 통합해서 생각하면 안 됨.
    • 예를 들어 날짜는 년,월,일 처럼 불연속형으로 설정할 수도 있고 2021-2024처럼 연속형 필드로 설정할 수도 있음.
  • 시각화 방식에 따라 차원과 측정값을 적절하게 활용해야 함.

 

 


해당 내용은 아래 링크의 영상을 참고해 작성했습니다.

https://www.youtube.com/watch?v=ECKzwF6H_ps&list=PL87tgIIryGsa5vdz6MsaOEF8PK-