Data Visualization
[Tableau] Intro
andre99
2025. 2. 7. 19:36
1. 태블로(Tableau) 소개
- BI (Business Intelligence)란?
“기업이 보유하고 있는 수많은 데이터를 정리하고 분석해 기업의 의사결정에 활용하는 일련의 프로세스”- 조직이 좀 더 데이터 기반의 의사결정을 하도록 지원함.
- 비즈니스 분석, 데이터 마이닝, 데이터 시각화, 데이터 도구, 인프라 모범 사례가 모두 포함된다고 정의할 수 있음.
- 데이터 시각화란?
- 데이터 분석 결과를 쉽게 이해할 수 있도록 시각적으로 표현하고 전달하는 과정.
- 왜 해야 할까? : 많은 양의 데이터를 한 눈에 볼 수 있고 전문지식 없이도 쉽게 인사이트 도출할 수 있음.
➡️ 태블로는 “데이터 시각화를 하는 BI 솔루션 툴 ”
데이터 시각화 과정
: Raw 데이터 전처리 → 태블로와 연결해 시각화 → 결과물 공유
- Tableau Prep: 원본 데이터(Raw Data)에 대한 분석 및 전처리
- Prep Builder: 데이터를 결합, 변형, 정리
- Prep Conductor: 데이터 흐름 예약, 모니터링 및 관리
- Tableau Desktop: 전처리 과정을 거친 데이터를 시각화
- Share: 결과물 공유
- Tableau Online: 클라우드에서 Tableau 본사 서버로 호스팅하는 형태
- Tableau Server: 클라우드가 아닌 자체적 서버에 직접 설치해 사용하는 온 프레미스 형태
태블로 라이선스 과정
라이선스는 Creator, Explorer, Viewer로 나눠짐
- Creator
- 처음부터 끝까지 모든 절차에 관여하는 End to End Workflow를 지원함.
- 데이터 원본 설계, 정리, 선별과 시각화, 대시보드 생성 등 태블로 기능의 모든 권한을 가지고 있음.
- Explorer
- Creator보다 제한된 기능.
- Creator가 작성한 데이터에 접근해 분석 가능함.
- 셀프서비스 분석을 통해 데이터를 탐색하고 자신만의 대시보드 작성 및 게시 가능.
- Viewer
- Explorer보다 제한된 기능.
- 게시된 시각화와 대시보드를 보고 상호작용이 가능 & 컨텐츠 구독을 통해 업데이트와 알림 수신 가능.
2. 데이터 연결
슈퍼 스토어 샘플 데이터 연결
① 라이브 (Live)
- 태블로가 데이터에 직접 연결하여 실시간으로 데이터를 불러옴.
- 원본 데이터가 변경되면 즉시 반영됨.
- 단점: 데이터 양이 많아지면 성능 저하 및 속도 저하 발생 가능.
② 추출 (Extract)
- 현재 데이터 원본을 Hyper 파일 형태로 저장하여 사용.
- 원본 데이터의 일정 상태를 저장하므로 오프라인에서도 작업 가능.
- 라이브 연결보다 처리 속도가 빠름.
- 하지만 원본 데이터가 업데이트되더라도 즉시 반영되지 X, 업데이트를 위해 다시 추출해야 함.
3. 데이터 결합
① 관계
- 데이터 원본을 독립적으로 유지하면서 연결.
- 유연한 연결 방식, 개별 데이터 원본을 독립적으로 활용 가능.
- 특정 상황에서 더 적합하게 데이터를 활용할 수 있음.
② 조인
- 두 개 이상의 테이블을 결합하는 방법.
- 조인 방식
- Inner Join: 공통된 데이터만 포함.
- Left Join: 왼쪽 테이블의 모든 데이터 + 오른쪽 테이블의 일치하는 데이터.
- Right Join: 오른쪽 테이블의 모든 데이터 + 왼쪽 테이블의 일치하는 데이터.
- Outer Join: 양쪽 테이블의 모든 데이터 포함.
③ 혼합
- 서로 다른 데이터 원본을 결합하는 방법이지만 실제 데이터를 병합하지 않음.
- 개별 데이터 원본에서 데이터를 독립적으로 집계한 뒤 시각화 과정에서 결합.
- 실제 데이터 원본이 변경되지 않음.
④ 유니온
- 동일한 구조를 가진 테이블을 합치는 방법.
- 각 테이블의 필드 수가 동일해야 함 & 필드 이름과 데이터 유형이 일치해야 함.
4. 라이브 & 추출
라이브 연결 | 추출 | |
데이터 업데이트 | 실시간 반영 | 수동 업데이트 필요 |
성능 | 데이터 크기에 따라 속도 저하 가능 | 미리 저장된 데이터 활용으로 더 빠름 |
오프라인 사용 여부 | X | O |
복잡한 연산 | 데이터베이스 성능에 의존 | 최적화된 데이터로 빠르게 처리 |
5. 필터 & 데이터 형식
- 필드명 위에 표시된 데이터 형식 아이콘을 클릭하면 해당 필드가 어떤 형식으로 지정되어 있는지 확인 가능.
- 데이터 형식을 변경할 수 있도록 한 이유: 데이터를 가져올 때 데이터 형식을 잘못 인식할 수 있기 때문.
- 필드의 데이터 형식이 다르면 필터 적용 방식도 달라짐.
6. 차원 & 측정 값
- 차원: 집계되거나 개선되지 않는 독립적인 필드
- 측정 값: 정량적인 수치 값을 가지고 있는 데이터
- 차원은 일반적으로 불연속형 필드, 측정 값은 연속형 필드로 구분됨.
- 하지만 두 개념은 서로 다른 개념이므로 통합해서 생각하면 안 됨.
- 예를 들어 날짜는 년,월,일 처럼 불연속형으로 설정할 수도 있고 2021-2024처럼 연속형 필드로 설정할 수도 있음.
- 시각화 방식에 따라 차원과 측정값을 적절하게 활용해야 함.
해당 내용은 아래 링크의 영상을 참고해 작성했습니다.
https://www.youtube.com/watch?v=ECKzwF6H_ps&list=PL87tgIIryGsa5vdz6MsaOEF8PK-