이번 글은 코드잇 강의를 수강하면서 배운 내용을 주로 하여 정리되어 있습니다. (코드잇 스프린트 데이터 애널리스트 트랙 1기 훈련생)
이번 글에서는 저번 Tableau 기초 개념 정리 글에서 못다한 Tableau 기초에 대한 내용 정리를 이어서 하려고 합니다.
저번 글에서는 Tableau의 다양한 시각화 차트 중에 막대 차트, 라인 차트, 파이 차트, 히스토그램에 대해 주로 설명했었습니다.
이번 글에서는 시각화 차트들을 마저 설명한 뒤에 이어 태블로의 분석 기능과 대시보드를 설명하고 태블로의 기초를 마무리하려고 합니다.
태블로의 다양한 시각화 차트 그리기
박스 플롯
박스 플롯을 시각화하는 방법은 분포를 확인할 대상인 측정값 필드를 행에 넣어준 후 차원으로 변환하는 과정이 필요합니다.
- 이 과정을 자세히 설명하면 분포를 확인한 필드를 행에 넣고, 그리고 같은 필드를 ‘세부 정보’에도 드래그합니다.
‘세부 정보’에 드래그한 필드를 우클릭하고 ‘차원으로 변환’을 눌러 차원으로 변환하면, 표현 방식에서 ‘박스플롯’이 활성화되어 표현 방식을 박스플롯으로 변경할 수 있습니다.
이제, 행 패널에 드래그했던 측정값 필드도 차원으로 변경합니다.
이 과정을 진행하면 성공적으로 박스 플롯이 그려지는 것을 확인할 수 있습니다.
이제 추가적인 분석을 하기 위해 데이터 패널의 차원 필드를 통해 범주별로 박스플롯을 그려볼 수 있습니다.
‘열’ 패널에 ‘Business Category’필드를 올려서 사업 범주 별로 박스 플롯을 그리고 좀 더 구분을 쉽게 하기 위해 박스 플롯의 색깔도 다르게 하겠습니다.
이 데이터에서는 별점이 1,2,3,4,5로 주어져있어서 이상치나 값의 분포를 다양하게 확인하기 힘들고, 색깔 구분이 힘들지만 이러한 방법이 있다는 것만 이해하면 될 것 같습니다.
박스플롯은 총 5개의 집계값으로 데이터를 요약하는 그래프로 상한 수염, 위쪽 경첩, 중앙값, 아래쪽 경첩, 하한 수염 다섯 개의 값을 시각화하는 그림입니다.
만약 값들 간의 거리가 좁다면 좁을수록 그 사이에 많은 데이터가 몰려 있다고 볼 수 있습니다.
이러한 박스플롯을 활용한다면 데이터의 세부적인 분포를 빠르게 효과적으로 나타낼 수 있습니다.
산점도
측정값 간에 관계가 경향이 있는지 확인하고 싶을 때는 이러한 분석에 최적화된 ‘산점도’라는 그래프를 사용합니다.
값들의 경향을 확인하고 싶은 측정값 필드 두 가지를 행과 열에 배치하면, 두 필드가 모두 측정값이기 때문에, 각 필드의 합계에 대응되는 지점에 점이 딱 하나만 찍히게 됩니다.
이 상태에서 두 측정값들을 모두 우클릭해서 ‘차원’으로 변경하면 값들이 서로 구분되면서 산점도의 기본 형태가 완성됩니다.
그래프를 확인하면, 산점도는 좌표에 점을 찍어서 두 변수 간의 관계를 보여주는 그림인 것을 알 수 있으며, 두 변수 사이의 관계를 한눈에 파악할 수 있습니다.
산점도 또한 추가적으로 시각화의 디테일을 다듬기 위해 마크 버튼에서 점의 모양을 수정할 수 있습니다.
여기서 다른 측정값 필드의 정보를 더 확인하고 싶다면 확인하고 싶은 측정값 필드를 색상이나, 크기에 넣어 점의 크기나 색상에 따라 값의 분포를 추가적으로 확인할 수 있습니다.
이중 축 차트 (콤보 차트)
차트 하나에서 여러 가지 정보를 한번에 확인하고 싶을 때는 이중 축 차트라는 차트를 사용합니다.
이중 축 차트를 그리기 위해 ‘Review Date’ 필드를 열 패널에 올리고, 시각화하고자 하는 ‘Stars’(별점)필드와 ‘카운트’필드를 모두 행 패널에 넣어 주었습니다.
지금은 차트 두 개가 위아래로 배치되어 있는데, 두 차트를 서로 겹치기 위해 ‘카운트’ 필드 위에서 우클릭하여 ‘이중 축’이라는 메뉴를 클릭합니다.
마치 두 개의 라인 차트가 겹친 것처럼 보이는 차트가 그려지고 지금까지 보던 차트와 달리 세로축이 왼쪽과 오른쪽, 두 개가 존재하는 차트가 생기는데 이를 이중 축 차트라고 합니다.
이중 축 차트의 마크 패널을 살펴보면 세 개의 탭이 생긴 것을 알 수 있습니다.
첫 번째 탭은 시트 전체에 영향을 미치는 영역이고, 두 번째와 세 번째는 각각 별점, 그리고 카운트에만 영향을 미치는 패널입니다.
그런데 위의 예시 그래프에서는 둘다 라인 차트로 표현되어 있는데 이중 축 차트의 마크 패널에서는 각각의 차트 종류를 다르게 설정할 수도 있습니다.
밑의 그림은 ‘카운트’에만 영향을 미치는 탭에 들어가서, 드롭다운 메뉴를 펼쳐 ‘막대’를 눌러 막대 차트로 변경한 예시입니다.
지금 막대 차트가 라인 그래프를 살짝 가리고 있어, 보기 불편하기 때문에 이를 약간 수정해보겠습니다.
이런 상황에서는 눈금을 조정하여 아예 두 차트가 서로의 영역을 침범하지 않게 하여 그래프를 보기 좋게 만드는 방법을 활용하겠습니다.
막대 차트의 눈금은 40~200으로 조정하고, 별점은 건드리지 않았는데 훨씬 그래프가 보기 좋아진 것을 알 수 있습니다.
표로 데이터 요약하기
가끔 그래프보다 표를 통해 수치를 보여 줄 때가 더 직관적이고 효율적인 경우가 있으며, 차원이 여러 개거나, 혹은 정확한 수치를 전달해야 할 때, 한번에 많은 정보를 담아야 할 때는 표를 사용하는 것을 추천합니다.
예시로, 국가와 와인 종류별 와인 소비자가 가격을 비교해보겠습니다.
새 시트를 만들고, ‘행’패널에 ‘국가’를, 그리고 ‘열’패널에 ‘종류’를 올려 주면, 각각의 차원을 행과 열로 하는 표의 형태가 만들어집니다.
이어서 표에 들어갈 값인 ‘소비자가’를 마크 패널의 ‘텍스트’버튼에 올려 두었습니다. 이렇게 하면 국가와 종류별로 소비자가의 합계가 표현됩니다.
이어서 종류의 순서를 레드, 화이트, 로제 순서대로 바꾸겠습니다.
‘종류’글자 위에서 우클릭을 하고, ‘정렬’과 ‘수동’을 클릭하고나서 히스토그램에서 했던 것처럼 순서를 지정해주었습니다.
Tableau에서는 만약 올려 놓은 측정값 외에 다른 측정값도 함께 보고 싶다면 여러 개의 측정값을 동시에 올려 확인할 수 있습니다.
그리고 표에서는 값이 동시에 표시되다 보니, 값의 크고 작음의 비교가 쉽지 않은데 색상을 통해 값의 비교를 쉽게 할 수 있습니다.
표에 올려두었던 측정값 필드를 복제하여 색상에도 올려두면 각 칸의 수치에 따라 색상이 다르게 표시되어서, 값의 크고 작음을 좀 더 직관적으로 비교할 수 있습니다.
만약 더 확실한 구분을 원한다면, 여기서 표현방식 - ‘하이라이트 테이블’을 눌러 글자가 아니라 아예 칸 자체가 색칠이 되면서 훨씬 더 구분이 잘 되게 시각화를 할 수 있습니다.
또한 표에, 행이나 열의 합계를 추가할 수도 있습니다.
분석 - 총계 에 들어가서 행 총합계 표시, 그리고 열 총합계 표시를 누르면 오른쪽의 ‘행 총합계’는 행을 기준으로 집계한 합계가 표시되고 아래쪽의 ‘열 총합계’는 열을 기준으로 집계한 합계가 표시됩니다.
여기서 집계를 합계가 아닌 평균으로 변경해서 똑같이 수치를 확인할 수 있습니다.
그래프의 디테일 수정하기 정리
축 제목 변경
가로축, 세로축 모두 제목에서 우클릭해서, 축 편집을 누르고, 축 제목을 변경할 수 있습니다.
그래프 색상 변경
간단하게 마크 버튼에서 색상을 눌러 색상을 변경하거나 분포나 경향을 확인하고 싶은 필드를 ‘색상’으로 끌어당겨 놓으면 필드의 범주별로 색상 구분이 되고, 색상 변경 또한 가능합니다.
그래프 요소 크기 변경
막대 차트에서는 막대를 산점도에서는 점의 크기 등등을 마크 버튼의 크기에서 수정이 가능합니다.
레이블 표시
차트의 레이블을 표시하고 싶을 때, 레이블 버튼을 눌러 ‘마크 레이블 표시’를 활성화했을 때, 레이블을 표시할 수 있으며, 그 아래 부분에서는 서식이나 정렬, 위치를 바꿀 수 있습니다.
추가적으로 마크 레이블 ‘글꼴’을 누르고 ‘마크 색상 일치’를 누르면 각 레이블이 차트 색상에 맞게 표시되기 때문에 좀 더 직관적인 표현도 할 수 있습니다.
태블로 분석 기능 활용하기
참조선 긋기
여기서는 분석 패널을 활용하여 간단한 데이터 분석을 해보려고 합니다.
막대 차트에서 전체 데이터의 평균을 확인하는 분석을 해보려고 하는데, 참조선을 활용하겠습니다.
참조선은 데이터 패널 옆의 분석 패널을 누르고 ‘참조선’을 잡고 드래그해서, 시트 위에 놓으면 됩니다.
떠오르는 팝업에서 세 개 선택지 중에 ‘테이블’위로 가서 마우스를 떼 줍니다.
그럼 팝업이 하나 등장하고, 그 뒤에 줄이 하나 그어져 있습니다.
이 선이 참조선인데, 말 그대로 참조할 수 있는 값을 나타내 주는 선입니다.
팝업창의 옵션 중 ‘값’은 참조선을 어느 위치에 그을지 정하는 옵션으로 지금은 평균 소비자가라는 계산값을 사용하고 있습니다.
다음으로 ‘레이블’을 살펴 보겠습니다. 지금은 ‘계산’이라고 되어 있는데, 이는 집계 방법을 뜻합니다.
지금은 평균을 사용하고 있기 때문에 ‘평균’이라는 글자가 선에 표시되는 것입니다.
이를 ‘사용자 지정’으로 바꾸고, 화살괄호를 눌러서, 계산, 콜론 찍고, 값. 이렇게 하면 좀 더 보기 좋게 바꿀 수 있습니다.
다음으로 아래 영역은 색깔이나 선 모양을 정하는 부분으로, 라인을 점선으로 바꾸거나, 좀 더 진하게 보이게 불투명도를 높여 주거나 할 수 있습니다.
‘위 채우기’는 참조선 위쪽 영역을 색칠하는 메뉴입니다. ‘아래 채우기’는 마찬가지로 아래쪽 영역을 색칠할 수 있습니다.
위 설정을 적절히 해주고 나면 아래와 같은 차트가 나오게 됩니다.
여기서 참조선의 글자의 서식도 변경해줄 수 있는데, 이는 참조선의 글자 위에서 우클릭 - 서식을 누르고, ‘맞춤’에 들어가서 조정할 수 있습니다.
참조선은 이렇게 그 자체로도 어떤 값을 보여 주지만, 동시에 어떤 비교점이나 기준점을 제시할 때 유용하게 사용됩니다.
그리고 참조선은 막대 차트에만 쓸 수 있는 것이 아니라 라인 차트, 산점도 등 집계가 가능한 모든 유형의 시각화에서 사용할 수 있습니다.
추세선 긋기
이전에 산점도에서 값들간의 관계를 표시하여 두 변수의 대략적인 관계를 살펴봤었습니다.
하지만 산점도에서 그렸던 값들간의 관계를 수학적으로 명확하게 표현할 수도 있습니다.
이는 참조선에 이어 추세선이라는 분석을 통해 확인할 수 있습니다.
일단 산점도가 있는 시트에서 분석 탭으로 들어가 이번에는 ‘추세선’이라는 걸 시트 위로 드래그하고 선형 위에서 손을 떼어보면 한 직선이 그려집니다.
이 직선은 ‘데이터의 추세를 보여주는 선’ 이라는 의미로 ‘추세선’이라고 부르는 선으로 두 변수의 관계를 가장 잘 설명할 수 있는 수식을 자동으로 찾아 나타낸 것입니다.
추세선의 도구설명을 살펴보면, 첫번째 줄은 관계를 수식으로 표현한 것으로 지금 있는 데이터를 최대한 잘 설명할 수 있는 수식을 태블로가 알아서 계산해 준 식입니다.
R-제곱 값은 이 수식이 얼마나 데이터를 잘 설명하는지를 의미하며, 이 값이 1에 가까울수록 수식이 데이터를 잘 설명한다는 것을 의미합니다.
P-값은 수식이 통계적으로 얼마나 유의미한지를 나타내는 값으로, 이 값이 작을수록 통계적으로 의미가 있다고 볼 수 있습니다.
추가적으로 마찬가지로 추세선 또한 추세선을 클릭하여, 서식 변경이 가능합니다.
클러스터 만들기
여러 개의 데이터가 있을 때, 비슷한 것끼리 그룹을 지어주는 것을 ‘클러스터링’이라고 합니다.
각각 그룹을 클러스터라고 합니다.
태블로에서는 이 클러스터링 과정을 쉽게 할 수 있습니다.
클러스터링을 하려면 먼저 새 시트를 만들고, 일단 표를 만들어야 합니다.
각 데이터를 구분짓는 ‘와인 이름’을 행 필드에 올려두고 그룹을 나눌 기준인 도수와 소비자가를 텍스트 버튼에 올려 표에 표시해주었습니다.
이제 분석 탭에 들어가서 클러스터를 잡고 시트 위에 올립니다. 그럼 팝업창이 하나 뜨며 데이터를 몇 개의 그룹으로 묶을지 물어보는 ‘클러스터 수’를 물어봅니다.
그냥 비워 두면 자동으로 개수를 추천해 주지만, 5라고 입력해서, 그룹을 다섯 개로 만들겠습니다.
그럼 각 와인마다 다섯 가지 색깔로 글자가 구분되고, 서로 같은 색깔을 가진 매물들끼리는 같은 그룹에 속하게 됩니다.
이를 좀 더 보기 좋게 산점도 형태로 변경해보겠습니다.
일단 텍스트로 지정된 필드를 각각 ‘행’과 ‘열’패널로 옮기고, 각 데이터를 구분짓는 필드(여기서는 와인명)는 ‘세부 정보’버튼으로 옮깁니다.
이렇게 하면 산점도 상에 각 점들이 표시되면서 각 클러스터가 대략 어떻게 구성되어 있는지를 볼 수 있습니다.
이러한 클러스터링은 데이터를 분류할 측정값이 무엇인지 잘 알고 있다면 무척 유용한 분석 기법입니다.
태블로 대시보드 완성하기
대시보드 만들기
이번에는 지금까지 만든 시트들을 모아 한 화면에 보여줄 수 있는 ‘대시보드’를 만들어 보려고 합니다.
대시보드는 아래 바에서 ‘새 대시보드’ 버튼을 눌러 빈 대시보드를 만들고, 작성할 수 있습니다.
우선 인터페이스를 살펴보면, ‘대시보드’ 패널에는 대시보드에 넣을 수 있는 요소들이 정리되어 있습니다.
대시보드는 컴퓨터 화면에서 보는 ‘기본값’과 핸드폰에서 보는 ‘휴대폰’ 두 가지를 만들 수 있는데 각 화면에 맞는 대시보드를 각각 제작할 수 있습니다.
그 아래 ‘크기’ 부분에서 대시보드의 크기를 정할 수 있고, 아래 ‘시트’에는 대시보드에 올려놓을 수 있는 시트 목록들이 표시됩니다.
그리고 ‘개체’들은 시트 외에 대시보드에 올려 놓을 수 있는 다른 요소들입니다.
예를 들어 일반 텍스트나 빈 화면, 혹은 웹 페이지나 다른 확장 프로그램들도 시트와 함께 대시보드에 올릴 수 있습니다.
마지막으로 크게 아무것도 없는 여백이 대시보드가 생성되는 공간입니다.
우선 대시보드를 만들기 전에, 시트 크기를 정하는 것이 좋습니다. 보통 ‘자동’과 ‘고정된 크기’를 많이 사용하는데 원하는 대로 설정하면 됩니다.
일반적으로 화면에 꽉차게 설정하는 것이 좋습니다.
그리고 나서 시트를 드래그래서 끌어 넣어주는데 어떤 시트가 의미 있는 데이터를 담고 있는지, 어떤 메시지를 전달할 것인지 등 이러한 점들을 고려하여 꼭 필요한 내용만 대시보드로 옮깁니다.
마지막으로 시트 조작이 다 되었다면, 대시보드에 제목을 적겠습니다.
개체 패널의 ‘텍스트’를 드래그하여 맨 위에 배치하고, 제목을 적으면 됩니다. 세부적인 서식은 원하는대로 지정하면 됩니다.
이번 글에서는 저번 글에 이어 태블로의 몇가지 시각화 차트 그리기(박스 플롯, 산점도, 이중 축 차트, 표) / 태블로 분석 기능 / 대시보드 그리기가 포함된 내용을 정리했습니다.
태블로는 편리하면서도 강력한 시각화 도구로 데이터 분석을 하면서 알고 가면 편리하고 좋은 내용으로 개념을 정리하고 숙지하면 좋을 것 같습니다.
이번 글도 읽어주셔서 감사합니다.
출처 및 참고자료 : 코드잇 사이트 강의 'Tableau 기초' https://www.codeit.kr/topics/da-sprint-tableau?version=1
'프로그래밍 > 데이터 분석' 카테고리의 다른 글
[데이터 분석 심화 개념] 차원 축소 개념 정리 (0) | 2024.08.04 |
---|---|
[데이터 분석 심화 개념] 클러스터링 개념 정리 3️⃣ (다양한 클러스터링 모델) (0) | 2024.08.04 |
[데이터 분석 심화 개념] 클러스터링 개념 정리 2️⃣ (K-Means) (0) | 2024.08.04 |
[데이터 분석 심화 개념] 클러스터링 개념 정리 1️⃣ (지도학습 및 비지도학습, 클러스터링) (0) | 2024.08.04 |
[Tableau 개념 정리] Tableau 기초 개념 정리 1️⃣ (0) | 2024.07.14 |
데이터 분석을 공부하고 카페를 열심히 돌아다니는 이야기
포스팅이 좋았다면 "좋아요❤️" 또는 "구독👍🏻" 해주세요!