이번 글은 코드잇 강의를 수강하면서 배운 내용을 주로 하여 정리되어 있습니다. (코드잇 스프린트 데이터 애널리스트 트랙 1기 훈련생)
이번 글은 태블로에 대한 개념을 설명하며, 태블로라고 불리우는 프로그램 설치부터 프로그램을 다루는 기초적인 방법까지 전반적인 내용을 담을 예정입니다.
Tableau라는 이름의 프로그램은 Salesforce라는 회사가 제공하는 데이터 시각화 프로그램입니다.
태블로(Tableau) 설치 과정
태블로 계정 생성하기
- https://public.tableau.com/app/discover 에 접속합니다.
- 자신이 사용할 성과 이름, 이메일을 입력하고 ‘내 계정 만들기’를 눌러 계정을 생성합니다.
- 생성된 계정의 메일의 수신함으로 이동하여 “Tableau Software 계정 활성화” 라는 제목의 메일을 클릭하고 회원가입을 완료합니다.
- 다시 Tableau 페이지로 돌아가 로그인을 하고, 추가 정보를 묻는 화면에서 자신이 거주하는 국가를 선택하고, 약관에 동의한 후 ‘등록 완료’를 눌러 주시면 됩니다.
Tableau Public 설치하기
https://www.tableau.com/ko-kr/products/public/download에 접속하고 ‘TABLEAU PUBLIC 다운로드’를 누르면 Tableau를 설치할 수 있습니다.
설치 파일 실행하기 (Mac)
- 다운로드된 dmg파일을 실행합니다.
- 하단의 Tableau Public.pkg 박스를 더블클릭하면 설치 프로그램이 실행됩니다.
태블로(Tableau)의 기초
태블로(Tableau)
태블로는 BI Tool 중에 하나로 BI(Business Intelligence) Tool은 데이터를 시각화하는 툴입니다.(salesforce의 Tableau, Microsoft의 Power BI 와 같은 툴이 대표적입니다.)
데이터 시각화의 장점
- 시각화라는 방법을 이용한다면 단순히 수치로 정리되어 있을 때는 보이지 않던 인사이트에서 답을 찾을 수도 있습니다.
- 데이터가 어떤 패턴이나 추세를 갖고 있는지도 쉽게 알 수 있습니다.
Tableau의 장점
- 파워포인트, 엑셀, 혹은 파이썬과 같은 프로그램보다 훨씬 더 편리하면서도 강력한 시각화 도구로, 의사결정을 내려야 할 때 큰 도움을 발휘해 줄 수 있는 프로그램입니다.
- 각 요소들을 적당한 위치에 배치하는 것만으로도 간단하게 시각화를 할 수 있으며, 또 파이썬 등의 프로그래밍 언어와 달리 코딩이 필요가 없습니다.
- 사용자가 마우스를 움직이거나 여러 값을 바꿔 가면서 차트와 상호작용이 가능하고, 무척 예쁘고 직관적인 시각화가 가능합니다.
Tableau에 데이터 불러오기
왼쪽 파란색의 영역에서 데이터를 연결하여 불러옵니다. (엑셀 파일은 Microsoft Excel로, CSV파일은 텍스트 파일 선택)
인터페이스 살펴보기
- 왼쪽 하단을 보면 몇 개의 탭이 있는데, 현재 위치하고 있는 탭은 ‘데이터 원본’이라는 탭입니다. 분석에 사용할 데이터를 확인하고 준비하는 작업이 이 탭에서 이루어집니다.
- 왼쪽 위의 회색 영역의 ‘연결’부분은 현재 어떤 데이터 파일을 보고 있는지를 의미합니다. 그 아래 ‘시트’라는 부분은 현재 보고 있는 시트가 무엇인지에 대한 정보를 담고 있습니다. (서로 분리되어 있는 엑셀 문서의 하위 공간들을 ‘시트’라고 부릅니다.)
- 위쪽 영역은 여러 개의 데이터를 동시에 사용할 경우 해당 데이터들을 연결하는 영역입니다.
- 아래쪽 영역은 데이터가 어떻게 생겼는지를 나타내는 영역입니다.
- 왼쪽 “필드”에는 데이터의 열이 무엇이 있는지 보여주고, 그 옆에는 실제 데이터의 행 몇 개를 보여주고 있습니다.(오른쪽에서 행 개수를 조절 가능하다.)
- 그리고 이제부터 인터페이스의 주요 영역들 하나하나를 ‘패널’이라는 이름으로 부르는 것으로 통일하겠습니다.
Tableau의 시각화 유형
이제 데이터를 바탕으로 시각화를 수행할 수 있고, Tableau에서 시각화가 가능한 유형은 크게 ‘시트’ ‘스토리’ ‘대시보드’ 세 가지입니다.
- ‘차트 하나’로 구성된 시각화를 ‘시트’라고 합니다.
- 여러 개의 시트를 한 화면에 모아서 표시하는 형태를 ‘대시보드’라고 합니다.
- 시트나 대시보드 여러 개를 좌우로 연결해서 마치 프리젠테이션 파일처럼 만드는 형태를 ‘스토리’라고 합니다.
그래프 그리기
제일 밑에 있는 바에 있는 시트를 눌러 차트를 시각화하는 시트로 이동하여 그래프를 그려보려고 합니다.
시트 탭에서 왼쪽에는 ‘데이터’라는 패널이 존재하는데, 데이터 패널에는 아까 데이터 원본에서 확인한 열 이름들이 나와 있는 것을 볼 수 있습니다.
이 열 하나하나가 시트를 제작할 때는 ‘필드’라는 다른 이름으로 불리게 되는데 시각화를 수행할 때는 이 필드를 원하는 곳으로 드래그하게 됩니다.
그리고 중간 상단에 ‘행’ ‘열’ 이라는 이름이 붙은 패널이 존재하는데, 패널의 ‘열’과 ‘행’에 각각 필드를 올리게 되면, 막대그래프와 같은 그래프가 생기는 것을 알 수 있습니다.
Tableau는 이렇게 필드를 끌어다 놓는 것만으로도 간단하게 시각화가 가능합니다.
따라서 ‘행’은 그래프의 가로 모양을, ‘열’은 세로 모양을 결정하게 됩니다.
데이터 패널 오른쪽에는 ‘페이지’ ‘필터’ ‘마크’등의 패널이 있습니다.
여기서 각 버튼들을 눌러 차트의 색상이나 다양한 속성을 변경할 수 있습니다.
그리고 화면 오른쪽 위에도 '표현 방식'이라는 패널이 있습니다.
표현 방식 패널에는 다양한 종류의 그래프가 나와 있는데, 현재 사용하고 있는 데이터를 가지고 만들 수 있는 그래프들은 진한 색깔로 활성화 되어 있습니다.
원하는 차트 형태가 있다면 직접 차트를 변경할 수도 있습니다.
마지막으로 ‘분석’패널은 데이터 패널 옆에 있는 ‘분석’ 부분을 눌러 확인할 수 있습니다.
여기서는 데이터를 바탕으로 간단한 분석을 할 수 있는 메뉴가 나와 있습니다. 그래프를 그리고 분석하는 경우 가능한 분석 방법만 진한 글씨로 표현됩니다.
데이터와 필드에 대한 자세한 개념
차원과 측정값
데이터 패널을 유심히 살펴보면 중간에 연하게 회색 선이 하나 그어져 있는 것을 볼 수 있습니다.
- 차원 : 데이터 패널의 회색 가로 선 위에 있는 필드로 측정값을 집계하는 기준입니다.
- 측정값 : 데이터 패널의 선 아래에 있는 필드로 데이터 분석을 통해 알고자 하는 어떤 값입니다.
‘차원’을 기준으로 ‘측정값’을 요약해서 보는 것이 태블로의 기본 원리라고 할 수 있습니다.
Tableau는 측정값을 보여 줄 때 그 값을 요약할 수 있는 연산을 수행해 주는데, 이것을 ‘집계’라고 합니다.
연속형과 불연속형
가로선 위의 차원들은 파란색, 그리고 아래에 있는 측정값들은 초록색으로 되어 있는 것을 볼 수 있는데, Tableau에서는 연속형 데이터를 초록색으로, 그리고 불연속형 데이터를 파란색으로 표시합니다.
- 연속형 데이터는 두 수 사이에 무수히 많은 값들이 존재하는 데이터를 의미합니다. 예) 키, 몸무게
- 불연속형 데이터는 두 개의 값 사이에 몇 개의 값이 존재하는지가 명확하거나 숫자가 아니라 문자형으로 나타나는 데이터를 의미합니다. 예) 이산형 데이터, 문자형 데이터
그렇다고 가로선 위쪽은 차원이므로 모두 파란색이고, 아래쪽은 측정값이므로 모두 초록색이 되는 것은 아닙니다.
태블로는 기본적으로 데이터를 읽어올 때 차원은 모두 불연속형이라고, 측정값은 연속형이라고 가정하면서, 데이터를 가져오기 때문에 색낄을 통해 차원과 측정값의 색깔이 다르게 표현되는 것입니다.
그리고 꼭 알고 넘어가야 하는 점은 연속형, 불연속형 개념은 차원/측정값과 다른 개념이라는 것입니다.
집계 방법에 대한 설명
태블로에서 값을 요약할 수 있는 연산을 수행 및 제공하는 다양한 집계 방법들에 대해 설명하려고 합니다.
- 합계 Sum
측정값 필드를 올려 두면 기본적으로 이루어지는 집계 방식입니다. 모든 값을 다 더해 줍니다. - 평균 Average
합계를 값의 개수로 다시 나누어 줍니다. 어떤 데이터를 대표하여 나타내는 값(대표값)으로 가장 많이 쓰입니다. - 중앙값 Median
데이터를 작은 값에서 큰 값 순서로, 혹은 거꾸로 배열했을 때 가운데 위치하는 값입니다. 평균과 더불어 대표값으로 많이 사용됩니다. 값이 홀수 개 존재한다면 가운데 값이 중앙값이 됩니다.
여기서는 짝수 개의 데이터가 존재하므로, 가운데에서 가장 가까운 다섯 번째 값과 여섯 번째 값의 평균을 중앙값으로 사용합니다. - 카운트 Count
모든 값의 개수를 셉니다. 즉 이 필드에 존재하는 행의 개수와 동일합니다. - 카운트(고유) Count(Distinct)
개수를 세되 중복되는 값은 한 번만 셉니다. - 최소값 Minimum
데이터 중 가장 작은 값을 반환합니다. - 최대값 Maximum
데이터 중 가장 큰 값을 반환합니다. - 백분위수 Percentile
- 분산 Variance 표본의
데이터가 평균으로부터 흩어진 정도를 측정하는 방법 중 하나로, “편차의 제곱의 평균”을 나타냅니다.
데이터의 분산이 작다는 것은 평균 근처에 데이터가 많이 몰려 있음을 의미합니다. - 분산(모집단) Variance (Pop.)
모집단의 데이터가 평균으로부터 흩어진 정도를 측정하는 방법 중 하나로, “편차의 제곱의 평균”을 나타냅니다. - 표준편차 Std. Dev
표본의 분산에 양의 제곱근을 취하는 것(데이터가 평균으로부터 흩어진 정도를 나타내는 값) - 표준편차(모집단) Std. Dev (Pop.)
모집단의 분산에 양의 제곱근을 취하는 것(데이터가 평균으로부터 흩어진 정도를 나타내는 값)
차원/측정값과 자료형 설정하기
Tableau에서는 데이터를 불러올 때, 각 필드의 자료형에 따라 그것이 측정값인지 혹은 차원인지를 자동으로 판단하는데, 문자와 날짜 자료형은 차원으로, 그리고 숫자 자료형은 측정값으로 불러오게 됩니다.
이 분류를 그대로 사용할 수도 있지만, 상황에 따라서는 차원을 측정값으로, 혹은 측정값을 차원으로 바꾸어 쓸 수도 있습니다.
측정값을 차원값으로 변환하여 사용하는 방법을 적용해야 할 때, 해당 필드를 우클릭한 후 ‘차원으로 변환’을 눌러 주면 해당 필드를 차원으로 사용할 수 있습니다. 반대로 차원을 측정값으로 바꾸는 것도 동일하게 진행할 수 있습니다.
이렇게 측정값을 차원으로 변경한 후에는 각 숫자가 문자처럼 보이게 이름을 지어줄 수 있습니다.
차원으로 변한 상태에서 다시 필드를 우클릭한 후 ‘별칭’을 눌러 각 숫자에 대응되는 이름을 지정해서 각 숫자의 의미에 대해서 혼선을 막을 수 있습니다.
하지만, Tableau는 자료형을 보고 임의로 측정값과 차원을 구분해줄 뿐이기 때문에 실제 판단은 사용자가 직접 해야 합니다.
파일 저장하고 불러오기
저장하기
시트를 하나 이상 만들었다면 해당 파일은 저장이 가능해집니다.
파일 - Tableau Public에 저장 을 눌러 저장하거나 단축키를 활용하여 저장할 수 있습니다.
저장이 성공적으로 되어 웹 페이지에서 내가 작업하던 파일이 보인다면 성공적으로 저장 완료된 것입니다.
참고로 웹에서는 모든 시트를 볼 수 있는 것이 아니라, 사용자가 저장하기 직전 마지막에 보던 탭 하나만 노출이 됩니다.
불러오기
Tableau를 열어 첫 화면에 표시되는 최근에 시각화한 파일 중에서 불러오고자 하는 파일을 더블클릭하여 파일을 불러 와도 됩니다.
혹은, 파일 - Tableau Public에서 열기 를 눌렀을 때 나타나는 웹 저장소에서 파일을 찾아 읽어오는 방법도 있습니다.
태블로의 다양한 시각화 차트 그리기
차트의 기초
시트를 구성하는 기본 요소
- 축
그래프는 보통 왼쪽 아래를 기준점으로 삼아 그려집니다.
맨 아래 가로 부분을 ‘가로축’, 그리고 왼쪽 가장자리로부터 세로 부분을 ‘세로축’이라고 합니다.
축이 어떤 정보를 담고 있는지 나타낸 것은 ‘축 제목’이라고 합니다. - 눈금
요소의 크기를 가늠하기 쉽게 도와주는 선을 말합니다. - 제목
시트 자체가 무엇을 의미하는지를 나타냅니다.
제목은 제목 변경을 원하는 시트 탭을 더블클릭하여 수정할 수 있습니다.
또는 시트 왼쪽 상단에 있는 제목을 통해 수정할 수 있는데, 이 제목은 기본적으로 <시트 이름>이라는 회색 글자로 되어있습니다.
이는 현재 시트 이름을 그대로 제목을 사용하도록 설정되어 있음을 뜻합니다.
즉, 제목을 수정하는 방법은 시트 탭에서 더블클릭한 뒤 수정하거나, 시트 왼쪽 상단에서 <시트 제목>을 완전히 지우고 원하는 제목으로 수정하는 방법이 있습니다. - 도구 설명
막대 위나 그래프의 요소 위에 마우스를 올렸을 때(마우스 오버) 작은 말풍선이 등장하는데 이것을 ‘도구 설명’, 영어로는 ‘Tooltip’이라고 합니다.
막대 차트
막대 차트는 1개 이상의 측정값을 열이나 행에 드래그하여 넣어주면 그릴 수 있고 행이나 열에 차원을 넣어 차원 별 값들을 비교할 수도 있습니다.
막대 차트의 막대길이는 그 값의 크기를 의미하고, 막대의 길이가 길수록 큰 값을 나타냅니다.
막대들을 크기 순서대로 정렬하고 싶다면 맨 위에 있는 바의 ‘오름차순 정렬’ 버튼을 누르면 막대가 오름차순으로 정렬이 됩니다.
만약, 내림차순으로 정렬하고 싶을 때는 그 옆의 ‘내림차순 정렬’버튼을 누르면 됩니다.
그리고 맨 위에 있는 바에 ‘행과 열 바꾸기’ 버튼을 누르면 행에 있던 요소와 열에 있던 요소가 바뀌면서 가로 막대 차트를 그릴 수도 있습니다.
각 막대의 정확한 크기와 길이를 파악하려면 마우스를 올려서(이를 마우스오버라고 한다.) 도구 설명에 나오는 값을 확인해야 하는데, 이 번거로움을 해소하기 위해서 마크 패널의 ‘레이블 표시’ 버튼을 눌러 막대 끝에 값이 표시할 수 있습니다.
마크 패널로 차트 완성도 높이기
마크 패널을 사용하면 차트의 완성도를 높일 수 있는데, 이 마크 패널을 통해 차트를 꾸미고 완성하는 법을 설명하려고 합니다.
마크 패널은 밑과 같이 색상, 크기, 레이블, 세부 정보, 도구 설명 5가지 버튼으로 구성되어 있고, 이를 활용하여 시각적인 요소를 추가할 수 있습니다.
색상
색상 버튼을 통해서 차트의 색상이나 그래프의 불투명도, 테두리를 조정할 수 있습니다.
색상 버튼에 필드를 드래그해서 올릴 수도 있는데, 이렇게 차원에 해당하는 필드를 색상 버튼에 올리면, 해당 차원을 기준으로 색상을 구분할 수 있습니다.
측정값을 기준으로 색상을 구분할 수도 있는데 이번에 ‘Stars’(별점) 필드를 색상 버튼 위에 올려 주세요. 집계 방법이 ‘합계’로 되어 있는데, 막대 그래프와 마찬가지로 ‘평균’으로 바꿔서 확인해보겠습니다.
밑의 그림을 보면 평균 별점이 낮을 때는 연한 파란색으로, 그리고 평균 별점이 높을 때는 진한 파란색으로 막대의 색상이 변한 것을 볼 수 있습니다.
그리고 추가적으로 ‘색상’에서 ‘색상 편집’을 사용한다면 사용자가 원하는 대로 색상을 원하는 대로 변경할 수도 있습니다.
크기
크기 버튼을 누르면 막대차트의 경우 막대의 굵기를 변경할 수 있습니다. 즉, 각각의 차트의 요소의 크기를 변경할 수 있습니다.
추가적으로, 차트에 측정값의 필드를 올려둔 후 집계 방법을 평균으로 적용한면 집계된 평균들이 막대의 굵기 차이로 반영되어 차트가 변경됩니다.
레이블
레이블은 밑과 같이 차트 위에 표시되는 숫자 값들을 의미합니다.
레이블은 레이블 버튼을 눌러 ‘마크 레이블 표시’를 활성화했을 때, 표시할 수 있으며, 그 아래 부분에서는 서식이나 정렬, 위치를 바꿀 수 있습니다.
폰트의 크기, 색깔, 기울기 등을 조절할 수 있습니다.
도구 설명
도구 설명은 차트 위에 마우스를 올리면 나타나는 말풍선입니다.
도구 설명 버튼을 눌렀을 때, 볼 수 있는 팝업창으로 회색 배경 처리된 영역은 실제 어떤 값을 가져오는 변하는 영역이며, 그 외 부분은 항상 고정된 텍스트입니다.
이 도구 설명의 내용들은 물론 폰트, 글씨 크기, 색깔이 모두 변경이 가능합니다.
참고로 도구 설명에 존재하지 않는 필드를 도구 설명에 넣고 싶다면, 해당 필드를 마크 패널의 ‘도구 설명’버튼으로 드래그한 후에 다시 이 ‘삽입’메뉴에 진입하면 내용을 추가할 수 있습니다.
세부 정보
세부 정보 버튼은 당장 시트의 생김새에 변화를 주지는 않지만, 특정 시각화 상황에서 중요한 역할을 하는 경우가 많습니다.
라인 차트
라인 차트를 그리기 위해 먼저 ‘열’패널에는 ‘Review Date’필드를, 그리고 ‘행’패널에는 ‘Stars’필드를 가져왔고 평균 별점을 계산하기 위해 집계 방법은 ‘평균’으로 변경했습니다.
데이터에는 2011년 1월부터 2014년 7월까지의 별점이 존재하고 있는데, 시간 차원을 열에 넣어줄 경우에 직선 모양의 그림이 그려지는 것을 확인할 수 있습니다. 이처럼 시간 자료형은 이렇게 라인 차트로 나타내는 것이 기본값이며, 시간에 따른 변화를 확인하는데 제일 효과적입니다.
그런데 이렇게 하면 집계 단위가 1년이기 때문에 지점이 4 개밖에 생기지 않습니다. 연도보다 좀 더 작은 단위로 집계하기 위해, +를 눌러 ‘분기’단위를 추가하겠습니다. 각 연도 안에서 분기별로 집계된 선이 4 개 그려집니다.
위 그림은 꺾은선 그래프와 비슷해 보이지만 중간중간 ‘연도’마다 값이 끊어져서 보입니다.
‘열’패널을 보시면 필드가 ‘년’, 그리고 그 옆에 ‘분기’로 되어 있는데, ‘연’단위로 잘리고 그 후에 그 안에서 ‘분기’단위로 집계가 이루어지기 때문에 차트가 쭉 이어지지 못하고 연도별로 차트가 끊어져서 보이게 됩니다.
이러한 상황을 방지하기 위해 필드를 변경하려고 합니다. 날짜 필드를 V 우클릭한 뒤, 똑같은 년/분기/월/일 메뉴가 두 개씩 나와 있으며, 이 중에 아래쪽의 ‘월’을 선택하면 됩니다.
그러면 날짜 자료형이 초록색으로 바뀌게 되면서 선이 모두 이어지게 됩니다.
이러한 과정을 통해 그려진 라인 그래프는 이렇게 시간의 흐름과 관련된 데이터에서 값의 변화를 쉽게 파악하는 데 용이한 차트입니다.
이제 추가적으로 라인 차트를 좀 더 다듬고 싶을 때, 변화의 추이를 더 잘 나타내고 싶다면 비어 있는 부분을 잘라내면 됩니다.
세로축에 마우스를 올린 후 우클릭, 축 편집을 누릅니다.
‘0 포함’이라는 체크박스를 해제하면, 불필요한 아래쪽 영역들이 생략되고, 같은 차트이지만 훨씬 더 변화를 쉽게 파악할 수 있습니다.
추가적으로, 만약 사업 범주별로 별점 추이를 따로 보고 싶다면, ‘Business Category’필드를 ‘행’ 맨 왼쪽에 끌어다 두는 방법과 ‘Business Category’필드를 ‘색상’버튼으로 옮기는 방법을 활용할 수 있습니다.
이렇게 하면 각 지역별로 다른 색상의 선을 통해 직관적인 비교가 가능해집니다.
그림에서 볼 수 있듯이 마크 패널에 라인 차트에만 등장하는 ‘경로’버튼이 있는데, 이 버튼에서 선의 패턴이나 유형을 변경할 수 있습니다.
파이 차트
파이 차트는 전체에서 차지하는 비중이 얼마나 되는지 분석하고 싶을 때 사용하기 적절한 차트입니다.
파이 차트에서는 ‘카운트’라는 새로운 측정값을 사용할 예정인데 카운트는 Tableau에서 자동으로 생성해 주는 필드로 조건에 해당하는 행의 개수를 세 줍니다.
‘Business Category’과 ‘카운트’필드를 각각 행과 열에 배치하고(서로 위치가 바뀌어도 결과는 같다.) ‘표현 방식’ 버튼을 누르고 여섯 번째에 있는 ‘파이 차트’ 버튼을 눌러서 파이차트를 그립니다.
이렇게 파이 차트를 간단하게 만들 수 있으며, 파이 차트는 전체에 대한 각 부분의 비율을 부채꼴 모양으로 나타낸 그래프입니다.
파이 차트는 이렇게 절대적인 값의 크기보다는 그 구성 비중을 비교할 때 직관적인 비교가 가능한 차트입니다.
이제 파이 차트를 그렸을 때의 마크 패널에 생긴 변화를 확인해보겠습니다.
먼저 ‘색상’에는 Business Category라는 필드가 들어가 있는데 이는 원 안에서 색상을 이용해 각 사업 범주를 구분하고 있음을 뜻합니다.
‘크기’라는 부분에는 ‘카운트’ 필드가 들어가 있으며, 이는 파이 자체의 크기가 카운트 값에 영향을 받음을 뜻합니다.
파이 차트 여러 개를 표현할 때 이 크기 요소를 활용하며, 파이 차트가 한개일 경우 크기 요소가 없어도 차트에 영향은 없습니다.
‘각도’라는 부분에도 ‘카운트’ 필드가 들어있습니다. 이는 각 부채꼴의 각도를 결정하는 요소로 각도가 들어가 있지 않다면 각 부분의 비율을 확인할 수 없습니다.
레이블을 표시하여 차트를 좀 더 보기 좋게 만들기 위해 ‘Business Category’ 그리고 ‘카운트’ 필드를 ‘레이블’ 버튼 위에 올려 표시하겠습니다.
만약 여기서 정확한 구성 비율을 표현하고 싶다면 두 개의 ‘카운트’레이블 모두 우클릭한 후 퀵 테이블 계산 - 구성 비율 을 눌러, 퍼센트로 된 비율을 간단하게 계산할 수 있습니다.
히스토그램
어떤 자료의 분포를 파악하는 것은 데이터를 이해하고 분석하는 데 있어 매우 중요한 과정으로 이를 위해 히스토그램이라는 시각화 기법을 사용합니다.
히스토그램은 데이터의 분포를 파악하는 데 사용하는 그래프입니다.
각 측정값을 여러 개의 구간으로 나누고 각 구간에 해당하는 측정값의 개수를 막대로 표현하고 있습니다.
히스토그램의 가로축, 즉 열에 해당하는 필드를 구간차원이라고 부릅니다. 구간차원은 각 측정값을 여러 개의 구간으로 나눠 놓은 것을 의미합니다.
이 구간들의 간격을, 원하는 대로 바꿀 수도 있는데 구간차원 필드를 우클릭한 후 ‘편집’을 눌러 변경할 수 있습니다. (예시에서는 1로 변경)
히스토그램도 디테일을 다듬어 그래프를 수정해보겠습니다.
히스토그램에 Business Category 필드를 색상 버튼 위에 올려 범주 정보를 추가하여 그래프를 색상별로 확인할 수 있습니다.
그리고 범주별로 막대 순서를 변경하고 싶다면, 범례에서 우클릭 - 정렬 - 수동을 누르고, 이렇게 순서를 지정하면 순서를 변경할 수 있습니다.
이번 글에서는 태블로 / 태블로 설치 과정 / 태블로의 기초 / 태블로의 몇가지 시각화 차트 그리기가 포함된 내용을 정리했습니다. 태블로의 몇가지 시각화 차트 그리는 방법과 태블로 분석 기능과 대시보드의 내용을 더 정리해야 하지만 내용이 많다보니 글이 길어지는 것을 방지하려고 다음 글에서 이어 설명하려고 합니다.
이번 글도 읽어주셔서 감사합니다.
출처 및 참고자료 : 코드잇 사이트 강의 'Tableau 기초' https://www.codeit.kr/topics/da-sprint-tableau?version=1
'프로그래밍 > 데이터 분석' 카테고리의 다른 글
[데이터 분석 심화 개념] 차원 축소 개념 정리 (0) | 2024.08.04 |
---|---|
[데이터 분석 심화 개념] 클러스터링 개념 정리 3️⃣ (다양한 클러스터링 모델) (0) | 2024.08.04 |
[데이터 분석 심화 개념] 클러스터링 개념 정리 2️⃣ (K-Means) (0) | 2024.08.04 |
[데이터 분석 심화 개념] 클러스터링 개념 정리 1️⃣ (지도학습 및 비지도학습, 클러스터링) (0) | 2024.08.04 |
[Tableau 개념 정리] Tableau 기초 개념 정리 2️⃣ (3) | 2024.07.15 |
데이터 분석을 공부하고 카페를 열심히 돌아다니는 이야기
포스팅이 좋았다면 "좋아요❤️" 또는 "구독👍🏻" 해주세요!