끝난 지 얼마나 됐다고 또 기억이 가물가물
1. 워드클라우드
─핵심 키워드를 표현하기 좋은 시각화 방법
- 워드 클라우드는 데이터를 텍스트 시각화하는 기법이므로 마크를 텍스트로 변경해주고, 텍스트로 나타낼 데이터는 메뉴명이므로 메뉴명을 마크 선반의 텍스트로 드래그한다.
- 해당 메뉴의 칼로리가 클수록 글자 크기가 크고 붉은색이며, 칼로리가 작을수록 글자가 작고 파란색이 되도록 하고자 한다. 측정값 칼로리를 마크 선반의 색상과 크기에 드래그하고 색상을 적절하게 변경한다.
시각화 결과
2. 박스플롯
─카테고리별 칼로리의 수치를 이용한 박스 플롯 만들기
- 카테고리 개수만큼 박스 플롯을 그려야 하므로 카테고리를 열 선반에, 칼로리를 행 선반에 드래그한다.
- 메뉴명 수준에서 그래프를 그리기 때문에 메뉴명을 세부 정보로 드래그한다. 메뉴 표시를 위해 마크 형태를 원으로 바꾸고 색상은 카페인 농도에 따라 다르게 표현한다.
- 박스 플롯으로 바꿔주기 위해 분석 탭의 박스 플롯을 워크시트로 드래그한다.
시각화 결과
3. 계산된 필드 만들기
를 하기 전에
계산된 필드란?
분석에 필요한 데이터가 데이터 원본에 존재하지 않을 경우, 기존의 데이터를 이용해 새로운 데이터 형태를 만들거나 기존의 데이터에 대해 계산된 데이터 필드를 만들 수 있다
훈련소에서 준 예시를 보자. 데이터 원본에 수익과 매출 필드가 각각 있는데, 수익률 필드는 존재하지 않아서 새로 만들고자 한다. 데이터 탭의 ▼를 눌러 계산된 필드를 만들 수 있다.
근데 어떤 수준에서 만들어야 하냐...
행 수준과 집계 수준 두 가지 경우를 생각할 수 있다.
행 수준 계산식
모든 행에 대해 계산 후 결과값 집계
[수익]/[매출]
집계 수준 계산식
각 필드 값을 집계한 후 계산
sum([수익])/sum([매출])
아래 예시를 듣고 나니 이해가 좀 됐다.
해당 예시에서는 집계 수준으로 계산한 필드가 좀 더 바람직하겠다.
즉 집계와 계산 순서의 차이이다
계산된 필드에서는 이와 같은 집계 함수 말고도, if 등을 이용한 조건식 필드도 만들 수 있다. 아래는 수익이 양수 값이면 수익성이 있는 것 아니면 수익성이 없는 범주형 데이터로 변환하는 계산식이다.
if sum([수익]) > 0
then "Profitable"
else "Noneprofitable"
end
이제 2일차 마지막 과제를 마무리하자.
─평균 카페인 함유량이 80mg 보다 높은 카테고리와 아닌 카테고리를 그래프 내에서 분류해서 표시
- 카테고리별 평균 칼로리를 시각화하기 위해 카테고리는 열로, 칼로리는 행으로 드래그하면 가로 막대 그래프가 만들어진다.
- 계산된 필드를 추가한다. 카페인 함유량 80mg이 기준이므로 다음과 같이 작성하고, 필드명은 '지정 카페인 용량' 등 본인이 알아볼 수 있게 설정한다.
if avg([카페인(MG]) > 80
then "카페인 > 80mg"
else "카페인 <= 80mg"
end
- 생성된 필드를 마크 선반의 색상으로 드래그한다.
시각화 결과
추가 도전 과제는 시간이 된다면 수정해야지...
각설하고 이렇게 2일차 과제도 잘 마무리했다.