올바른 데이터 시각화
뉴스젤리의 애드테크 솔루션 트렌드 강의를 듣고 왔습니다.
사실 '애드테크 솔루션'이라고 해서, 마텍(Mar Tech)이나 애드텍(Ad Tech)관련해서 재미난 서비스들이 있을까 해서 참석했던 거였는데,
엄밀히 말하면 '데이터 씽킹 및 데이터 시각화' 강의였습니다.
다행이 데이터 시각화 부분은 제가 관심있게 공부하는 영역 중 하나여서 재미있게 듣고 왔습니다.
데이터 시각화에 있어서 중요한 원칙들을 '쉽게' 정리해주셔서 잘 정리된 느낌이었습니다.
데이터 시각화에서 굉장히 많이 인용하는 게 있습니다. (https://en.wikipedia.org/wiki/Anscombe%27s_quartet)
위 슬라이드는 예전에 정보 시각화 관련 스터디하면서 만들었던 자료인데,
보시면 데이터 셋의 mean값, 분산, 상관계수 등이 모두 같지만, 이를 시각화 해보면 다르다는 것을 알 수 있습니다.
시각화는 데이터 안의 '다름'을 잘 드러내기 위한 아주 중요한 수단입니다.
강사님도 말씀해주셨지만, 문제를 '드러내게' 하는 데 있어 중요한 스킬이고, 드러난 문제를 품에 있어서도 유용한 도구죠.
몇가지 기억에 남는 내용이 있었습니다.
1. 왜곡하지 않기
우린 때때로 의도적인 왜곡을 범하기도 합니다. 특히나 언론에서 굉장히 많이 사용하는 것 같은데(언론이 정신차려야 합니다. 데이터 저널리즘이라고 말만하고 에휴), 기준점을 속인다던가, 전체 맥락이 아닌 일부만을 표현한다던가 여러 방식으로 왜곡합니다. 가급적이면 데이터의 차이만 잘 드러내게 하는 시각화가 좋습니다.
2. 최소한의 효과로 차이를 드러내기
에드워드 투프티의 시각화 원칙에서 가장 중요하게 생각하는 건 “Smallest effective difference” 입니다.
최소한의 효과만으로 차이를 나타내야 한다는 것인데, 이것은 시각화 자체가 제한된 인지자원을 활용하기 때문입니다.
인지자원(인간의 주의력 등)은 제한된 자원인데, 이를 막 갖다 쓰면(복잡한 선, 많은 컬러, 읽기 어려움 등등) 단순히 가독성을 해치는 게 아니라 새로운 차원(데이터 셋)이 추가되어야 할 때 추가할 수 없는 경우가 생깁니다.
그러니 컬러, 픽토그램, 범례 등등의 모든 원칙들은 인간의 인지 자원을 최소화 하는 방향으로 사용되어야 합니다.
3. 시각적 질의(Visual Query)
시각화의 핵심은 시각적 질의로 변환시키는 것이라고 생각합니다.
강사님은 '의도를 표현한다'라고 표현하신 것 같은데, 예를 들면 이런 겁니다.
"어떤 막대가 제일 길지?"
"가장 빨간색이 뭐지?"
"가장 높은 점은 어디지?"
"어디에 뭉쳐있지?"
의도를 시각적 질의로 표현하여, 시각화를 읽는 사람에게 가장 짧은 시간에 의도를 전달하는 것이 좋은 시각화라고 생각이 되네요.
대충 지금 생각하는 건 이정도입니다.
"차트 예쁘게 그리는 법" 강의라고 생각할 수도 있겠지만, 이런 시각화를 통해 데이터를 잘 표현하는 것 뿐만 아니라, 표현된 시각화를 통해 문제를 발견할 수 있기 때문에 중요하다고 생각합니다.
데이터 씽킹과 데이터 기반 의사결정에 있어 중요한 시각화를 잘 정리해서 들을 수 있어 감사했습니다.
좋은 강의 감사합니다.