데이터사이언스의 기본분야

시각화를통해보다쉽게데이터를이해하고인싸이트도출

데이터시각화(Data Visualization)란?

데이터 분석 업무 중에 가장 기본이 되는 데이터를 읽을 수 있는 방법은 여러 가지가 있다. 기본적으로 텍스트 형태로 묶여있는 원시형태의 데이터를 그대로 읽는 것은 사실상 불가능하고, 대부분 현업에서는 주로 엑셀이나 태블로등의 스프레드시트 소프트웨어를 데이터 관리 및 분석 업무에 활용 하고 있다. 그나마 테이블형태로 데이터를 늘어 놓아 보기 편하게 만든 방법인데 데이터의 양이 방대할 경우, 한 눈에 읽어내는 것은 불가능하며, 데이터 크기에 때문에 관리 또한 쉽지 않은 일이다.

 실제 사례로  다음 미국 동부지역의 임금(wage)를 조사한 자료를 살펴보자. 원시 데이터는 ..csv 형태의 텍스트 파일인데, 데이터사이언스 분야에서 가장 많이 사용되고 있는 프로그래밍 언어인 Python의 Pandas 라는 데이터 관리 라이브러리를 통하면 간단하게 .csv 파일에서 데이터를 읽어서 테이블 형태로 변환하고 데이터분석을 준비하는 단계를 완료할 수 있다.

 간단한 한 줄의 Python 코드로 하단의 테이블과 같은 결과를 체크하여 데이터의 특성을 파악할 수 있는데, 데이터 셋에 포함된 레코드 수, 각 숫자로 이루어진 컬럼(Column)의 통계변수 등을 한 눈에 살펴 볼 수 있다. 이 데이터 셋의 경우 3천개의 행으로 이루어져 있으며, 조사 대상 집단의 나이는 평균 42.41세, 최저 18세 ~ 최고 80세까지로 구성되어 있다. 또, 평균 임금은 $111 정도이며 최저 임금은 $20.8 이다. 이렇게 간단하게 데이터 특성을 상당 부분 파악할 수 있지만, 그래도 읽는데는 시간이 걸리고 특히 한 눈에 들어오지는 않는다.

 

 하지만, 그래프를 사용하면 이야기가 조금 달라진다. 다음 세 가지 그래프를 살펴보면 데이터에 포함된 조사 결과를 보다 한 눈에 많은 내용을 확인할 수 있다. 첫 번째 그래프를 통해서는 연령별 최저, 최고 임금을 확인 할 수 있으며,  두번째 그래프에서는 년도별 변화를 세번째 그래프에서는 학력과 임금과의 관계를 쉽게 이해할 수 있으며, 데이터에 담겨진 스토리를 한 눈에 읽어 낼 수 있다. Python으로 이러한 차트는 그리 어렵지 않게 만들 수 있다.

 

  데이터 분석에 있어서 데이터 사이언티스트가 지닐 수 있는 가장 큰 장점은 이렇게 쉽게 데이터를 재가공하고 그를 기반으로 데이터에 대한 이해를 통해 분석이 가능하다는 점이다. 특히, 다른 이해 당사자와 내용을 공유하는데 있어서도 매우 편리하게 이러한 기법등을 활용할 수 있다. 물론 기존에도 통계나 조사분야에 특화된 다양한 직업군에서 데이터를 바탕으로한 보고서를 만들어 내고는 있지만, 원시 데이터에 직접 접근하여 데이터를 가공하고 조작하는 단계까지는 미치지 못하고 다른 직군과의 협업이 필요하기 때문에 제약 사항이 존재할 수 밖에 없다.특히 다양한 차트 등의 그래픽적인 요소를 통해 시각화를 진행하는 작업에서는 한계가 분명히 존재한다. 최근 들어 인포그래픽처럼 다양한 데이터를 기반으로한 시각화 기법이 유행하면서 분석가와 그래픽 디자이너들이 협력을 통해 읽기 편한 보고서들이 나오고는 있지만, 여전히보고서 제작에 있어서는 시간과 노력이 상당히 많이 필요한 상황이다.

 하지만 데이터 사이언티스트의 경우 플랫한 형태의 데이터 파일은 물론이고 데이터 베이스까지 직접 접근이 가능하기 때문에 원하는 형태로 데이터를 다양하게 가공할 수 있다. 또, 엑셀이나 태블로 등의 응용프로그램 뿐만아니라 Python 등의 프로그래밍 언어를 통해 제공되는 다양한 차트 및 그래프라이브러리를 활용하거나 혹은 직접 새로운 형태의 시각화 요소를 만들어 낼 수 있으므로 보다 쉽고 간편하게 다양한 형태의 그래픽컬한 보고서를 만들 수 있다. 특히, 통계학적인기법을 적용해서 데이터를 분석하는 중간 과정에서도 시각화를 통해 자료공유가가능하므로 보다 쉽게 데이터에 담긴 스토리를 전달하고 이해할 수 있는 방법을 제공할 수 있다. 

다음 예시와  같이 기업 로고와 키워드를 사용해 구성할 수 있는  Word Cloud 등의 다양한 시각화 기법을 활용해 데이터에 포함된 스토리를 한 눈에 보여 줄 수 있는 것이 데이터 사이언티스트가 할 수 있는 데이터 분석 업무의 대표적인 사례라 할 수 있다.

- The Dget -

+ Recent posts