데이터사이언스의 기본분야

시각화를통해보다쉽게데이터를이해하고인싸이트도출

데이터시각화(Data Visualization)란?

데이터 분석 업무 중에 가장 기본이 되는 데이터를 읽을 수 있는 방법은 여러 가지가 있다. 기본적으로 텍스트 형태로 묶여있는 원시형태의 데이터를 그대로 읽는 것은 사실상 불가능하고, 대부분 현업에서는 주로 엑셀이나 태블로등의 스프레드시트 소프트웨어를 데이터 관리 및 분석 업무에 활용 하고 있다. 그나마 테이블형태로 데이터를 늘어 놓아 보기 편하게 만든 방법인데 데이터의 양이 방대할 경우, 한 눈에 읽어내는 것은 불가능하며, 데이터 크기에 때문에 관리 또한 쉽지 않은 일이다.

 실제 사례로  다음 미국 동부지역의 임금(wage)를 조사한 자료를 살펴보자. 원시 데이터는 ..csv 형태의 텍스트 파일인데, 데이터사이언스 분야에서 가장 많이 사용되고 있는 프로그래밍 언어인 Python의 Pandas 라는 데이터 관리 라이브러리를 통하면 간단하게 .csv 파일에서 데이터를 읽어서 테이블 형태로 변환하고 데이터분석을 준비하는 단계를 완료할 수 있다.

 간단한 한 줄의 Python 코드로 하단의 테이블과 같은 결과를 체크하여 데이터의 특성을 파악할 수 있는데, 데이터 셋에 포함된 레코드 수, 각 숫자로 이루어진 컬럼(Column)의 통계변수 등을 한 눈에 살펴 볼 수 있다. 이 데이터 셋의 경우 3천개의 행으로 이루어져 있으며, 조사 대상 집단의 나이는 평균 42.41세, 최저 18세 ~ 최고 80세까지로 구성되어 있다. 또, 평균 임금은 $111 정도이며 최저 임금은 $20.8 이다. 이렇게 간단하게 데이터 특성을 상당 부분 파악할 수 있지만, 그래도 읽는데는 시간이 걸리고 특히 한 눈에 들어오지는 않는다.

 

 하지만, 그래프를 사용하면 이야기가 조금 달라진다. 다음 세 가지 그래프를 살펴보면 데이터에 포함된 조사 결과를 보다 한 눈에 많은 내용을 확인할 수 있다. 첫 번째 그래프를 통해서는 연령별 최저, 최고 임금을 확인 할 수 있으며,  두번째 그래프에서는 년도별 변화를 세번째 그래프에서는 학력과 임금과의 관계를 쉽게 이해할 수 있으며, 데이터에 담겨진 스토리를 한 눈에 읽어 낼 수 있다. Python으로 이러한 차트는 그리 어렵지 않게 만들 수 있다.

 

  데이터 분석에 있어서 데이터 사이언티스트가 지닐 수 있는 가장 큰 장점은 이렇게 쉽게 데이터를 재가공하고 그를 기반으로 데이터에 대한 이해를 통해 분석이 가능하다는 점이다. 특히, 다른 이해 당사자와 내용을 공유하는데 있어서도 매우 편리하게 이러한 기법등을 활용할 수 있다. 물론 기존에도 통계나 조사분야에 특화된 다양한 직업군에서 데이터를 바탕으로한 보고서를 만들어 내고는 있지만, 원시 데이터에 직접 접근하여 데이터를 가공하고 조작하는 단계까지는 미치지 못하고 다른 직군과의 협업이 필요하기 때문에 제약 사항이 존재할 수 밖에 없다.특히 다양한 차트 등의 그래픽적인 요소를 통해 시각화를 진행하는 작업에서는 한계가 분명히 존재한다. 최근 들어 인포그래픽처럼 다양한 데이터를 기반으로한 시각화 기법이 유행하면서 분석가와 그래픽 디자이너들이 협력을 통해 읽기 편한 보고서들이 나오고는 있지만, 여전히보고서 제작에 있어서는 시간과 노력이 상당히 많이 필요한 상황이다.

 하지만 데이터 사이언티스트의 경우 플랫한 형태의 데이터 파일은 물론이고 데이터 베이스까지 직접 접근이 가능하기 때문에 원하는 형태로 데이터를 다양하게 가공할 수 있다. 또, 엑셀이나 태블로 등의 응용프로그램 뿐만아니라 Python 등의 프로그래밍 언어를 통해 제공되는 다양한 차트 및 그래프라이브러리를 활용하거나 혹은 직접 새로운 형태의 시각화 요소를 만들어 낼 수 있으므로 보다 쉽고 간편하게 다양한 형태의 그래픽컬한 보고서를 만들 수 있다. 특히, 통계학적인기법을 적용해서 데이터를 분석하는 중간 과정에서도 시각화를 통해 자료공유가가능하므로 보다 쉽게 데이터에 담긴 스토리를 전달하고 이해할 수 있는 방법을 제공할 수 있다. 

다음 예시와  같이 기업 로고와 키워드를 사용해 구성할 수 있는  Word Cloud 등의 다양한 시각화 기법을 활용해 데이터에 포함된 스토리를 한 눈에 보여 줄 수 있는 것이 데이터 사이언티스트가 할 수 있는 데이터 분석 업무의 대표적인 사례라 할 수 있다.

- The Dget -

 Data Scientist who connect people and data 

 

 현재 미국에서 가장 주목받고 있는 직업군인 데이터 사이언티스트는 우리에게 조금은 생소한 이름의 포지션이다. 미국 취업 정보 사이트인 글라스도어(Glassdoor)가 선정하는 유망 직업군에 3년 연속 선정되었으며, 유명 대학들도 앞다투어 데이터 사이언스 관련 수업 과정을 개설하고 있는 상황이다. 국내에서는 아직 명확한 업무에 대한 정의가 되지 못하고 있는 상황인 것으로 보이는데, 이번 포스팅을 통해 데이터 사이언티스트에게 요구되는 업무 능력과 특성에 대해 조금 설명해 보도록 하겠다.

 2016년 3월, 구글의 자회사 딥마인드(DeepMind)가 개발한 소프트웨어인 알파고가 천재 바둑기사로 유명한 이세돌 9단과의 5차례 대국에서 4-1로 압승을 거두었다. 이 사건을 통해 인공지능(AI)의 존재가 많은 사람들에게 널리 알려지기 시작된 인공지능(AI)은 이미 우리 생활 깊게 다가와 있다. 전기 자동차의 대명사인 테슬라의 자율 주행 기능, 스마트폰에 탑재된 음성 인식 비서인 빅스비, 시리, 구글어시스턴트과 같이 쉽게 인식할 수 있는 내용도 있지만, 일부 쇼핑 사이트의 개인화된 상품 추천이나 넷플릭스, 유튜브의 다음에 볼 영상 추천 기능 등과 같이 AI와는 관계 없을 것 같은 보이지 않는 곳에 AI가 적용된 경우가 훨씬 많다. 지난 1월 열린 서계 최대 규모의 전자제품 관련 전시회인 CES에서 발표된 새로운 서비스나 제품 중 AI와 관계가 없는 것을 찾아보기가 힘들 정도로 AI는 우리가 생각하는 것 이상으로 우리 실생활에 많이 활용되고 있다.

 왜, 이러한 상황이 펼쳐지게 된 것인가를 짧게 살펴보면, 기술의 발전에 따라 컴퓨터나 스마트폰에 사용되는 마이크로프로세서(CPU, AP 등), 저장 장치인 메모리 및 하드디스크, 데이터 수집에 필요한 카메라 렌즈를 비롯한 각종센서 등의 하드웨어 가격이 급속히 하락한 것을 시작점으로, LTE, 5G, WIFI 등의 네트워크 비용의 하락 등을 핵심 요인으로 생각할 수 있다. 더불어 이제 IT 업종이라는 말이 필요 없을 정도로 거의 모든 산업군에 속한 기업들이 IT 기술을 활용하고 있다. 이러한 IT 기술 덕분에 통해 예전에는 비용 등의 이슈 때문에 중요하게 생각하지 않고 쉽게 버려지던 업무 과정에서 생성되는 수많은 데이터들을 저장할 수 있게 되었고 이를 분석하고 활용하는 기술이 필요로 하게 되었다. 미국을 비롯한 선진국의 경우 이러한 수많은 데이터를 잘 활용하여 새로운 사업 모델에 성공한 아마존, 넷플릭스 등의 슈퍼스타 기업들이 나타나기 시작했고, 이제는 거의 모든 산업군에 적용되어 대다수의 기업들이 데이터를 활용한 AI를 보편적으로 적용하는 대중화 단계에 이르게 된 것이다.

 그러면 AI 기술은 어디에서 시작된 것일까? AI 기술은 전통적인 통계학을 바탕으로 하고 있다. 물론 최근 머신러닝, 딥러닝 등의 새로운 공학적인 기법이 추가되긴 하였지만,  데이터를 기반으로 추론 방식의 모델을 만들고 그 모델을 검증하는 방식을 기본으로 결과를 예측하고 이를 통해 의사결정을 진행하는 것이다. AI 이전에는 빅데이터 분석이니 데이터 마이닝(Data Mining)이라고 불리던 기법이 IT 기술 발전과 함께 복잡한 연산과 더 큰 데이터 세트을 활용할 수 있게 되었고, 이를 바탕으로 다양하고 복잡한 추론 및 검증이 가능해지다 보니 인공지능이라고 불릴 수 있을 수준으로 발전하게 된 것이다. 

  이것이 바로 데이터 사이언스라고 불리우는 학문 영역이고,  관련된 과정을 처리하는 직군을 데이터 사이언티스트라고 부른다.  이 과정을 처리하려면,

  •   분석대상 업무에 관한 지식
  •   관련 데이터 준비 및 처리 
  •   예측 모델 생성 및 검증 의

 3가지 업무로 나누어 생각할 수 있고 각 업무 진행을 위해서는  

  • 분석 대상 업무에 대한 이해
  • 데이터 처리 및 모델 생성을 위한 코딩 기술
  • 대상 데이터에 적합한 데이터 모델을 선정을 위한 통계 및 수학에 관한 지식 

이 고루 필요하다. 

 물론 이런 다양한 지식 및 기술을 습득하는 것이 쉬운 일은 아니다. 그렇지만 박사나 석사 등의 학위가 반드시 필요한 것도 아니고(물론 학위가 있다면 더 좋겠지만),  학부 복수 전공 수준의 각 지식에 대한 모든 내용 숙지가 필요하지도 않다. 요구되는 지식수준은 분석 대상 업무에 대한 이해의 경우 특정 업무에 대한 경험만 있으면 당연히 가질 수 있는 능력이며, 통계와 그에 필요한 수학적인 요소도 고등학교 이과 수학 과정을 살짝 뛰어넘은 수준 정도이다. 복잡한 계산이나 검증은 컴퓨터를 통해 진행할 수 있으므로 그에 대한 이론적인 이해가 더 중요하다. 단 코딩 지식과 관련해서는 초보 이상의 코딩 능력과 데이터 베이스 및 데이터 처리에 관한 기본 능력 및 지식은 필수라고 할 수 있다.

 현재 미국에는 다양한 형태의 데이터 사이언티스트 과정이 존재한다. 가깝게는 누구나 수강할 수 있는 온/오프라인 강좌에서부터 물론 과정 입학에 절차가 필요한 유명 대학들의 학부, 석/박사 과정까지 모두다 확인하기 가불가 능할 정도이다. 누구나 도전할 수 있는 과정이긴 하지만, 현실적으로 소프트웨어 개발에 관련된 지식이 있는 사람의 도전이 가장 쉬운 편이다. DB 처리, 데이터 수집 및 처리에 개발에 관련된 SQL, JSON 처리 등의 다양한 코딩 관련 지식이 필요한데, 초보자의 경우에는 익숙해지는데 노력이 꽤 많이 필요하다. 그다음은 통계 처리에 능통한 조사나 분석 전문가들이 비교적 쉽게 이 직군에 접근이 가능하다. 이 두 가지를 동시에 배워야 하는 경우에는 상당한 노력이 필요하며 최소 3개월 ~ 6개월 이상의 집중적인 학습이 동반되어야 관련 능력을 습득할 수 있을 것이다.

 데이터와 사람을 이어줄 수 있는 데이터 사이언티스트에 한 번 도전해 보지 않으시겠습니까?

 

- TheDget -

[APPLE] 플랫폼 사업자로의 변신 선언(?) - TV+,News+,아케이드,카드 서비스 발표


하드웨어 아닌 새로운 서비스 대거 발표

애플 생태계 안에서 컨텐츠 서비스 플랫폼으로 확장


애플은 미국 현지 시간 3월 25일 오전

캘리포니아에 위치한 애플 본사 스티브 잡스 극장에서

미디어 초청 행사를 열고 

tv+,  News+,  Arcade,  Card 등의

새로운 컨텐츠 서비스를 

제공한다고 발표했다.


애플 tv+는

기존 넷플릭스나 아마존 등과 같이

직접 제작한 TV 프로그램을

자신의 플랫폼을 통해 제공하는

방식으로 컨텐츠 파워를 이용해

사용자를 확보하는 방식으로

기존의 Apple TV 플랫폼의

확장을 시도한다.

많은 자본을 투여하여

미국 헐리우드 스타들을 캐스팅 하였고

영화, 모닝쇼 등의 다양한

컨텐츠 제작을 진행할

예정이다.


애플News+는

신문 위주의 기존 애플뉴스를

잡지 영역까지 확장하고

다양한 종류의 매체를 월정액 형태로

구독할 수 있는 서비스이다.

WSJ, LA타임즈 등의 유명 신문도

추가되었고, Family 공유를 통해

가족 구성원도 함께 이용할 수 있음에도

가격은 월 $9.99 수준으로

경쟁력이 있어 보인다.


애플Arcade는

게임 정기구독 서비스로

올 가을부터 시작될 예정이다.

100개 이상의 게임이 제공될 것으로

예고 되어 있고 많은 유명

게임 제작사들이 참여를 약속하고 있으나

iOS와 Mac에 한정된 플랫폼은

콘솔이나 PC게임의 시장 점유율에는

큰 영향을 미치지 못할 것으로 보인다.

19년 가을부터 서비스될 예정이다.


애플Card는

말 그대로 신용카드 서비스로

2~3% 캐쉬백을 제공해 주는 것이 특징이다.

골드만 삭스와 마스터 카드와

함께 애플 브랜드의 신용카드를

출시 한 것이다.

40여개 국에서 서비스할 예정이지만

대한민국은 아직 포함되어

있지는 않다.


기존 유통된 하드웨어를

바탕으로 서비스 플랫폼 회사로

거듭나겠다고 발표한 애플의

새로운 서비스들이 시장에

얼마나 안착할 수 있을지

한 번 지켜보면 좋을 것 같다.


-The Dget-

[APPLE] 새로운 에어팟 2세대 발표


H1 칩셋 활용해 사용시간 늘이고

무선 충전 가능한 케이스 별도 판매



그동안 무수한 소문을 달고 있었던

에어팟 2세대가 드디어 발표되었다.

결론 먼저 말하자면,

새롭게 발표되었지만,

외형의 변화는 없어 기존 1세대 제품과의

차이는 크게 느낄 수 없다.


다만 새롭게 개발한 헤드폰 전용 칩셋인

H1을 적용하여 아이폰 혹은 아이패드 등과의

연결 시간을 단축시켰으며,

별도의 터치 없이

"Hey, Siri" 명령어 만으로

음성 인식 비서인 Siri를 

실행 시킬 수 있게 되었다.

추가로 한 번 충전으로 사용가능한

시간도 약간 늘었다.

무선 충전이 가능한

케이스를 추가로 구매하거나

구매시 옵션으로 선택할 수 있게 되었으며

무선 충전 케이스의 별도 가격은 9만 9천원이다.

국내 출시는 

역시 전파 인증이 끝난 후에야 가능하므로

빨라야 4월 중순이 되지 않을까

추측된다.


- The Dget -

애플 성능 강화된 iMac 부분 변경 모델 발표


인텔 8, 9세대 CPU 적용

iMac Pro 사양 일부 선택 가능



애플은 일체형 데스크탑 PC인

iMac 시리즈의 부분 변경

모델 출시를 발표하였다.


모니터 크기에 따라 

21.5형과 27형 두가지 모델에

각각 인텔 8세대와 9세대 

코어 CPU를 사용하여 

최대 60% ~ 2.4배의 

CPU 성능을 향상시켰으며,

그래픽 성능 또한 50% ~ 80%를

개선하여 역대 최상의 성능을 지닌

iMac을 탄생시켰다.

특히, iMac 27형의 경우

이미 iMac Pro에 적용되어 성능을 입증한

Radeon Pro Vega GPU를 옵션으로

선택할 수 있게 하여 3D 렌더링이나 복잡한 비디오 편집 등의

극한 상황에서도 편안하게 iMac을 사용할 수 있게

사용자의 선택의 폭을 넓혀 주었다.


국내에는 아직 전파 인증 등의

행정 절차 진행이 남아 있어 정확한

출시 시기는 추후에 공지될 예정이다.


 - The Dget -

+ Recent posts