Data Scientist who connect people and data 

 

 현재 미국에서 가장 주목받고 있는 직업군인 데이터 사이언티스트는 우리에게 조금은 생소한 이름의 포지션이다. 미국 취업 정보 사이트인 글라스도어(Glassdoor)가 선정하는 유망 직업군에 3년 연속 선정되었으며, 유명 대학들도 앞다투어 데이터 사이언스 관련 수업 과정을 개설하고 있는 상황이다. 국내에서는 아직 명확한 업무에 대한 정의가 되지 못하고 있는 상황인 것으로 보이는데, 이번 포스팅을 통해 데이터 사이언티스트에게 요구되는 업무 능력과 특성에 대해 조금 설명해 보도록 하겠다.

 2016년 3월, 구글의 자회사 딥마인드(DeepMind)가 개발한 소프트웨어인 알파고가 천재 바둑기사로 유명한 이세돌 9단과의 5차례 대국에서 4-1로 압승을 거두었다. 이 사건을 통해 인공지능(AI)의 존재가 많은 사람들에게 널리 알려지기 시작된 인공지능(AI)은 이미 우리 생활 깊게 다가와 있다. 전기 자동차의 대명사인 테슬라의 자율 주행 기능, 스마트폰에 탑재된 음성 인식 비서인 빅스비, 시리, 구글어시스턴트과 같이 쉽게 인식할 수 있는 내용도 있지만, 일부 쇼핑 사이트의 개인화된 상품 추천이나 넷플릭스, 유튜브의 다음에 볼 영상 추천 기능 등과 같이 AI와는 관계 없을 것 같은 보이지 않는 곳에 AI가 적용된 경우가 훨씬 많다. 지난 1월 열린 서계 최대 규모의 전자제품 관련 전시회인 CES에서 발표된 새로운 서비스나 제품 중 AI와 관계가 없는 것을 찾아보기가 힘들 정도로 AI는 우리가 생각하는 것 이상으로 우리 실생활에 많이 활용되고 있다.

 왜, 이러한 상황이 펼쳐지게 된 것인가를 짧게 살펴보면, 기술의 발전에 따라 컴퓨터나 스마트폰에 사용되는 마이크로프로세서(CPU, AP 등), 저장 장치인 메모리 및 하드디스크, 데이터 수집에 필요한 카메라 렌즈를 비롯한 각종센서 등의 하드웨어 가격이 급속히 하락한 것을 시작점으로, LTE, 5G, WIFI 등의 네트워크 비용의 하락 등을 핵심 요인으로 생각할 수 있다. 더불어 이제 IT 업종이라는 말이 필요 없을 정도로 거의 모든 산업군에 속한 기업들이 IT 기술을 활용하고 있다. 이러한 IT 기술 덕분에 통해 예전에는 비용 등의 이슈 때문에 중요하게 생각하지 않고 쉽게 버려지던 업무 과정에서 생성되는 수많은 데이터들을 저장할 수 있게 되었고 이를 분석하고 활용하는 기술이 필요로 하게 되었다. 미국을 비롯한 선진국의 경우 이러한 수많은 데이터를 잘 활용하여 새로운 사업 모델에 성공한 아마존, 넷플릭스 등의 슈퍼스타 기업들이 나타나기 시작했고, 이제는 거의 모든 산업군에 적용되어 대다수의 기업들이 데이터를 활용한 AI를 보편적으로 적용하는 대중화 단계에 이르게 된 것이다.

 그러면 AI 기술은 어디에서 시작된 것일까? AI 기술은 전통적인 통계학을 바탕으로 하고 있다. 물론 최근 머신러닝, 딥러닝 등의 새로운 공학적인 기법이 추가되긴 하였지만,  데이터를 기반으로 추론 방식의 모델을 만들고 그 모델을 검증하는 방식을 기본으로 결과를 예측하고 이를 통해 의사결정을 진행하는 것이다. AI 이전에는 빅데이터 분석이니 데이터 마이닝(Data Mining)이라고 불리던 기법이 IT 기술 발전과 함께 복잡한 연산과 더 큰 데이터 세트을 활용할 수 있게 되었고, 이를 바탕으로 다양하고 복잡한 추론 및 검증이 가능해지다 보니 인공지능이라고 불릴 수 있을 수준으로 발전하게 된 것이다. 

  이것이 바로 데이터 사이언스라고 불리우는 학문 영역이고,  관련된 과정을 처리하는 직군을 데이터 사이언티스트라고 부른다.  이 과정을 처리하려면,

  •   분석대상 업무에 관한 지식
  •   관련 데이터 준비 및 처리 
  •   예측 모델 생성 및 검증 의

 3가지 업무로 나누어 생각할 수 있고 각 업무 진행을 위해서는  

  • 분석 대상 업무에 대한 이해
  • 데이터 처리 및 모델 생성을 위한 코딩 기술
  • 대상 데이터에 적합한 데이터 모델을 선정을 위한 통계 및 수학에 관한 지식 

이 고루 필요하다. 

 물론 이런 다양한 지식 및 기술을 습득하는 것이 쉬운 일은 아니다. 그렇지만 박사나 석사 등의 학위가 반드시 필요한 것도 아니고(물론 학위가 있다면 더 좋겠지만),  학부 복수 전공 수준의 각 지식에 대한 모든 내용 숙지가 필요하지도 않다. 요구되는 지식수준은 분석 대상 업무에 대한 이해의 경우 특정 업무에 대한 경험만 있으면 당연히 가질 수 있는 능력이며, 통계와 그에 필요한 수학적인 요소도 고등학교 이과 수학 과정을 살짝 뛰어넘은 수준 정도이다. 복잡한 계산이나 검증은 컴퓨터를 통해 진행할 수 있으므로 그에 대한 이론적인 이해가 더 중요하다. 단 코딩 지식과 관련해서는 초보 이상의 코딩 능력과 데이터 베이스 및 데이터 처리에 관한 기본 능력 및 지식은 필수라고 할 수 있다.

 현재 미국에는 다양한 형태의 데이터 사이언티스트 과정이 존재한다. 가깝게는 누구나 수강할 수 있는 온/오프라인 강좌에서부터 물론 과정 입학에 절차가 필요한 유명 대학들의 학부, 석/박사 과정까지 모두다 확인하기 가불가 능할 정도이다. 누구나 도전할 수 있는 과정이긴 하지만, 현실적으로 소프트웨어 개발에 관련된 지식이 있는 사람의 도전이 가장 쉬운 편이다. DB 처리, 데이터 수집 및 처리에 개발에 관련된 SQL, JSON 처리 등의 다양한 코딩 관련 지식이 필요한데, 초보자의 경우에는 익숙해지는데 노력이 꽤 많이 필요하다. 그다음은 통계 처리에 능통한 조사나 분석 전문가들이 비교적 쉽게 이 직군에 접근이 가능하다. 이 두 가지를 동시에 배워야 하는 경우에는 상당한 노력이 필요하며 최소 3개월 ~ 6개월 이상의 집중적인 학습이 동반되어야 관련 능력을 습득할 수 있을 것이다.

 데이터와 사람을 이어줄 수 있는 데이터 사이언티스트에 한 번 도전해 보지 않으시겠습니까?

 

- TheDget -

+ Recent posts