자료실

최고 유망 직종 `데이터 과학자`란 어떤것인가?

해암도 2013. 4. 16. 06:49

데이터 과학자

데이터 과학자는 데이터 과학과 관련된 분야를 전공하고 데이터 분석과 관련된 업무에 종사하는 사람을 말한다. 즉 데이터 과학자는 현장에 존재하는 대량의 데이터를 모으고, 분석에 적합한 형태로 가공하고, 데이터가 의미하는 바를 이야기에 담아 다른 사람에게 효과적으로 전달하는 역할을 한다.

 

1. 데이터 과학데이터 과학(Data Science)이란

데이터로부터 의미 있는 정보를 추출해내는 학문을 의미한다. 데이터 과학은 통계학이나 데이터 마이닝(Data Mining), 데이터베이스를 통한 지식발견(KDD, knowledge discovery in databases) 같은 개념과 크게 다르지 않은 것처럼 보인다. 데이터 과학이 기존의 개념과 근본적으로 차이를 보이는 부분은 분석 대상인 '데이터'다.

 

통계학이 정형화된 실험데이터를 분석 대상으로 하는 것에 비해 데이터 과학은 기업의 실무 현장에서 쌓이는 빅데이터를 대상으로 한다. KDD가 데이터 생성 원천을 데이터베이스로 상정하고 있는 것과 달리 데이터 과학은 인터넷, 휴대전화, 감시용 카메라 등에서 생성되는 숫자와 문자, 영상 정보 등 다양한 유형의 데이터를 대상으로 한다.

 

또한 데이터 마이닝이 주로 분석에 초점을 두고 있는 개념인데 반해 데이터 과학은 분석뿐 아니라 이를 효과적으로 구현하고 전달하는 과정까지를 포함한 포괄적인 개념이다. 이러한 관점에서 데이터 과학은 데이터 공학(Data Engineering), 수학, 통계학, 컴퓨터공학, 시각화(Visualization), 해커(Hacker)의 사고방식, 해당 분야의 전문 지식을 종합한 학문으로 정의하기도 한다(Wikipidia). 데이터를 처리하고 분석하는 것뿐 아니라 데이터 시각화 등 분석 결과를 이해하기 쉽게 표현하는 것이 더욱 강조되고 있음을 말한다.

 

데이터 과학은 실무적인 필요에 의해 성립된 학문이다. 빅데이터 환경에서 영리를 목적으로 하는 기업이건 정부나 민간 단체와 같은 비영리 조직이건 공통적인 관심은 어떻게 하면 대량의 데이터로부터 가치를 창출해 효과적으로 이용할 것인가에 있다. 데이터 과학이 기존의 통계학과 다른 점은 데이터 과학은 총체적(holistic) 접근법을 사용한다는 점이다(O'Reilly Media, 2012).

 

2. 데이터 과학자

데이터 과학자(Data Scientist)는 데이터 과학과 관련된 분야를 전공하고 데이터 분석과 관련된 업무에 종사하는 사람을 말한다. 즉 데이터 과학자는 현장에 존재하는 대량의 데이터를 모으고, 분석에 적합한 형태로 가공하고, 데이터가 의미하는 바를 이야기(story)에 담아 다른 사람에게 효과적으로 전달하는 역할을 한다(O'Reilly Media, 2012).

 

데이터 과학이 컴퓨터 공학과 통계학 등 다양한 관련 학문이 통합된 의미로 사용되기 때문에 실제로 이러한 모든 분야에 정통한 전문가는 존재하기 어렵다. 따라서 실무에서 데이터 분석은 다양한 전문가로 구성된 팀을 구성해 진행하는 것이 일반적이다. 그러나 팀을 이룬다고 해도 데이터 과학자는 태생적으로 최소한 2, 3개의 분야에 정통한 학제적 배경을 가지고 있어야 한다(O'Reilly Media, 2012).

 

데이터 과학자는 비교적 최근에 등장한 개념이기 때문에 정의에 대해서는 다양한 견해가 있다. 링크드인(LinkedIn)의 수석 과학자인 로가티(Rogati)의 의견은 의미심장하다. "모든 과학자는 데이터 과학자다. 내 견해로는 데이터 과학자는 반은 해커이고 반은 분석가다. 마치 반짝이는 눈을 가진 탐험가 콜럼버스와 의심 많은 형사 콜롬보를 합쳐놓은 존재다"(Guardian, 2012).

 

데이터 과학자는 기본적으로 여기저기에 산재되어 있는 분석에 필요한 데이터를 모으고 가공하는 데이터 처리(Data Management), 분석에 필요한 모형을 만들고 결과를 도출하는 분석 능력(Analytics Modeling), 해당 업종에 대한 이해(Business Analysis)라는 세 가지 핵심 기술을 가져야 한다(Laney and Kart, 2012).

 

그러나 데이터 과학이 예술의 경지로 진화하려면 이 외에도 의사소통 능력, 협업, 리더십, 창의력, 규율, 열정이라는 요소도 겸비해야 한다. 데이터 과학자가 지녀야 할 덕목을 기술 전문성(Technical expertise), 호기심(Curiosity), 데이터로부터 이야기를 만들어내고 이를 효과적으로 전달하는 능력(Storytelling), 문제 해결을 위해 창의적인 관점에서 접근하는 능력(Cleverness)으로 표현하기도 한다(Patil, 2011).

 

데이터에 기반한 기업의 활동 범위가 점차 넓어짐에 따라 데이터 과학자는 기업의 주요 의사결정과 비즈니스 인텔리전스(BI, Business Intelligence), 생산과 마케팅 분석, 사기 방지, 위험관리, 보안, 데이터 서비스와 운용, 데이터 인프라 등과 같은 다양한 영역에서 활동하고 있다(Patil, 2011).

 

3. 데이터 과학자 양성

데이터 과학과 관련된 교육과정으로는 미국 노스캐롤라이나주립대학교의 분석과학 석사과정(MSA, Master of Science in Analytics), 조지메이슨대학의 데이터과학프로그램, 카네기멜론대학교의 지식발견과 데이터 마이닝프로그램, 노스웨스턴대학교의 공학대학원(McCormick School of Engineering), 시라큐스대학교의 정보학대학원(School of Information Studies)이 있다(Laney and Kart, 2012).

 

노스캐롤라이나주립대학교 석사과정은 빅데이터 분석가 양성을 목적으로 SAS 등의 재정 지원에 힘입어 2007년 출범했다(http://analytics.ncsu.edu). 교육학, 공학, 농생명과학, 수리과학, 경영학, 인문사회과학 등 10개 단과대학의 교수진이 참여하며 통계학, 컴퓨터과학, 재무론, 마케팅 등은 물론 보고서 작성(technical writing) 등의 과목으로 구성되어 있다. 특히 기업체의 데이터 분석 경험이 풍부한 실무진이 참여해 실무 현장의 데이터 분석을 진행하는 산학 협력 프로그램이 특징적이다(Rappa, 2012).

 

우리나라의 경우 충북대학교가 2012년부터 비즈니스 데이터 융합학과 석사과정을 개설했다. 지식경제부와 정보통신산업진흥원이 지원하는 이 과정은 디지털정보융합학과와 경영정보학과, 소프트웨어학과, 정보통계학과 등의 교수진과 기업이 함께 참여하는 산학 연계형 프로그램으로 데이터 분석 실무전문가 양성을 목표로 하고 있다(http://bigdata.cbnu.ac.kr/).

 

정규 교육과정 이외에도 공개된 기업의 실제 데이터를 가장 효과적으로 분석한 참가자에게 상금을 지급하는 경진대회도 있다. 캐글(Kaggle)은 기업과 정부에서 해결하고자 하는 데이터 분석상의 문제와 데이터를 공개하면 데이터 과학자들이 최상의 해법을 제시하기 위해 경쟁하는 사이트다. 이러한 방식은 혁신적인 해법을 찾기 위한 협업 아웃소싱 형태인 크라우드소싱(crowdsourcing) 전략을 지향하고 있다.

 

이 사이트가 내건 구호(We're making data science a sport)에서도 알 수 있듯이 데이터 과학을 '즐거운 경쟁'으로 간주하며 공개와 소통, 협업, 경쟁, 공유라는 미래형 가치를 추구하고 있다(http://www.kaggle.com/). 100여 개 국가에서 참여하고 있는 사람들의 전공별 분포는 컴퓨터 과학이 15.6%로 가장 높고 통계학이 11.6%, 경제학이 10.0%, 수학이 8.8%로 이를 통해서도 데이터 과학자의 학문적 배경을 짐작할 수 있다.

 

4. 데이터 과학자의 미래

데이터 과학자는 빅데이터의 등장으로 화두가 되고 있는 직종이다. 맥킨지는 빅데이터 보고서에서 미국에서만 2018년에는 고급 데이터 분석가(데이터 과학자)가 14만 명에서 18만 명가량 부족할 것으로 예측했다(McKinsey, 2011). 고급 분석가의 경우 단기간에 양성할 수 없기 때문에 대비책 마련이 필요하다. 특히 빅데이터 분석 방향을 결정하고 분석 결과를 효과적으로 활용할 관리자가 미국에서만 150만 명 정도 필요할 것으로 보여 앞으로의 비즈니스 환경이 빅데이터에 절대적으로 의존할 것이라고 강조했다.

 

데이터 과학자 양성 과정인 노스캐롤라이나주립대학교의 경우 10개월 간의 분석과학 석사학위 과정을 끝내고 나면 직장 경력이 있는 경우 평균 연봉이 10만 달러이며 직장 경력이 없는 경우는 약 7만 달러 정도로 MBA프로그램과 비교했을 때 학비가 저렴하고 이수 기간이 짧다는 점에서 매력적인 직업으로 보인다(Rappa, 2012).

 

빅데이터 분석을 포함한 고급통계분석 소프트웨어를 만드는 회사인 SAS는 《포춘》이 뽑은 일하기 좋은 100대 기업에 2010년과 2011년 연속 1위에 올랐다(Fortune, 2011). 보스턴 컨설팅 그룹(Boston Consulting Group)이 2위, 빅데이터 분석 기술의 선도자 구글(Google)이 4위, 스토리지 솔루션 업체 넷앱(NetApp)이 5위에 오른 것을 보면 데이터 분석과 관련된 지식 산업이 현재에도 주목을 받고 있다는 것을 알 수 있다. 데이터가 자원으로 활용될 미래에 데이터 과학자의 중요성은 더욱 커질 것으로 보인다.

                                                                                                      (NAVER 지식백과)