[Data Science] 데이터 사이언스란?

데이터 사이언스란?

데이터 과학이란, 데이터 마이닝과 유사하게 정형, 비정형 형태를 포함한
다양한 데이터로부터 지식과 인사이트를 추출하는 데 과학적 방법론, 프로세스, 알고리즘, 시스템을 동원하는 융합분야입니다.

데이터 사이언스에 대한 오해

데이터 사이언스에서 가장 중요한 건 인공지능, 딥러닝이다.

데이터를 모으는 과정, 데이터를 옮기고 저장하는 과정, 데이터를 정리하는 과정, 데이터 분석,
데이터에 대한 다양한 테스트나 시도가 있는 후에야 인공지능은 이뤄질 수 있습니다.
그런데 미디어에서 요즘 너무 딥러닝, 인공지능만 강조하다 보니 인공지능 외 선행되어야 할 과정들이 등한시되고있습니다.
인공지능이 있기 전의 과정에서는 적은 노력으로 많은 가치를 얻을 수도 있습니다.
그렇지만 인공지능의 과정에서는 노력, 돈, 시간 대비 가치가 크지 않을 수 있습니다.
(인공지능이나 딥러닝이 중요하지 않다는 게 아닙니다. 데이터 사이언스에는 순서가 있다는 뜻)

데이터 사이언티스트들은 하루종일 컴퓨터랑 수학만 하는 사람일 것 같다.

수학과 통계와 프로그래밍 모두 중요하지만 그런 것들이 전부는 아닙니다.
데이터 사이언스의 목표는 현실에서 가치를 더할 수 있는 문제를 찾고 그 문제를 데이터로 해결하는 것입니다.
데이터 사이언스는 어떤 문제를 찾고 그 문제를 잘 해결해나가기 위해서는 좋은 인사이트도 필요하고,
같이 문제를 해결하고자 하는 사람들과 소통하는 커뮤니케이션 능력도 필요합니다.
이렇듯 데이터 사이언티스트들에게 필요한 것들은 수학, 통계, 프로그래밍 뿐만이 아닙니다.

왜 파이썬으로 데이터 사이언스를 다룰까?

두 언어가 데이터 사이언스에서 가장 인기가 많은데, R과 Python이 가장 인기가 많습니다.

R은 통계와 시각화를 위해서 만들어진 언어이기 때문에 데이터 분석이나 시각화를 할 수 있는 툴이 아주 많습니다.
하지만 통계와 시각화만을 위한 툴이기 때문에 R을 배운다고 해서 다른 프로그래밍을 할 수 있는 것은 아닙니다.
Python은 R에 비해서는 통계와 시각화를 위한 툴이 R에 비해서는 부족합니다.

Python은 다양한 분야에서 두루두루 사용할 수 있는 언어이기 때문에 데이터 관련한 일을 웹 개발같은 일에 접목시키기 유리합니다.

예전에는 파이썬에는 데이터 사이언스를 위한 툴이 거의 없었기 때문에 R이 인기가 훨씬 많았지만,
numpy나 pandas, tensorflow같은 것들이 생겨나면서 파이썬의 인기가 엄청 많아졌습니다.

결국 어떤 언어를 택할지는 상황에 따라 다른데,
통계와 시각화 외에는 달리 할 일이 없다면 R을 배우는 것이 좋다고 생각합니다.
그렇지만 데이터 관련한 것을 다른 곳에 접목시키기도 하고싶고,
인공지능이나 딥러닝 같은 것들을 해보고 싶다면 파이썬으로 데이터 사이언스를 다루는 것이 좋다고 생각합니다.

Updated:

Leave a comment