[Data Science] 데이터 분석과 시각화

시각화와 그래프

이번에는 데이터를 시각화해보겠습니다.

시각화가 중요한 이유는 크게 두가지가 있는데요,
첫번째로, 시각화는 데이터를 분석하는 데에 도움을 줍니다.
두번째로, 시각화는 리포팅에 도움을 줍니다.

이제 가장 기본적인 그래프 몇 가지를 살펴보도록 하겠습니다.

선 그래프

막대 그래프

파이 그래프

히스토그램

박스 플롯

산점도

seaborn 시각화

seaborn이라는 라이브러리를 이용해서 그래프를 그릴 수 있는데,
seaborn을 사용하면 더 많은 그래프를, 더 멋지게 그려낼 수 있습니다.
그렇게 되면 같은 데이터로부터 더 좋은 insight를 얻게 될 수도 있습니다.

KDE Plot

LM Plot

카테고리별 시각화

상관 계수 시각화

EDA

EDA(Exploratory Data Analysis)는 주어진 데이터를 다양한 관점에서 살펴보고 탐색하면서 인사이트를 찾는 것입니다.
EDA에는 공식이 없습니다.
시각적 기법이든 통게적 기법이든 다양한 방법으로 데이터를 살펴보는 것입니다.

codeit 강의에서 제공해주는 데이터로 한 번 EDA를 해보겠습니다.

이 데이터는 147개의 column을 가지고 있고, 997개의 row가 있습니다.
147개의 컬럼은 아래와 같이 구성되어 있습니다.

  • 0 ~ 18: 음악 취향
  • 19 ~ 30: 영화 취향
  • 31 ~ 62: 취미/관심사
  • 63 ~ 72: 공포증
  • 73 ~ 75: 건강 습관
  • 76 ~ 132: 성격, 인생관 등
  • 133 ~ 139: 소비 습관
  • 140 ~ 146: 기본 정보

이런 데이터를 대상으로 뭘 분석해보기 전에 기본 정보들부터 분석해보도록 하겠습니다.

기본 정보 파악하기

설문에 참여한 사람들에 대해 어느정도 파악을 했으니 이제 직접적인 분석을 해보겠습니다.

상관 관계 분석 (Correlation Analysis)

클러스터 분석 (Cluster Analysis)

새로운 인사이트 발견하기

새로운 값 계산하기

문자열 필터링

문자열 분리

카테고리로 분류

groupby

데이터 합치기

Updated:

Leave a comment