Data Visualization

Data Visualization - 구글 플레이스토어 데이터 분식 및 시각화하기 Part1

electronicprogrammer 2020. 11. 5. 13:09

데이터 출처 : www.kaggle.com/lava18/google-play-store-apps

 

Google Play Store Apps

Web scraped data of 10k Play Store apps for analysing the Android market.

www.kaggle.com

 

github 주소 : github.com/sangHa0411/DataScience/blob/main/GooglePlayStore_Plotly.ipynb

 

sangHa0411/DataScience

Contribute to sangHa0411/DataScience development by creating an account on GitHub.

github.com

 

이번 포스팅에서는 구글 플레이스토어 데이터를 이용해서 이를 분석해보고 시각화해보겠습니다.

시각화하는데 있어서 여러 라이브러리가 있고 지금까지 matplotlib , seaborn을 이용해봤지만 이번에는 특별히 plotly를 이용해보겠습니다.

 

먼저 Pandas를 이용해서 데이터를 불러옵니다.

어플의 이름 , 종류 , 평점 , 리뷰 수 등을 비롯해서 여러 정보가 있는 것을 확인할 수 있습니다.

 

이제 이 데이터를 분석하기 이전에 null 데이터가 있는지 확인을 해보겠습니다.

평점 Rating에 관해서 null 데이터가 1474개나 있는 것을 확인하였습니다.

 

이제 이 null데이터는 저는 모두 삭제한다음에 데이터 분석 및 시각화를 진행해보도록 하겠습니다.

 

먼저 종류에 따른 어플의 갯수를 파악해서 이를 막대 그래프로 나타내보이겠습니다.

 

아지만 이는 데이터 상에 있는 어플의 갯수를 기준으로 따진 것이므로 각 어플의 다운로드 횟수의 합을 기준으로 다시 막대그래프를 그려보겠습니다.

종류별로 각 어플의 다운로드 수에 따라서 막대가 생기며 이들을 쌓아올리면서 각 카테고리의 전체 다운로드 수의 합을 구할 수 있게 됩니다.

Game , Communication , Social , Productivity 등이 가장 많은 것을 확인할 수 있습니다.

 

이제 각 카테고리 내에서 어플들의 평점을 이용해서 히스토그램을 그려보도록하겠습니다.

구체적인 코드는 위 github 주소에 가시면 확인하실 수 있습니다.

위 카테고리는 어플의 갯수를 기준으로 상위 6개를 선정하였습니다.

대부분의 카테고리의 평점 히스토그램은 4점대 초반에 많이 위치한다는 것을 확인할 수 있습니다. 여기서 특히 PRODUCTIVITY 같은 경우에는 4점 중반대의 평점들이 다른 카테고리에 비해서 많은 것을 확인할 수 있습니다.

 

이제는 Installs 수를 기준으로 상위 6개의 카테고리를 파악하고 이를 Installs에 대해서 히스토그램을 그려보겠습니다.

 

각 카테고리에 속하는 어플의 다운로드 수의 합을 기준으로 해서 선정을 했으며 해당 카테고리는 순서대로 Game , Communication , Productivity , Social , Tools , Family 입니다.

 

이제 이 종류대로 Installs 속성은 기준으로 해서 히스토그램을 그려보겠습니다.

Installs 수의 차이가 크기 때문에 그 값을 log 값을 취해주었으며 해당 값을 X값으로 해서 히스토그램을 그렸습니다.

확실히 Game, 및 Communication 카테고리에 10^6 , 10^7 , 10^8 Installs를 가지는 어플이 많은 것을 확인할 수 있습니다.

 

이제 Content Rating 즉 어플의 연령 등급에 대한 원 그래프를 그려보겠습니다.

확실히 전체 연령 등급인 어플이 대다수를 이룬 것을 확인할 수 있습니다.

 

그리고 plotly를 이용해서 multilevel pie charts를 쉽게 그릴 수 있습니다.

참고자료 : plotly.com/python/pie-charts/

 

Pie Charts

How to make Pie Charts.

plotly.com

 

그리는 방법은 아래와 같습니다.

 

이제 이 방법을 토대로 그린 multilevel pie chart는 다음과 같습니다.

Everyone Content Rating에는 하위 Category가 있고 이 Category 내에 Genre를 파악해서 어플의 갯수를 기준으로 크기를 정해서 다중레벨의 원 그래프를 그렸습니다.

어플의 갯수를 기준으로 하니 Family , Tools 가 많은 것을 확인할 수 있고 Family 와 Game 과 같은 카테고리에는 여러 장르가 있는 것을 확인할 수 있습니다.

 

(구체적인 코드는 위 github주소에 확인할 수 있습니다.)

 

그리고 각 카테고리에 대해서 장르의 종류를 파악하고 장르에 대해서 평균 평점과 어플의 갯수를 파악해보고자 합니다.

먼저 카테고리가 있으면 카테고리의 장르 와 장르에 해당되는 어플의 갯수를 파악하였습니다.

그리고 이 어플들의 평균 평점과 어플들의 갯수를 선 그래프로 그려보았습니다.

Game 카테고리에는 여러 장르가 있었으며 어플의 갯수를 기준으로 파악하였을 때는 Action 장르가 압도적으로 많았습니다.

하지만 평균 평점을 기준으로 파악할 때는 Sports , Education , Puzzle 등이 평점이 높은 것을 확인할 수 있습니다.