데이터 출처 : www.kaggle.com/shivamb/netflix-shows
Netflix Movies and TV Shows
Movies and TV Shows listings on Netflix
www.kaggle.com
ipynb file : github.com/sangHa0411/DataScience/blob/main/Netflix_Analysis.ipynb
sangHa0411/DataScience
Contribute to sangHa0411/DataScience development by creating an account on GitHub.
github.com
이번에는 Netflix 데이터를 분석해보고 Deep Learning을 이용해서 해당 컨텐츠가 주어지면 이 컨텐츠와 연관 컨텐츠를 파악해서 알려주는 방법을 알아보고자 합니다.
Part1 에서는 Netflix Data를 분석해보고
Part2 에서는 데이터 전처리를 해보겠습니다.
Part3 에서는 이를 이용해서 Deep Learning에서의 Word Embedding 을 이용함으로써 연관 컨텐츠 파악하는 방법에 대해서 알아보겠습니다.
먼저 Pandas를 이용해서 데이터를 불러오고 데이터 구조를 확인해봅니다.
데이터의 갯수는 총 6234개이고 데이터 구조는 아래와 같습니다.
유형 , 이름 , 캐스팅, 국가 , 제작 일자 , 게시 일자 , 등급 , 장르, 설명 등등 여러 속성이 있습니다.
분석하기 앞서서 오류를 불러일으킬 수 있는 Null 데이터가 있는지를 확인해봅니다.
Null 데이터 갯수를 확인해본 결과 주로 감독 및 캐스팅에 있어서 Null 데이터가 있는 것을 확인하였고 이를 변경해주어야 합니다.
Null 데이터를 모두 String 데이터 '?' 로 변경합니다.
이제 Netflix Data를 분석해보겠습니다.
먼저 유형 입니다.
유형은 TV Shows 그리고 Movie chd 2가지로 구성되어 있으며 Movie 유형의 콘텐츠가 더 많은 것을 확인할 수 있습니다.
이제 각 콘텐츠의 개시 일자를 분석하기 위해서 Dictionary 자료구조를 만듭니다.
Key : 연도
Value : 갯수
이렇게 해서 저장하는데 앞서 Null 데이터를 변환한 '?' 데이터는 연도를 파악하지 못한다는 뜻이므로 이 콘텐츠들은 제외합니다.
연도 순으로 정렬한다음에 그래프로 표현하면 아래와 같습니다.
2020년도 초중반에 데이터 수집을 한 것처럼 보입니다. 그래서 2008년부터 2019년 까지 콘텐츠가 증가하는데 특히 2015년 이후부터는 그 증가 갯수가 아주 많아진다는 것을 확인할 수 있습니다.
이와 같은 방식으로 국가 , 장르 등을 분석하고자 합니다.
먼저 국가 입니다.
자세한 사항은 위 github 주소에 가시면 확인이 가능합니다.
분석 결과를 보시면 US가 콘텐츠 수가 압도적으로 많은 것을 확인 할 수 있으며 그 뒤는 인도, 영국 등이 뒤따르고 있습니다.
그 다음은 장르입니다.
Xlabel은 장르이고
Ylabel은 갯수인데 제가 잘못기입하였습니다.
그 점을 감안하고나서 본다면 콘텐츠들 중에서 sci-fi fantasy가 가장 많은 것을 확인할 수 있고 Drarma 또한 상당히 많은 것을 확인할 수 있습니다.
이제 이러한 장르를 가진 콘텐츠들을 모아서 Word Cloud를 만들어 볼려고 합니다.
Dictionary 자료구조로 만드는데
key는 장르 이름
value는 콘텐츠들의 설명을 저장한 리스트 입니다.
이렇게 각 장르별로 저장한 콘텐츠들의 리스트를 이용해서 word cloud를 만들 수 있습니다.
Romantic Tv Shows 와 같은 경우는 love , life , find, womon , family 등등의 단어가 가장 크기가 큰 것을 확인할 수 있습니다.
이에 비해서 Crime TV Shows의 Word Cloud를 분석한 결과 Crime , Murder , detective 등등의 단어가 있는 것을 확인할 수 있습니다,.
이로써 Netflix 데이터 분석을 마쳐보고 Part2에서는 Deep Learning을 어떻게 이용할 것인지 이용하기 위한 전처리 등을 정리하도록 하겠습니다.
'Deep Learning' 카테고리의 다른 글
Deep Learning - Netflix 연관 컨텐츠 파악하기 Part3 (0) | 2020.10.06 |
---|---|
Deep Learning - Netflix 연관 컨텐츠 파악하기 Part2 (0) | 2020.10.06 |
Deep Learning - 트위터 감정 분석하기 Part2 (0) | 2020.10.06 |
Deep Learning - 메이크업 노메이크업 구별하기 Part3 (0) | 2020.10.06 |
Deep Learning - 메이크업 노메이크업 구별하기 Part2 (0) | 2020.10.06 |