Machine Learning

Machine Learning - Logistic Regression 연봉 예측하기 Part3

electronicprogrammer 2020. 10. 5. 18:03

데이터 출처 : www.kaggle.com/lodetomasi1995/income-classification

 

Income classification

Prediction task is to determine whether a person makes over 50K a year.

www.kaggle.com

Ipynb File : github.com/sangHa0411/DataScience/blob/main/Income_Prediction_Part2.ipynb

 

sangHa0411/DataScience

Contribute to sangHa0411/DataScience development by creating an account on GitHub.

github.com

 

Part2 에서는 Logistic Regression 에 대해서 알아보고 이를 구현해보았습니다. 

Part3 에서는 Scikit - Learn에 있는 Logistic Regression 함수를 이용해보는 방법을 살펴보겠습니다.

 

Part1 에서 데이터 분석을 마치고 

Part2에서 특성 선택 및 데이터 전처리를 마쳤습니다.

 

이제 이를 Scikit learn 의 LogisticRegression 을이용해서 학습 및 예측할 것입니다.

먼저 훈련 데이터로 Logistic Regression 을 학습시킬 것입니다.

그리고 이를 이용해서 테스트 데이터를 예측하고 이를 정답과 비교해서 성능을 측정해보겠습니다.

성능 측정해본 결과 실제 Income 이 50k가 넘는 경우 이를 예측에 성공하는 확률은 대략 46%이지만 Income이 50k가 안되는데 50k가 넘는다고 예측한는 경우는 5%정도로 낮은 것을 확인할 수 있습니다.

 

전체적인 정확도는 대략 83% 인 것을 확인할 수 있습니다.