사이킷럿 소개와 특징
파이썬 머신러닝 라이브러리 중 가장 많이 사용되는 라이브러리. 파이썬 기반의 머신러닝을 위한 가장 쉽고 효율적인 개발 라이브러리 제공.
사이킷런의 특징
- 파이썬 기반의 다른 머신러닝 패키지도 사이킷런 스타일의 API를 지향할 정도로 쉽고 가장 파이썬스러운 API 제공
- 머신러닝을 위한 매우 다양한 알고리즘과 개발을 위한 편리한 프레임워크와 API 제공
- 오랜 기간 실전 환경에서 검증됐으며 매우 많은 환경에서 사용되는 성숙한 라이브러리
pip를 이용하여 설치
설치 확인
붓꽃 품종 예측하기
붓꽃 데이터 세트로 붓꽃의 품종을 분류해보기.
train_test_split()의 첫 번째 파라미터인 iris_data는 피처 데이터 세트
두 번째 파라미터인 iris_label은 레이블 데이터 세트
test_size=0.2는 전체 데이터 세트 중 테스트 데이터 세트의 비율
random_state는 호출할 때마다 같은 학습/테스트용 데이터 세트를 생성하기 위해 주어지는 난수 발생값
사이킷런의 의사 결정 트리 클래스인 DecisionTreeClassfier를 객체로 생성
predict() 메서드에 테스트용 피처 데이터 세트를 입력해 호출하면 학습된 모델 기반에서 테스트 데이터 세트에 대한 예측값을 반환
전체 코드
데이터 세트로 분류를 예측한 프로세스 정리
1. 데이터 세트 분리
2. 모델 학습
3. 예측 수행
4. 평가