인공지능 스터디 #2

Titanic - Machine Learning from Disaster

Start here! Predict survival on the Titanic and get familiar with ML basics

www.kaggle.com

itanic_train.csv란 파일명으로 변경해 내려받음

판다스 시작 후 파일을 dataframe으로 로딩하고 위의 정보 3개를 불러오는 과정

이와 같이 모든 dafatfame 내의 데이터는 생성되는 순간 고유의 index 값을 가지게 됨

shape변수를 이용하여 행과 열의 크기를 알아볼 수 있음

데이터뿐만 아니라 칼럼의 타입 null 데이터 개수 데이터 분포도 등의 메타 데이터 등도 조회가 가능하다

info()와 describe() 두 가지 방법이 있음

pclass 칼럼의 값이 어떠한 분포로 구성되어 있는지 살펴보는 과정. dataframe의 연산자 내부에 칼럼명을 입력하면 series 형태로 특정 칼럼 데이터 세트가 반환됨

이때 value_counts() 메서드를 호출하면 해당 칼럼값의 유형과 건수 확인 가능

다음과 같이 series 객체를 반환할 수도 있다

pclass의 앞 5개를 추출해보자

이때 모든 인덱스는 고유성이 보장되어야 한다

dataframe의 칼럼 데이터 세트 생성과 수정

dataframe의 새로운 칼럼 Age_0을 추가하고 일괄적으로 0값을 할당해준 결과다.

이번엔 기존 series의 데이터를 이용하여 새로운 칼럼 series를 만들어보자.

또한 기존 값도 쉽게 일괄적으로 업데이트해줄 수 있다

dataframe 데이터 삭제

drop() 메소드를 사용함. 그러나 이에 주의가 필요함

axis 0은 로우 방향 축 axis1은 칼럼 방향 축임 기억할 것

Age_0, Age_by_10, Family_No 칼럼 모두 삭제해보자

axis=0으로 설정해 index 0,1,2 로우를 삭제해보자

몰라몰라개복치