본문 바로가기
인공지능

인공지능 스터디 #2

by 몰라몰라개복치 2021. 5. 19.

 

 

실습을 위해 https://www.kaggle.com/c/titanic/data?select=train.csv

 

 

Titanic - Machine Learning from Disaster

Start here! Predict survival on the Titanic and get familiar with ML basics

www.kaggle.com

 

 

 

itanic_train.csv란 파일명으로 변경해 내려받음 

 

 

판다스 시작 후 파일을 dataframe으로 로딩하고 위의 정보 3개를 불러오는 과정

이와 같이 모든 dafatfame 내의 데이터는 생성되는 순간 고유의 index 값을 가지게 됨

 

 

 

 

shape변수를 이용하여 행과 열의 크기를 알아볼 수 있음

 

 

 

데이터뿐만 아니라 칼럼의 타입 null 데이터 개수 데이터 분포도 등의 메타 데이터 등도 조회가 가능하다

 

 

info()와 describe() 두 가지 방법이 있음

 

 

 

 

pclass 칼럼의 값이 어떠한 분포로 구성되어 있는지 살펴보는 과정. dataframe의 연산자 내부에 칼럼명을 입력하면 series 형태로 특정 칼럼 데이터 세트가 반환됨

 

이때 value_counts() 메서드를 호출하면 해당 칼럼값의 유형과 건수 확인 가능

 

다음과 같이 series 객체를 반환할 수도 있다

 

 

 

 

pclass의 앞 5개를 추출해보자

 

이때 모든 인덱스는 고유성이 보장되어야 한다

 

 

 

 

dataframe의 칼럼 데이터 세트 생성과 수정

dataframe의 새로운 칼럼 Age_0을 추가하고 일괄적으로 0값을 할당해준 결과다.

 

 

 

 

이번엔 기존 series의 데이터를 이용하여 새로운 칼럼 series를 만들어보자.

 

 

또한 기존 값도 쉽게 일괄적으로 업데이트해줄 수 있다

 

 

dataframe 데이터 삭제

drop() 메소드를 사용함. 그러나 이에 주의가 필요함

axis 0은 로우 방향 축 axis1은 칼럼 방향 축임 기억할 것

 

 

 

 

Age_0, Age_by_10, Family_No 칼럼 모두 삭제해보자

 

 

 

 

axis=0으로 설정해 index 0,1,2 로우를 삭제해보자

 

 

 

 

 

'인공지능' 카테고리의 다른 글

인공지능: CNN, RNN, LSTM  (0) 2021.08.06
인공지능 스터디 #3  (0) 2021.05.19
openpose 사용 환경 설정  (0) 2021.05.19
인공지능 5주차  (0) 2021.02.08
인공지능 4주차  (0) 2021.02.01