실습을 위해 https://www.kaggle.com/c/titanic/data?select=train.csv
itanic_train.csv란 파일명으로 변경해 내려받음
판다스 시작 후 파일을 dataframe으로 로딩하고 위의 정보 3개를 불러오는 과정
이와 같이 모든 dafatfame 내의 데이터는 생성되는 순간 고유의 index 값을 가지게 됨
shape변수를 이용하여 행과 열의 크기를 알아볼 수 있음
데이터뿐만 아니라 칼럼의 타입 null 데이터 개수 데이터 분포도 등의 메타 데이터 등도 조회가 가능하다
info()와 describe() 두 가지 방법이 있음
pclass 칼럼의 값이 어떠한 분포로 구성되어 있는지 살펴보는 과정. dataframe의 연산자 내부에 칼럼명을 입력하면 series 형태로 특정 칼럼 데이터 세트가 반환됨
이때 value_counts() 메서드를 호출하면 해당 칼럼값의 유형과 건수 확인 가능
다음과 같이 series 객체를 반환할 수도 있다
pclass의 앞 5개를 추출해보자
이때 모든 인덱스는 고유성이 보장되어야 한다
dataframe의 칼럼 데이터 세트 생성과 수정
dataframe의 새로운 칼럼 Age_0을 추가하고 일괄적으로 0값을 할당해준 결과다.
이번엔 기존 series의 데이터를 이용하여 새로운 칼럼 series를 만들어보자.
또한 기존 값도 쉽게 일괄적으로 업데이트해줄 수 있다
dataframe 데이터 삭제
drop() 메소드를 사용함. 그러나 이에 주의가 필요함
axis 0은 로우 방향 축 axis1은 칼럼 방향 축임 기억할 것
Age_0, Age_by_10, Family_No 칼럼 모두 삭제해보자
axis=0으로 설정해 index 0,1,2 로우를 삭제해보자
'인공지능' 카테고리의 다른 글
인공지능: CNN, RNN, LSTM (0) | 2021.08.06 |
---|---|
인공지능 스터디 #3 (0) | 2021.05.19 |
openpose 사용 환경 설정 (0) | 2021.05.19 |
인공지능 5주차 (0) | 2021.02.08 |
인공지능 4주차 (0) | 2021.02.01 |