본문 바로가기
Develope_ML/03_Kaggle

단국대 2020 캐글 뽀개기 3강 Pandas

by 스타트업_디벨로퍼 2020. 12. 19.

02_Pandas 소개 ->  설치 완료 Panel Datas 

 

03_Pandas 데모

Pandas 데모 - Explarotary Data Analysis

-> autoreload는 새로운 라이브러리 설치해도, 기존 노트북에서 사용가능하게 해준다!!!! 

-> matplotlib inline은 안에서 보여지게 된다!!! 

-> 기본은 이렇게 설정하자!! 

 

더보기

numpy는 사칙 연산

seaborn -> 시각화, 그래프 좋은 거 만들 때 주로 쓴다.

warnings -> 경고 문구 없앨 수 있다.

rcParams['figure.figsize'] = (16, 8)
plt.style.use('fivethirtyeight')
pd.set_option('max_columns', 100)
pd.set_option("display.precision", 4)
warnings.simplefilter('ignore')

: 사이즈 설정하고 있다. 스타일은 옵션,크기는 100개에 소수점 4개, 경고는 무시! 

 

데이터 다운로드

!ls -alF ../input/

 데이터 확인함 

data_dir = Path('../input/')
trn_file = data_dir / 'train.csv'
tst_file = data_dir / 'test.csv'
feature_file = data_dir / 'feature.csv'
seed = 42

 

디렉토리 설정하였음. 

 

EDA

학습데이터 로드

trn = pd.read_csv(trn_file, index_col=0)
print(trn.shape)
trn.head()

 

ID를 인덱스로 설정하였음. 전체크기를 보여주고, 첫 5행을 보여주고 있음.  -> 클래스가 가장 큰 핵심임 

trn.tail()

 이거는 끝을 보여주고 있음.

 

데이터 개요

trn.describe()

이것은 데이터 전체를 요약해서 보여준다. 

trn.dtypes

종속 변수

대부분 0에서 1사이에 잇다

대부분은 14에서 20 사이에 있음.

 

0보다 작은 값을 보고 싶을땐 위와 같이 볼수 있따.

i는 d와 다르게 0보다 작은게 더 많다!! 

 

-> 위와 같이 다섯개의 변인들이 연관 관계를 갖는 것을 알 수가 있다. 

-> 다섯 변인이 유사하다느 것을 느낄수도 있다. 

 

클래스라는 그룹으로 각 칼럼별로 나눌 수 있다. -> 매우 유용하다!! 

행과 열 바꿔서도 시각화를 보여줄 수 있다!! 

concat 은 결합하는 것이다! 

 

결측값 넣을 수 있따.

로그 넣어서 더욱 명확히 구분할 수 있따. log(1+a)하는 것이다!

 

새로운 피처 생성 가능 

상관 계수 확인하기!! 

데이터를 삭제가 가능하다!! 

 

반응형