ㅅㅇ

데이터셋 read시 루틴 본문

AI_STUDY/Pandas

데이터셋 read시 루틴

SO__OS 2022. 6. 10. 09:26

1. .read() 전에 해당 데이터를 확인하자.

컬럼이 설정되어 있는지, 어떤 내용이 컬럼명인지
인덱스는 설정되어있지 않는지
쉼표가 구분자인지
결측치 여부 (눈으로 확인이 어렵지만)

 

2. data/diamonds.csv 를 읽어 DataFrame 생성
3. DataFrame의 정보 조회
    - 배열의 shape조회
    - info()    컬럼별 데이터 타입, 결측치 
    - head() 상/하위 5개 행 조회
    - tail()
    - isnull().sum() => 컬럼별 결측치null 체크 (sum() 한번더 하면 총개수)

    - 컬럼들의 정보조회
    - describe() : 숫자형-기술통계값(값들의 범위 ... ),       문자열-총개수, 유니크값(범주값 확인), 최빈값