ㅅㅇ

데이터 분석 목적 별 쓰이는 분석, 그래프 정리 (작성ing) 본문

AI_STUDY/데이터 분석

데이터 분석 목적 별 쓰이는 분석, 그래프 정리 (작성ing)

SO__OS 2022. 6. 21. 02:31

<데이터 별 적합한 기술적 통계 및 분석>

 

# 어떤 컬럼이 있을 때, 고유값의 개수를 확인하고 싶을 때 - > s.count()

# 어떤 컬럼이 있을 때 , 결측치의 개수를 확인하고 싶을 때 - > s.isnull().sum()

# 어떤 데이터프레임 컬럼 별, 결측치의 개수를 확인하고 싶을 때 - > df.isnull().sum()   :   컬럼별 결측치 개수를 series로

    

# 어떤 범주형 컬럼이 있을 때, 가장 많은 빈도를 차지 하는 것.- > s6.mode() : series로 반환
# 어떤 범주형 컬럼이 있을 때, 범주 별 갯수 -> value.counts()
# 어떤 범주형 컬럼이 있을 때, 범주 별 비율 -> value.counts(normalize = True)

# 어떤 범주형 컬럼이 있을 때, 기술통계량 - > s.describe(include=['object'])

 

# 어떤 실수형 컬럼이 있을 때, 의미를 대표하는 값  이상치 없을 때 - > s.mean() 

# 어떤 실수형 컬럼이 있을 때, 의미를 대표하는 값  이상치 없을 때 - >  s.median()

# 어떤 실수형 컬럼이 있을 때, 분포를 알기 위해서  - > s.std()     s.var()

# 어떤 실수형 컬럼이 있을 때, 이상치 알기 위해서 - > s.quantile(q = [0.25,0.5,0.75])   4 분위수 / IQR (중앙의  50%)

# 어떤 실수형 컬럼이 있을 때, 기술통계량 - > s.describe()

 

 

< 데이터 확인 & 전처리 >

# 데이터 프레임 결측치 유무를 체크하기 - > 변경, 제거 

# 데이터 프레임 데이터 타입 체크하기 - > 용량, datatime 등 이유로 - > df['컬럼명'] = df['컬럼명'].astype('바꿀데이터타입')

 

 

< 컬럼 행 조회 >

 

# 컬럼 조회  - > df['컬럼명']    // 열은 무조건 컬럼명.  / 순번, 슬라이싱 안됨 

# 행 조회  - > df.loc['인덱스명']     df.iloc[순번]

 

# 값 조회 - > df.loc['인덱스명', '컬럼명']        df.iloc[순번, 순번]

                - > df.loc['인덱스명'] ['컬럼명']

 

# 여러 인덱스, 여러 컬럼명 -  >   Fancy indexing  무조건 중첩 리스트 - > DataFrame 로 반환.

 

# 순번 슬라이싱 대괄호 - >  행 조회 : df[3:5]     3,4 행 조회

# 순번 슬라이싱으로 컬럼 조회하려면  - >    df[df.columns[1:5]]      1 ~ 4 열 조회