목록AI_STUDY (56)
ㅅㅇ
.nlargest(n, keep = 'first') .nsmallest(n, columns, keep='first') - series 와 dataframe 둘 다 가능 (1) Series S.nlargest(n, keep= 'first') S.nsmallest(n, keep='first') (2) DataFrame df.nlargest(n, columns, keep= 'first') df.nsmallest(n, columns, keep='first') - n : 상위 n 개의 data를 / 하위 n 개의 data를 - columns : 기준이 될 컬럼. 여러 컬럼도 가능 - keep = first : 동등한 값이 있다면 제일 먼저 나온 위부터 값을 보여준다. = last : 동등한 값이 있다면 아래에서부..
플레이데이터 빅데이터캠프 공부 내용 _ 6/21 numpy _ 01_1 개요 1. numpy 이란? - http://www.numpy.org - Numerical Python (숫자 다루는 파이썬) - 벡터, 행렬 연산을 위한 수치해석용 파이썬 라이브러리 - 강력한 다차원 배열(array) 지원 - 빠른 수치 계산을 위한 structured array, 벡터화 연산, 브로드캐스팅 기법등을 통한 다차원 배열과 행렬연산에 필요한 다양한 함수를 제공한다. - 파이썬 List 보다 더 많은 데이터를 더 빠르게 처리 - 많은 과학 연산 라이브러리들이 Numpy를 기반으로 한다. - > numpy 가 중요한 이유 - scipy, matplotlib, pandas, scikit-learn, statsmodels등 -..
# 어떤 컬럼이 있을 때, 고유값의 개수를 확인하고 싶을 때 - > s.count() # 어떤 컬럼이 있을 때 , 결측치의 개수를 확인하고 싶을 때 - > s.isnull().sum() # 어떤 데이터프레임 컬럼 별, 결측치의 개수를 확인하고 싶을 때 - > df.isnull().sum() : 컬럼별 결측치 개수를 series로 # 어떤 범주형 컬럼이 있을 때, 가장 많은 빈도를 차지 하는 것.- > s6.mode() : series로 반환 # 어떤 범주형 컬럼이 있을 때, 범주 별 갯수 -> value.counts() # 어떤 범주형 컬럼이 있을 때, 범주 별 비율 -> value.counts(normalize = True) # 어떤 범주형 컬럼이 있을 때, 기술통계량 - > s.describe(inc..
플레이데이터 빅데이터캠프 공부 내용 _ 6/16 Seaborn _ 데이터 시각화 1. Seaborn 이란? - matplotlib을 기반으로 다양한 테마와 그래프를 제공하는 파이썬 시각화 패키지. - 장점 : 시각적으로 좋다. matplotlib 보다 dataframe과 연동 사용이 편하다 - 설치: 아나콘다에는 포함되있다. pip install seaborn conda install seaborn http://seaborn.pydata.org/ seaborn: statistical data visualization — seaborn 0.11.2 documentation Seaborn is a Python data visualization library based on matplotlib. It prov..
플레이데이터 빅데이터캠프 공부 내용 _ 6/16 Pandas_ 02_6 각종 그래프 그리기 _ 상자그래프(Boxplot) 1. 상자그래프(Boxplot) - 연속형 값들의 분포, 이상치(극단값) 를 확인할 때 사용 - 값들의 중간값(중위수), 사분위수, 최대/최소값을 보여주어 값들의 분포를 확인 할때 사용한다. - Boxplot 으로 알 수 있는 것 - 이상치(극단값)을 파악할 수 있다. - > 있다면, 정규분포는 아니라는 것을 알 수 있다. - 정상적인 값들(이상치가 아닌)의 범위를 파악할 수 있다. - 사분위수를 알 수 있다. (ex.상위 25%, 하위 25% 등) - boxplot( x, whis=1.5 ) - x: 데이터셋 - whis: 극단치 계산시 사용할 값(기본 1.5) - 극단치 : 1사분..