목록AI_STUDY/Pandas (12)
ㅅㅇ
.nlargest(n, keep = 'first') .nsmallest(n, columns, keep='first') - series 와 dataframe 둘 다 가능 (1) Series S.nlargest(n, keep= 'first') S.nsmallest(n, keep='first') (2) DataFrame df.nlargest(n, columns, keep= 'first') df.nsmallest(n, columns, keep='first') - n : 상위 n 개의 data를 / 하위 n 개의 data를 - columns : 기준이 될 컬럼. 여러 컬럼도 가능 - keep = first : 동등한 값이 있다면 제일 먼저 나온 위부터 값을 보여준다. = last : 동등한 값이 있다면 아래에서부..
플레이데이터 빅데이터캠프 공부 내용 _ Pandas_06_DataFrame_재구조화 전처리 (TIDY DATE(data set 정제), 결측치 제거 ... 이 작업이 머신러닝의 70~80%) --- >> 모델링 1. 정돈된 데이터 (Tidy Data) 개요 대부분 실행환경에서의 많은 데이터 셋은 세부적 분석을 작업을 하기 전에 상당한 양의 데이터 재구성을 할 필요가 있다. 경우에 따라서는 전체 프로젝트 자체가 오로지 다른 사람들이 가공하기 쉬운 형태로 데이터를 재구성하는 일일 때도 있다. 데이터 재구성의 목적은 정돈된 데이터 tidy data를 만드는 것이다. tidy data란 용어는 해들리 위컴이 분석이 용이한 형태로 구성되 있는 데이터셋을 설명하기 위해 만든 용어이다. 1.1 정돈된 데이터란? - ..
플레이데이터 빅데이터캠프 공부 내용 _ 6/10 Pandas_04 groupby 관련메소드 및 일괄처리 메소드 그룹으로 묶인 애들을 집계말고 다른 처리가 가능하다. 1. filter() DataFrameGroupBy.filter(func, dropna=True, *args, **kwargs) - 처리 대상 : 그룹바이한 데이터프레임. - 목적 : 특정 집계 조건을 만족하는 Group의 행들만 조회한다. 이때, 집계결과가 아닌 조건에 맞는 데이터 자체를 보고 싶은 것. - 방법 (집계처리 비교 함수 만들기 -> filter문 작성) 1. 함수가 호출되면 'DataFrameGroupBy의 group로 한 group씩 DataFrame을 함수의 매개변수로 전달'한다. 2. 함수는 받은 DataFrame을 이용..
1. .read() 전에 해당 데이터를 확인하자. 컬럼이 설정되어 있는지, 어떤 내용이 컬럼명인지 인덱스는 설정되어있지 않는지 쉼표가 구분자인지 결측치 여부 (눈으로 확인이 어렵지만) 2. data/diamonds.csv 를 읽어 DataFrame 생성 3. DataFrame의 정보 조회 - 배열의 shape조회 - info() 컬럼별 데이터 타입, 결측치 - head() 상/하위 5개 행 조회 - tail() - isnull().sum() => 컬럼별 결측치null 체크 (sum() 한번더 하면 총개수) - 컬럼들의 정보조회 - describe() : 숫자형-기술통계값(값들의 범위 ... ), 문자열-총개수, 유니크값(범주값 확인), 최빈값
플레이데이터 빅데이터캠프 공부 내용 _ 6/9 Pandas_03_2 집계 1. 기술통계메소드들을 이용한 데이터 집계 - DataFrame 에 위의 기술 통계 메소드를 적용할 경우 컬럼별로 계산 -> Series 반환 - sum(), mode(), max(), min(), unique(), nunique(), count()는 문자열에 적용가능 - 문자열에서 mode(), unique(), numique(), count()는 중요하지만, - sum() 은 문자열 적용 되지만 무쓸모. - max(), min() 유니코드 기준으로 큰,작은 값 반환한다. - idxmax(), idxmin() 는 문자열 컬럼에 사용할 수 없다. - 큰 , 작은 값을 가진 index를 알고 싶다면, numpy 에서 np.argmax..