목록전체 글 (110)
ㅅㅇ
플레이데이터 빅데이터캠프 공부 내용 _ 6/10 Pandas_04 groupby 관련메소드 및 일괄처리 메소드 그룹으로 묶인 애들을 집계말고 다른 처리가 가능하다. 1. filter() DataFrameGroupBy.filter(func, dropna=True, *args, **kwargs) - 처리 대상 : 그룹바이한 데이터프레임. - 목적 : 특정 집계 조건을 만족하는 Group의 행들만 조회한다. 이때, 집계결과가 아닌 조건에 맞는 데이터 자체를 보고 싶은 것. - 방법 (집계처리 비교 함수 만들기 -> filter문 작성) 1. 함수가 호출되면 'DataFrameGroupBy의 group로 한 group씩 DataFrame을 함수의 매개변수로 전달'한다. 2. 함수는 받은 DataFrame을 이용..
1. .read() 전에 해당 데이터를 확인하자. 컬럼이 설정되어 있는지, 어떤 내용이 컬럼명인지 인덱스는 설정되어있지 않는지 쉼표가 구분자인지 결측치 여부 (눈으로 확인이 어렵지만) 2. data/diamonds.csv 를 읽어 DataFrame 생성 3. DataFrame의 정보 조회 - 배열의 shape조회 - info() 컬럼별 데이터 타입, 결측치 - head() 상/하위 5개 행 조회 - tail() - isnull().sum() => 컬럼별 결측치null 체크 (sum() 한번더 하면 총개수) - 컬럼들의 정보조회 - describe() : 숫자형-기술통계값(값들의 범위 ... ), 문자열-총개수, 유니크값(범주값 확인), 최빈값
판다스 데이터 조회에서 query() 를 이용한 boolean indexing 를 할 수 있다. 하지만, 이때 series의 메소드를 이용할 경우 해당 에러가 발생할 수 있다. * 흔히, query() 에서 사용하는 series의 메소드는 다음과 같다. 문자열 부분검색 - 컬럼명.str.contains(문자열) : 문자열을 포함하고 있는 - 컬럼명.str.startswith(문자열) : 문자열로 시작하는 - 컬럼명.str.endswith(문자열) : 문자열로 끝나는 결측치 비교 - Series 의 메소드 사용 - 컬럼.isna(), isnull() - 컬럼.notna(), notnull() 아래의 코드를 실행하고자 하였다. # 결측치 조회- Series의 메소드 사용 df.query("tall.isnul..
아래 코드를 작성하다가 본 오류가 발생하였다. for i in jdays: if cnt < i: break c += 1 jdays.popleft() 오류가 뜨는 이유는 deque가 반복문을 돌릴 때 deque의 내용이 변질되거나 사이즈가 변경될 때 뜨는 오류다. 해결법은 새로 담아주면 된다. (1) list에 담아 리스트로 새로 만들기 for i in list(jdays): if cnt < i: break c += 1 jdays.popleft() (2) copy를 사용하여 복사본으로 사용하기 - 모듈을 import 해줘야 함. import copy import copy for i in copy.deepcopy(jdays): if cnt < i: break c += 1 jdays.popleft()
플레이데이터 빅데이터캠프 공부 내용 _ 6/9 Pandas_03_2 집계 1. 기술통계메소드들을 이용한 데이터 집계 - DataFrame 에 위의 기술 통계 메소드를 적용할 경우 컬럼별로 계산 -> Series 반환 - sum(), mode(), max(), min(), unique(), nunique(), count()는 문자열에 적용가능 - 문자열에서 mode(), unique(), numique(), count()는 중요하지만, - sum() 은 문자열 적용 되지만 무쓸모. - max(), min() 유니코드 기준으로 큰,작은 값 반환한다. - idxmax(), idxmin() 는 문자열 컬럼에 사용할 수 없다. - 큰 , 작은 값을 가진 index를 알고 싶다면, numpy 에서 np.argmax..
플레이데이터 빅데이터캠프 공부 내용 _ 6/9 Pandas_03_1 정렬 1. 정렬 _ index명 / 컬럼명 을 순 정렬 현재 DF의 값이 기준이 아니라, index 와 컬럼 자체를 이름(유니코드)로 정렬하는 것. sort_index(axis, ascending=True) - axis - index명 기준 정렬(행) : 'index' 또는 0 (기본값) - columnm 명 기준 정렬(열) : 'columns' 또는 1 - 컬럼명이 정렬됨. 거의 안 함. - ascending - 정렬방식 - True(기본): 오름차순, False: 내림차순 - inplace - 원본에 적용 여부 - False(기본): 변경한 복사본 반환 - True : 원본을 변경 - 인덱스명 정렬 : 거의 이 용도. # (defau..