목록AI_STUDY (56)
ㅅㅇ
플레이데이터 빅데이터캠프 공부 내용 _ 6/15 Pandas_ 01 Matplotlib 개요 & 그리는 법 및 설정 데이터의 시각화를 위한 파이썬 패키지 2차원 그래프를 위한 패키지이나, 확장 API들을 이용해 3D 그래프등 다양한 형식의 시각화를 지원 우리는 2차원 그래프를 다룰 것이다. => 두 개의 변수로 두 개의 축을 가진 그래프를 그림 파이썬 기반의 다른 시각화 패키지의 기본이 된다. Seaborn, Pandas 등이 Matplotlib를 기반으로 사용한다. 장점 동작하는 OS를 가리지 않는다. MATLAB과 유사한 사용자 인터페이스를 가진다. 그래프에 대한 상세한 설정을 할 수 있다. 다양한 출력 형식으로 저장할 수 있다. https://matplotlib.org Matplotlib — Vis..
플레이데이터 빅데이터캠프 공부 내용 _ Pandas_06_DataFrame_재구조화 전처리 (TIDY DATE(data set 정제), 결측치 제거 ... 이 작업이 머신러닝의 70~80%) --- >> 모델링 1. 정돈된 데이터 (Tidy Data) 개요 대부분 실행환경에서의 많은 데이터 셋은 세부적 분석을 작업을 하기 전에 상당한 양의 데이터 재구성을 할 필요가 있다. 경우에 따라서는 전체 프로젝트 자체가 오로지 다른 사람들이 가공하기 쉬운 형태로 데이터를 재구성하는 일일 때도 있다. 데이터 재구성의 목적은 정돈된 데이터 tidy data를 만드는 것이다. tidy data란 용어는 해들리 위컴이 분석이 용이한 형태로 구성되 있는 데이터셋을 설명하기 위해 만든 용어이다. 1.1 정돈된 데이터란? - ..
플레이데이터 빅데이터캠프 공부 내용 _ 6/14 Pandas_ 00 한글처리 matplotlib에 설정되있는 폰트가 한글을 지원하지 않기 때문에 그래프의 한글이 깨져서 나온다. 1. 설정파일을 변경한다. - 현 가상환경 내 한번만 하면 된다. 2. 프로그램상에서 변경한다. - 프로그램이 로딩 될때마다 (노트북 파일이나 파이썬 스크립트 실행시마다) 코드를 실행해야 한다. - 전체 설정에서 변경하고 싶은 것을 재설정한다. - 한글 설정은 보통 1번으로 한다. - 그 외 다른 설정이 현재 실행중인 프로그램에서만 필요할 때는 2번 - import matplotlib & matplotlib.font_manager !pip show matplotlib # 설치 import matplotlib as ..
플레이데이터 빅데이터캠프 공부 내용 _ 6/10 Pandas_04 groupby 관련메소드 및 일괄처리 메소드 그룹으로 묶인 애들을 집계말고 다른 처리가 가능하다. 1. filter() DataFrameGroupBy.filter(func, dropna=True, *args, **kwargs) - 처리 대상 : 그룹바이한 데이터프레임. - 목적 : 특정 집계 조건을 만족하는 Group의 행들만 조회한다. 이때, 집계결과가 아닌 조건에 맞는 데이터 자체를 보고 싶은 것. - 방법 (집계처리 비교 함수 만들기 -> filter문 작성) 1. 함수가 호출되면 'DataFrameGroupBy의 group로 한 group씩 DataFrame을 함수의 매개변수로 전달'한다. 2. 함수는 받은 DataFrame을 이용..
1. .read() 전에 해당 데이터를 확인하자. 컬럼이 설정되어 있는지, 어떤 내용이 컬럼명인지 인덱스는 설정되어있지 않는지 쉼표가 구분자인지 결측치 여부 (눈으로 확인이 어렵지만) 2. data/diamonds.csv 를 읽어 DataFrame 생성 3. DataFrame의 정보 조회 - 배열의 shape조회 - info() 컬럼별 데이터 타입, 결측치 - head() 상/하위 5개 행 조회 - tail() - isnull().sum() => 컬럼별 결측치null 체크 (sum() 한번더 하면 총개수) - 컬럼들의 정보조회 - describe() : 숫자형-기술통계값(값들의 범위 ... ), 문자열-총개수, 유니크값(범주값 확인), 최빈값