AI_STUDY/데이터 분석
데이터 분석 필수 패키지 _ Pandas, Numpy, Matplotlib
SO__OS
2022. 6. 3. 18:44
<데이터 탐색 및 분석>
pandas로 데이터를 탐색, 분석하고 시각화툴(matplotlib, seabone)로 시각화한다.
1. PANDAS 란?
우리는 데이터 처리에서
정형데이터(표형태데이터)를 분석하여 알고 싶은 값을 찾는 과정을 하고 싶을 것이다.
이를 위한 대표적인 툴 패키지가 pandas이다.
참고로 이는 통계가 주목적은 아니다.(통계용 툴은 따로 있다.)
판다스도 사실 넘파이 기반이다.
총 세가지의 데이터 구조를 사용한다.
- 시리즈(Series)
- 데이터프레임(DataFrame)
- 패널(Panel)
pip install pandas
- 시각화tool에는 matplotlib, seabone 등이 있다.
2. 시각화 tool _ matplotlib 이란?
데이터를 차트(chart)나 플롯(plot)으로 시각화하는 패키지이다.
데이터 분석에서 matplotlib은 데이터 분석 이전에 데이터 이해를 위한 시각화나,
데이터 분석 후에 결과를 시각화하기 위해서 사용한다.
pip install matplotlib
3. numpy 이란?
수치 데이터를 다루는 파이썬 패키지이다.
(배열을 이용해 다양한 처리를 하는 라이브러리)
목적은?
- 주로 머신러닝이나 딥러닝이 사용하는 데이터를 넘파이 툴로 만드는 것이 주로 사용된다.
- Numpy의 핵심이라고 불리는 다차원 행렬 자료구조인 ndarray를 통해
벡터 및 행렬을 사용하는 선형 대수 계산에서 주로 사용된다.
장점은?
Numpy는 편의성뿐만 아니라, 속도면에서도 순수 파이썬에 비해 압도적으로 빠르다.
pip install numpy