목록AI_STUDY (56)
ㅅㅇ
플레이데이터 빅데이터캠프 공부 내용 _ 6/29 30 머신러닝 _ 04_데이터 전처리 1. 데이터 전처리 : 모델을 학습시키기 전에 처리시키는 것 = > 학습이 가능한 혹은 학습이 더 잘되도록 dataset 으로 만들어주기 - 공학적 전처리 : 사람들이 연구한 전처리. 항상 일정한 퍼포먼스를 보여줌. 어떤 feature 인지, 어떤 타입인지 등에 따라 전처리 방식이 정해져 있다. - 도메인 지식에 의한 전처리 : 우리가 해결해야 할 업무 즉, 특정 분야에 대한 도메인 지식에 맞는 전처리가 필요하다. 이를 위해 그 분야에 대한 지식을 알아야 전처리를 할 수 있다. 1) 학습이 가능한(무조건해줘야함) : 학습을 못 시키게 하는 값들이 있다. - 머신러닝은 수학 함수 처리이다. 모든 모델은 숫자만을 처리할 수..
플레이데이터 빅데이터캠프 공부 내용 _ 6/28 머신러닝 프로세스 중 데이터 셋 분리에 대해 배울 것이다. 머신러닝 _ 03_데이터셋 나누기와 교차검증 1. 데이터셋(Dataset) - Train 데이터셋 (훈련/학습 데이터셋) : 모델을 학습시킬 때 사용할 데이터셋. - Validation 데이터셋 (검증 데이터셋) : 모델의 성능 중간 검증을 위한 데이터셋. 성능을 높이는 작업에서 쓰이는 데이터 - Test 데이터셋 (평가 데이터셋) : 모델의 성능을 최종적으로 측정하기 위한 데이터셋 Test 데이터 셋은 마지막에 모델의 성능을 측정하는 용도로 한번만 사용되야 한다. = = > 데이터셋을 Train set, Validation set, Test set으로 나눈다. ★ 왜 우리는 데이터 셋을 Train..
플레이데이터 빅데이터캠프 공부 내용 _ 6/27 머신러닝 _ 02 머신러닝분석 - lris 분석 1. Iris DataSet 꽃받침(Sepal)과 꽃잎(Petal)의 길이, 너비 네가지 feature로 Setosa, Versicolor, Virginica 아이리스 세가지 품종 Label 을 분류 - 식물에 대한 전문가가 아닌 프로그래머가 꽃에 대한 규칙을 알기 어렵다. 사람이 직접 찾는 규칙기반에서는 iris 전문가가 필요하다. - 머신러닝은 데이터만으로 컴퓨터가 직접 패턴을 찾는 것이다. - 사실, 머신러닝에서 중요도를 따지면 알고리즘은 20~30%이다. 성능의 차이는 데이터에서 난다. 머신러닝에서는 데이터 전처리가 중요하다. 패턴을 알 수 있는 유의미한 데이터를 구하는 것이 중요. (딥러닝에서는 또 ..
플레이데이터 빅데이터캠프 공부 내용 _ 6/23, 27 머신러닝 _ 01 개요 1. 인공지능 (AI - Artificial Intelligence) 이란 - 지능: 어떤 문제를 해결하기 위한 지적 활동 능력 - 인공지능 - 기계가 사람의 지능을 모방하게 하는 기술 - 규칙기반(사람이 만든 알고리즘), 데이터 학습 기반(기계가 넣은 데이터를 스스로 학습해 알고리즘을) - 머신러닝에서는 데이터를 가지고 기계가 스스로 학습할 수 있는 환경을 우리가 만드는 것이다. 그렇다면 데이터가 바껴도 바뀐 데이터만 주면 알아서. 바뀐 것을 공부할 수 만 있게 하면 된다. (규칙기반은 데이터뿐만 아니라 다 바꿔야 함.) - 기계가 배우는 책과 같은 개념이 데이터이다. 기계는 규칙을 데이터로부터 찾는다 Strong AI vs..
플레이데이터 빅데이터캠프 공부 내용 _ 6/23 numpy _ 04_3 브로드캐스팅 기본적으로, 배열의 연산은 shape이 다르면 error 근데, shape이 다른 애들끼리 연산이 되기 위해 넘파이에서 알아서 shape을 맞춰주는 브로드캐스팅이 있다. 그러나, 다 되는 것은 아니다. 우리는 브로드캐스팅이 가능한 조건을 알아야 한다. 그리고 어떤 식으로 변형이 되고 값이 나올지 알고 있어야 한다. 1. 브로드캐스팅 이란 - 사전적의미 : 퍼트린다. 전파한다. - 형태(shape)가 다른 배열 연산시, 배열의 형태를 맞춰 연산이 가능하도록 한다. - 모든 형태를 다 맞추는 것은 아니고 조건이 맞아야 한다. - 조건 1. 두 배열의 축의 개수가 다르면(차원이 다르면), 작은 축의개수를 가진 배열의 형태(sh..