목록AI_STUDY (56)
ㅅㅇ
플레이데이터 빅데이터캠프 공부 내용 _ 7/14 딥러닝 _05_Deep Neural Networks 모델 성능 개선 기법들 0. 성능을 결정하는 요소 => 최적화 - 일반화 학습 !! (과적합 줄이기) 특히, 딥러닝에서는 과대적합을 줄일 수 있어야 한다.!! [ 정확도 와 Loss 중 무엇을 더 중요시 생각해야 할까? ] = > 성능을 비교할 때는 항상 loss가 기준이다. 정확도는 참고사항 그렇다면, 애초에 Accurancy 와 Loss 의 성능의 결과는 왜 일치 하지 않을까? - 정확도는 label 을 기준으로 몇 개 중에 몇 개를 맞췄는 지 보는 것이다. - Loss 는 얼마만큼의 확률로 맞췄는지 보는 것이다. (그저 맞춘 것 뿐만 아니라, 얼마만큼의 오차를 가지고 있는지까지 보는 것.) - 틀리더..
플레이데이터 빅데이터캠프 공부 내용 _ 7/13 딥러닝 _04_tfdata 파이프라인 1. tf.data 모듈 - 데이터 입력 파이프라인을 위한 모듈 : 모델에 입력해줄 데이터를 만드는 파이프라인 => 모델 학습/평가를 위한 대용량 데이터셋을 제공(feeding)하기 위한 모듈 => raw dataset 에서 입력을 위한 전처리, 배치 크기, shuffling 등을 한번에 처리할 수 있게 한다. - tf.data.Dataset 추상클래스에서 상속된 여러가지 클래스들을 제공 - 입력 소스의 제공 형태에 따라 다양한 방식을 제공 - 각 tf.data 함수들은 각 기능에 맞게 데이터를 처리하는 Dataset 객체 를 반환한다. = > 반환되는 Dataset 은 또다른 tf.data 함수의 input 으로 들어..
플레이데이터 빅데이터캠프 공부 내용 _ 7/8 머신러닝 _ 15_로지스틱 회귀 1. 로지스틱 회귀 (LogisticRegression) - ''' Sample이 특정 클래스에 속할 확률을 추정 ''' 하는 모델이다. - 여기서 설명하는 모델은 이항 로지스틱회귀로 선형회귀 알고리즘을 이용한 이진 분류 모델이다. ( ** 다항 로지스틱 회귀, 순서형 로지스틱 회귀) = > 데이터가 어떤 범주에 속할 확률을 0 에서 1 사이의 값으로 예측하고 그 확률에 따라 가능성이 더 높은 범주 ( 사건이 일어나는지 (1) , 일어나지 않는지 (0) ) 에 속하는 것으로 분류 해주는 지도 학습 알고리즘 이다. - 로지스틱 회귀는 선형회귀 기반의 알고리즘임으로 모델링을 위해 데이터 셋들을 선형 회귀 와 같이 전처리 해주어야 ..
플레이데이터 빅데이터캠프 공부 내용 _ 7/8 머신러닝 _ 14_최적화 _ 경사하강법 1. 최적화 (Optimize) = > ' 학습 '에서 모델의 예측한 결과 값과 실제 정답 값의 차이 -- > ' 오차를 계산하는 함수 ' 손실함수 를 만들고 그 오차값이 최소가 되는 지점 그때의 Parameter 를 찾는 작업을 한다. 2. 최적화 문제 - 선형회귀 모델에서 오차는 w 에 영향을 받는데, 둘은 관계가 있는 것이다. - 오차 구하는 함수 f(w) 의 값을 최소화(또는 최대화) 하는 arg 변수 w(파라미터)를 찾는 것. - 예시 그래프 (설명을 위해 우리가 만든 손실함수 f(w) _ 원래는 우리가 만드는게 아니라, 모델이 학습하여 만드는 함수) 아래 그래프와 같이 weigth 에 따라 loss 오차 값이..
플레이데이터 빅데이터캠프 공부 내용 _ 7/7 ~ 7/8 머신러닝 _ 13_02 선형회귀 _ 다항회귀 1. 다항회귀 개요 (Polynomial Regression) : 단순한 직선형 보다 복잡한 비선형의 데이터셋을 학습하기 위한 방식. 1) 방법 : 각 Feature들을 거듭제곱한 것과 Feature들 끼리 곱한 새로운 특성들을 추가한 뒤 선형모델로 훈련시킨다. - 파라미터 가중치를 기준으로는 일차식이 되어 선형모델이다. 파라미터(Coef, weight)들을 기준으로는 N차식이 되어 비선형 데이터를 추론할 수 있는 모델이 된다. = > `PolynomialFeatures` Transformer를 사용해서 변환한다. 2) 목적 : Feature가 너무 적어 y의 값들을 다 표현 하지 못하여 = > unde..