전체 글
-
멋쟁이 사자처럼 13주차 회고카테고리 없음 2022. 12. 8. 17:45
CNN(Convolutional Neural Networks) CNN 기본 개념 DNN으로 이미지 데이터를 처리한다고 했을 때 데이터를 1차원 벡터 형태로 처리하여 다루기 때문에 인접 공간에 대한 정보를 잃어버리게 되고 입력값이 커져서 계산이 오래 걸리는 단점이 있다. CNN은 이러한 문제점을 보완한 방법이다. CNN은 기본적으로 Convolution과 Pooling의 연속적인 반복으로 구성되어있다. Convolution(filters) => 필터(filters)를 랜덤하게 여러 장 만든다. 각 필터의 사이즈는 kernel_size 로 정함 => 필터를 이미지에 통과시켜서 합성곱 연산을 하여 나온 결과로 특징을 추출한다. => 이러한 패턴을 여러 장 만들어 패턴을 분류하고 피쳐를 추출한다. Pooling..
-
멋쟁이 사자처럼 11주차 회고카테고리 없음 2022. 11. 24. 17:42
혼동행렬 TN(True Negative): 아닌 것을 아니라고 옳게 예측 FN(False Negative): 맞는 것을 아니라고 틀리게 예측 FP(False Positive): 아닌 것을 맞다고 틀리게 예측 TP(True Positive): 맞는 것을 맞다고 옳게 예측 Precision(정밀도) 예측 값(Positive) 중에서 실제로 예측이 Positive인 비율 == 예측값이 얼마나 정확한가 잘못된 Positive 예측을 줄이기 위해 사용 Recall(재현율) 실제 값(True) 중에서 모델이 검출한 실제값의 비율을 나타내는 지표 잘못된 Negative 예측을 줄이기 위해 사용 실제 Positive 양성 데이터를 Negative로 잘못 판단하게 되면 업무상 큰 영향이 발생하는 경우 주로 사용 (암환자..
-
멋쟁이사자처럼 머신러닝 복습 3 (K-MOOC)카테고리 없음 2022. 11. 22. 13:08
K-Nearest Neighbors(KNN) - 가장 다수에 속하는 클래스로 분류해주는 방법 - 거리를 기반으로 하기 때문에 Distance-based model이다. - 개별 instance들에 대해서 특성들을 공유할 것이라는 가정을 기반에 두기 때문에 instance-based learning이라고 표현하기도 한다. - 예시) K가 3일때 이웃들의 Distance을 계산해보고 가장 가까운 3명의 데이터를 선정, 선정된 데이터를 분석했을 때 Class B가 2, Class A가 1이라면 K=3일 때는 Class B로 분류 (다수결로 결정) - K에 따라서 분류 결과가 달라지기 때문에 K가 Hyperparameter가 된다. - K가 크면 클수록 주위에 더 많은 사례들을 보기 때문에 모델이 좀 더 단순하..
-
멋쟁이사자처럼 머신러닝 복습 2 (K-MOOC)카테고리 없음 2022. 11. 21. 17:01
머신러닝 프로세스 및 활용 Supervised Learning(지도학습) - 정답을 알려주면서 학습을 하는 것. Unsupervised Learning - 정답이 없이 학습을 하는 것. Classification(분류) - 출력 값이 강아지, 고양이, 자동차와 같은 범주형 데이터일 경우- 모델 성능 평가 방법으로 예측값이 실제 값과 비교했을 때 몇개가 틀리고 맞았는지를 카운트하여 평균을 내는 방법을 이용할 수 있다. Regression(회귀) - 출력 값이 혈압, 몸무게와 같은 countinuous한 수치형 데이터일 경우 - 모델 성능 평가 방법으로 RMSE, RMSLE, MSE 등과 같은 오차지표를 사용 Validation(검증) - Training error: 학습시키는 데이터 내에서 발생하는 오차 ..
-
멋쟁이사자처럼 머신러닝 복습 1 (K-MOOC)카테고리 없음 2022. 11. 21. 11:28
1. 머신러닝 기본 개념 - 머신러닝은 인공지능을 구현하는 한 가지 방법이다. - 머신러닝은 함수를 학습하는 과정이다. - 알고리즘을 컴퓨터에게 입력을 시켜주면 컴퓨터가 스스로 데이터 안에 있는 유용한 패턴을 찾아서 유용한 함수를 찾아준다. - 딥러닝 기술은 머신러닝의 일종이자 머신러닝의 하위 알고리즘이며 인간의 인지능력, 시각능력, 언어적인 능력 등의 인지능력과 관련된 모델링을 하는 데 있어서 유용하게 사용되는 기술이다. - 머신러닝의 방법에는 딥러닝 뿐 아니라 Linear Regression, K-nearest neighbor, Decision Tree등의 다양한 방법이 존재한다. - 오차를 정의하고 계산해서 더 작은 오차를 내는 최종적인 모델을 결정하는 과정이 머신러닝의 기본 개념이라고 생각하면 된..
-
멋쟁이 사저처럼 10주차 회고카테고리 없음 2022. 11. 17. 17:16
머신러닝 실습 1. one-hot 인코딩 VS ordinary 인코딩 onehot 인코딩 인코딩 전 favorite_drink coffee coke water soda 인코딩 후 favorite_drink_coffee favorite_drink_coke favorite_drink_water favorite_drink_soda 1 0 0 0 0 1 0 0 0 0 1 0 0 0 0 1 ordinary 인코딩 인코딩 전 favorite_drink coffee coke water soda 인코딩 후 favorite_drink 0 1 2 3 2. 다항식 전개 Polynomial Feature는 피쳐의 값들을 [1, a, b, a^2, ab, b^2]로 계산하여 반환 예시) from sklearn.preproces..
-
멋쟁이 사자처럼 9주차 회고카테고리 없음 2022. 11. 10. 16:50
회귀 분석 모델 오차지표 mse: 오차 제곱의 합에 rmse: mse에 루트를 씌워준 형태, 오차가 클수록 가중치를 주게 됨(오차 제곱의 효과) rmsle: rmse에 로그를 적용(자연로그), 오차가 작을수록 가중치를 주게 됨(로그의 효과) - 로그를 취하면 좀 더 정규분포에 가까워지기도 함, 로그를 취했을때 마이너스 값이 나오지 않게 하기 위해 1을 더해준다. - np.log(x+1) = np.log1p(x) msle: mse에 로그를 적용 - from sklearn.metrics import mean_squared_log_error (함수 사용가능) 데이터 전처리 인코딩 one-hot-encoding => pd.get_dummies(), 순서가 없는 데이터에 인코딩 ordinal-encoding =>..
-
멋쟁이 사자처럼 8주차 회고카테고리 없음 2022. 11. 3. 16:41
머신러닝 실습 이번 주는 배웠던 머신러닝에 대해 실습을 위주로 진행되었다. 데이터 전처리 정규화: 숫자 스케일의 차이가 클 때 값을 정규분포로 만들어 주거나 스케일 값을 변경해 주는 것 이상치: 이상치를 제거하거나 대체 결측치 처리 fillna, interpolate 함수를 이용 df.interpolate: 주변 값을 이용하여 결측치 처리 # limit_direction : {{'forward', 'backward', 'both'}} # both 로 지정하면 위 아래 결측치를 모두 채워주고 나머지는 채울 방향을 설정 인코딩 호칭, 탑승지의 위치, 문자 데이터를 수치화, 너무 범위가 큰 수치 데이터를 구간화 해서 인코딩, 모델이 학습할 때 문자를 인식 하지 못해 에러가 발생, 따라서 문자에서 숫자로 바꿔주..