Ensemble Learning(앙상블 학습)
·
DataScience
개념1. Ensemble Learning 정의앙상블 학습: 여러 개의 모델(Base Learners)의 결과를 결합하여 정확한 예측을 수행하는 기법.목표: 단일 모델보다 더 좋은 성능을 얻는 것.적용 범위: 지도학습(Supervised Learning) 에만 적용 가능 (예: 분류, 회귀)비지도학습(예: 군집화)에는 사용 불가2. 기본 용어Base Learner (기초 학습기): 단독으로도 사용 가능한 기본 모델 (예: 의사결정트리, KNN 등)Ensemble Learner (앙상블 모델): 여러 base learner들의 출력을 조합해 만든 모델3. Ensemble Learning 작동 원리여러 데이터셋 생성 (D₁, D₂, ..., Dₜ)여러 base classifier 학습 (C₁, C₂, ...,..
분류 모델 평가 (Classification Metrix) - confusion matrix,Roc
·
DataScience
Confusion Matrix Confusion Matrix란 분류 모델이 예측 결과를 표로 나타낸 것으로 실제 값과 예측 값의 조합으로 성능을 파악한다.2클래스 (binary) 뿐만 아니라 Multi class에서도 적용이 가능하다. 기본 형태 (이진 분류) 지표 활용1. Precision (정밀도)정확성 (Exactness)의 척도로서 False Positive를 줄이는데 중점을 둔다.positive라고 예측했지만 실제로는 아닌것 ex) 스팸 필터 : 스팸메시지라고 예측했지만 실제로 아닌것을 스팸으로 잘못 분류하면 불편함 광고 타겟팅 :관심있는 사람이라고 예측했지만 실제로 관심이 없는사람에게 광고를 보내는 것을 줄일때 2. Recall (재현율)포괄성(Completeness)의 척도로서 False..
회귀 모델 평가 (Regression Metrics)
·
DataScience
회귀는 연속적인 값을 예측하는 모델로 예측값과 실제값의 오차를 계산해 성능을 측정한다.오차 기반의 손실 함수(loss function)의 값이 낮을 수록 좋은 회귀 모델이라고 할 수 있다. 1. MSE (Mean Squared Error)회귀 모델의 성능을 평가할 때 가장 널리 사용하는 지표 중 하나이다.예측값과 실제값의 차이를 제곱하여 평균한 값을 의미한다. 오차를 제곱하기 때문에, 큰 오차에 더 민감하게 반응한다. -> 이상치(outlier)에 민감하다. 2. RMSE (Root Mean Squared Error)MSE의 제곱근을 취한 값으로 실제값과 예측값의 차이를 원래 단위로 표현할 수 있어서 MSE에 비해 해석이 더 쉽다.하지만 마찬가지로 제곱 기반이기 때문에 outlier에 민감하다. 3..
Hyper parameter란
·
DataScience
하이퍼 파라미터는 머신러닝 모델이 학습되기 전에 사람이 설정해야 하는 값들을 의미한다. KNN 에서의 n_neighbors (이웃의 수) 혹은 Decision Tree의 max_depth 등등 모델이 스스로 학습하는 값이 아닌 직접 지정하거나 자동 탐색으로 찾아야 하는 값이다. 하이퍼파라미터에 따라 모델 성능이 크게 달라지므로 최적화가 필요하다.
Data evaluation Method (평가 방법)
·
DataScience
다양한 예측 모델은 항상 오류가 존재한다. 실생활에서 존재하는 모든 데이터를 분석할 수는 없기에 전체 모집단 중 일부 샘플 데이터로 모델을 학습하게 되는데 여기서 오류가 발생하게 된다. x라는 features와 y라는 target 을 가진 데이터셋이 있을 때, y를 예측하는 모델 f(x)가 있다고 가정해보자D라는 트레이닝 샘플을 선택하고 그에 해당하는 모델은 fd(x)라고 할 수 있다. Bias는 여러 학습 데이터셋으로 학습한 모델의 평균 예측값과 실제값의 차이를 의미한다. 너무 단순한 모델을 사용하면 bias가 증가한다. -> Underfitting Variance는 모델이 데이터에 민감하는 반응하는 정도를 의미한다. 너무 복잡한 모델을 사용하면 Variance가 증가한다. 학습데이터에는 잘 맞지만..
clustering 알고리즘 k-means vs Hac
·
DataScience
Clustering 이란? Clustering이란 데이터를 비슷한 속성을 가진 그룹으로 나누는 비지도 학습기법이다. K-means Clustering k-means는 데이터를 미리 지정한 k개의 클러스터로 나누고 각, 클러스터의 중심점 (Centroid)을 기준으로 데이터를 반복적으로 재배치 하면서 군집을 형성하는 알고리즘이다. 초기 중심점 선택에 따라 결과가 달라질 수 있다. 동작 방식초기화 : 클러스터 수 K를 정하고 무작위로 k개의 중심점을 선택한다.클러스터 할당 : 각 데이터를 가장 가까운 중심점에 할당한다.중심점 재계산 : 각 클러스터 내 데이터의 평균값으로 중심점을 갱신한다.반복 : 중심점이 바뀌지 않을 때 까지 반복한다. 동작 예제 1. 초기화 : 위와 같은 예시에서 k=2이고 1,4번..
k-nearest Neighbors(k-NN)이란
·
DataScience
개념훈련 데이터를 저장해두고 새로운 데이터가 들어왔을 때 가장 가까운 k개의 이웃을 참조하여 분류 또는 예측하는 알고리즘이다.새로운 데이터에 대한 예측은 다수결(classification) 혹은 평균(regression)으로 결정된다. 과정 k-NN은 학습 과정이 따로 없이 예측 시점에 계산을 수행한다. 예측 과정 새로운 샘플에 대해 모든 학습 데이터와의 거리 계산가장 가까운 K개 이웃 선택분류 문제인 경우:K개의 클래스 중에서 다수결로 클래스 결정회귀 문제인 경우:K개의 타깃 값의 평균/중앙값으로 예측하이퍼파라미터(K)의 선택 방법k=1 이면 노이즈에 취약하다. k가 증가할수록 부드러워지지만, 너무 크면 과소적합이 발생한다. 보통 동점 방지를 위해 (3,5,7)등 홀수를 사용하며 교차 검증으로 k를..
Decision Tree란?
·
DataScience
개념Decision Tree는 데이터를 분류하거나 회귀 분석하는 데 사용하는 트리 구조 기반의 예측 모델이다. 1. 분류(Classification) 목적의 Decision Tree 입력 데이터를 분류(classify)하여 특정 클래스(label)를 예측하는 모델ex) Refund, Matrial Status, Taxable Income 속성을 의사 결정 기준으로 하여 Cheat를 예측 Training Data Decision Tree (속성을 나누는 기준에 따라 여러 가지 형태로 만들 수 있다. ) Test Data Decision Tree의 구조를 따라가며 Cheat를 예측한다. 위의 2가지 Decision Tree에서는 동일하게 Cheat의 값이 No이다. 2. Regression 목적..
-->
loading