MANDU

머신러닝을 위한 파이썬 part 2

들어가며

첫 번째 여정에서 파이썬 머신러닝 생태계의 기초를 다졌다면, 이번에는 실제 예측과 분류 모델을 만들어보는 시간입니다. 선형 회귀부터 로지스틱 회귀까지, 데이터로부터 패턴을 찾아 미래를 예측하는 마법을 배워보겠습니다!

1. 선형 회귀: 예측의 시작

1.1 선형 회귀의 개념

선형 회귀는 가장 기본적이면서도 강력한 예측 모델이다. 독립변수와 종속변수 간의 선형 관계를 찾아 미래 값을 예측한다.

PYTHON

import numpy as np
import pandas as pd
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, r2_score

# 데이터 준비
X = np.random.rand(100, 1) * 10
y = 2 * X + 1 + np.random.randn(100, 1) * 0.5

# 모델 학습
model = LinearRegression()
model.fit(X, y)

# 예측
y_pred = model.predict(X)
print(f"계수: {model.coef_[0][0]:.2f}")
print(f"절편: {model.intercept_[0]:.2f}")

1.2 다중 선형 회귀

실제 문제에서는 여러 변수가 복합적으로 작용한다. 다중 선형 회귀로 복잡한 패턴을 찾아보자.

PYTHON

# 다중 변수 데이터
X_multi = np.random.rand(100, 3) * 10
y_multi = 2*X_multi[:, 0] + 1.5*X_multi[:, 1] - 0.5*X_multi[:, 2] + np.random.randn(100) * 0.5

# 다중 선형 회귀
model_multi = LinearRegression()
model_multi.fit(X_multi, y_multi)

# 변수 중요도 확인
for i, coef in enumerate(model_multi.coef_):
    print(f"변수 {i+1} 계수: {coef:.2f}")

2. 로지스틱 회귀: 분류의 기초

2.1 이진 분류

로지스틱 회귀는 연속적인 확률을 이진 분류로 변환하는 강력한 도구다.

PYTHON

from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report, confusion_matrix

# 이진 분류 데이터 생성
X_binary = np.random.randn(200, 2)
y_binary = (X_binary[:, 0] + X_binary[:, 1] > 0).astype(int)

# 로지스틱 회귀 모델
logistic_model = LogisticRegression()
logistic_model.fit(X_binary, y_binary)

# 예측 및 평가
y_pred_binary = logistic_model.predict(X_binary)
print(classification_report(y_binary, y_pred_binary))

2.2 다중 분류

세 개 이상의 클래스를 분류할 때는 다중 클래스 로지스틱 회귀를 사용한다.

PYTHON

from sklearn.datasets import make_classification
from sklearn.multiclass import OneVsRestClassifier

# 다중 클래스 데이터
X_multi_class, y_multi_class = make_classification(
    n_samples=300, n_features=4, n_classes=3, n_clusters_per_class=1
)

# 다중 클래스 로지스틱 회귀
multi_logistic = LogisticRegression(multi_class='ovr')
multi_logistic.fit(X_multi_class, y_multi_class)

# 예측
y_pred_multi = multi_logistic.predict(X_multi_class)
print(classification_report(y_multi_class, y_pred_multi))

3. 모델 평가와 검증

3.1 교차 검증

과적합을 방지하고 모델의 일반화 성능을 평가하는 교차 검증을 실습해보자.

PYTHON

from sklearn.model_selection import cross_val_score, KFold

# K-Fold 교차 검증
kfold = KFold(n_splits=5, shuffle=True, random_state=42)
scores = cross_val_score(logistic_model, X_binary, y_binary, cv=kfold)

print(f"교차 검증 점수: {scores.mean():.3f} (+/- {scores.std() * 2:.3f})")

3.2 하이퍼파라미터 튜닝

GridSearchCV를 사용해 최적의 하이퍼파라미터를 찾아보자.

PYTHON

from sklearn.model_selection import GridSearchCV

# 하이퍼파라미터 그리드
param_grid = {
    'C': [0.1, 1, 10, 100],
    'penalty': ['l1', 'l2'],
    'solver': ['liblinear', 'saga']
}

# 그리드 서치
grid_search = GridSearchCV(
    LogisticRegression(), param_grid, cv=5, scoring='accuracy'
)
grid_search.fit(X_binary, y_binary)

print(f"최적 파라미터: {grid_search.best_params_}")
print(f"최고 점수: {grid_search.best_score_:.3f}")

4. 실전 프로젝트: 주택 가격 예측

4.1 데이터 전처리

실제 데이터로 주택 가격을 예측하는 프로젝트를 진행해보자.

PYTHON

import pandas as pd
from sklearn.preprocessing import StandardScaler
from sklearn.ensemble import RandomForestRegressor

# 주택 가격 데이터 (예시)
data = pd.DataFrame({
    'area': np.random.rand(1000) * 200 + 50,
    'bedrooms': np.random.randint(1, 6, 1000),
    'bathrooms': np.random.randint(1, 4, 1000),
    'age': np.random.randint(0, 50, 1000)
})

# 가격 생성 (실제로는 더 복잡한 관계)
data['price'] = (
    data['area'] * 100 + 
    data['bedrooms'] * 50000 + 
    data['bathrooms'] * 30000 - 
    data['age'] * 2000 + 
    np.random.randn(1000) * 10000
)

# 특성과 타겟 분리
X_house = data[['area', 'bedrooms', 'bathrooms', 'age']]
y_house = data['price']

# 데이터 분할
X_train, X_test, y_train, y_test = train_test_split(
    X_house, y_house, test_size=0.2, random_state=42
)

# 스케일링
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# 랜덤 포레스트 모델
rf_model = RandomForestRegressor(n_estimators=100, random_state=42)
rf_model.fit(X_train_scaled, y_train)

# 예측 및 평가
y_pred_house = rf_model.predict(X_test_scaled)
mse = mean_squared_error(y_test, y_pred_house)
r2 = r2_score(y_test, y_pred_house)

print(f"평균 제곱 오차: {mse:.2f}")
print(f"R² 점수: {r2:.3f}")

5. 학습하면서 느낀 점

5.1 데이터의 중요성

- 좋은 모델보다 좋은 데이터가 더 중요하다 - 전처리가 모델 성능의 80%를 결정한다

5.2 모델 해석의 중요성

- 블랙박스 모델보다 해석 가능한 모델이 실무에서 유용하다 - 계수와 특성 중요도를 통해 인사이트를 얻을 수 있다

6. 앞으로의 계획

1. 앙상블 기법 학습 (Random Forest, XGBoost) 2. 딥러닝 기초 다지기 (Neural Networks) 3. 자연어 처리 입문 (NLP) 4. 컴퓨터 비전 기초 (Computer Vision)

머신러닝을 위한 파이썬 part 2

들어가며

1. 선형 회귀: 예측의 시작

1.1 선형 회귀의 개념

선형 회귀는 가장 기본적이면서도 강력한 예측 모델이다. 독립변수와 종속변수 간의 선형 관계를 찾아 미래 값을 예측한다.

PYTHON

import numpy as np
import pandas as pd
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, r2_score

# 데이터 준비
X = np.random.rand(100, 1) * 10
y = 2 * X + 1 + np.random.randn(100, 1) * 0.5

# 모델 학습
model = LinearRegression()
model.fit(X, y)

# 예측
y_pred = model.predict(X)
print(f"계수: {model.coef_[0][0]:.2f}")
print(f"절편: {model.intercept_[0]:.2f}")

1.2 다중 선형 회귀

실제 문제에서는 여러 변수가 복합적으로 작용한다. 다중 선형 회귀로 복잡한 패턴을 찾아보자.

PYTHON

# 다중 변수 데이터
X_multi = np.random.rand(100, 3) * 10
y_multi = 2*X_multi[:, 0] + 1.5*X_multi[:, 1] - 0.5*X_multi[:, 2] + np.random.randn(100) * 0.5

# 다중 선형 회귀
model_multi = LinearRegression()
model_multi.fit(X_multi, y_multi)

# 변수 중요도 확인
for i, coef in enumerate(model_multi.coef_):
    print(f"변수 {i+1} 계수: {coef:.2f}")

2. 로지스틱 회귀: 분류의 기초

2.1 이진 분류

로지스틱 회귀는 연속적인 확률을 이진 분류로 변환하는 강력한 도구다.

PYTHON

from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report, confusion_matrix

# 이진 분류 데이터 생성
X_binary = np.random.randn(200, 2)
y_binary = (X_binary[:, 0] + X_binary[:, 1] > 0).astype(int)

# 로지스틱 회귀 모델
logistic_model = LogisticRegression()
logistic_model.fit(X_binary, y_binary)

# 예측 및 평가
y_pred_binary = logistic_model.predict(X_binary)
print(classification_report(y_binary, y_pred_binary))

2.2 다중 분류

세 개 이상의 클래스를 분류할 때는 다중 클래스 로지스틱 회귀를 사용한다.

PYTHON

from sklearn.datasets import make_classification
from sklearn.multiclass import OneVsRestClassifier

# 다중 클래스 데이터
X_multi_class, y_multi_class = make_classification(
    n_samples=300, n_features=4, n_classes=3, n_clusters_per_class=1
)

# 다중 클래스 로지스틱 회귀
multi_logistic = LogisticRegression(multi_class='ovr')
multi_logistic.fit(X_multi_class, y_multi_class)

# 예측
y_pred_multi = multi_logistic.predict(X_multi_class)
print(classification_report(y_multi_class, y_pred_multi))

3. 모델 평가와 검증

3.1 교차 검증

과적합을 방지하고 모델의 일반화 성능을 평가하는 교차 검증을 실습해보자.

PYTHON

from sklearn.model_selection import cross_val_score, KFold

# K-Fold 교차 검증
kfold = KFold(n_splits=5, shuffle=True, random_state=42)
scores = cross_val_score(logistic_model, X_binary, y_binary, cv=kfold)

print(f"교차 검증 점수: {scores.mean():.3f} (+/- {scores.std() * 2:.3f})")

3.2 하이퍼파라미터 튜닝

GridSearchCV를 사용해 최적의 하이퍼파라미터를 찾아보자.

PYTHON

from sklearn.model_selection import GridSearchCV

# 하이퍼파라미터 그리드
param_grid = {
    'C': [0.1, 1, 10, 100],
    'penalty': ['l1', 'l2'],
    'solver': ['liblinear', 'saga']
}

# 그리드 서치
grid_search = GridSearchCV(
    LogisticRegression(), param_grid, cv=5, scoring='accuracy'
)
grid_search.fit(X_binary, y_binary)

print(f"최적 파라미터: {grid_search.best_params_}")
print(f"최고 점수: {grid_search.best_score_:.3f}")

4. 실전 프로젝트: 주택 가격 예측

4.1 데이터 전처리

실제 데이터로 주택 가격을 예측하는 프로젝트를 진행해보자.

PYTHON

import pandas as pd
from sklearn.preprocessing import StandardScaler
from sklearn.ensemble import RandomForestRegressor

# 주택 가격 데이터 (예시)
data = pd.DataFrame({
    'area': np.random.rand(1000) * 200 + 50,
    'bedrooms': np.random.randint(1, 6, 1000),
    'bathrooms': np.random.randint(1, 4, 1000),
    'age': np.random.randint(0, 50, 1000)
})

# 가격 생성 (실제로는 더 복잡한 관계)
data['price'] = (
    data['area'] * 100 + 
    data['bedrooms'] * 50000 + 
    data['bathrooms'] * 30000 - 
    data['age'] * 2000 + 
    np.random.randn(1000) * 10000
)

# 특성과 타겟 분리
X_house = data[['area', 'bedrooms', 'bathrooms', 'age']]
y_house = data['price']

# 데이터 분할
X_train, X_test, y_train, y_test = train_test_split(
    X_house, y_house, test_size=0.2, random_state=42
)

# 스케일링
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# 랜덤 포레스트 모델
rf_model = RandomForestRegressor(n_estimators=100, random_state=42)
rf_model.fit(X_train_scaled, y_train)

# 예측 및 평가
y_pred_house = rf_model.predict(X_test_scaled)
mse = mean_squared_error(y_test, y_pred_house)
r2 = r2_score(y_test, y_pred_house)

print(f"평균 제곱 오차: {mse:.2f}")
print(f"R² 점수: {r2:.3f}")

5. 학습하면서 느낀 점

5.1 데이터의 중요성

- 좋은 모델보다 좋은 데이터가 더 중요하다 - 전처리가 모델 성능의 80%를 결정한다

5.2 모델 해석의 중요성

- 블랙박스 모델보다 해석 가능한 모델이 실무에서 유용하다 - 계수와 특성 중요도를 통해 인사이트를 얻을 수 있다

6. 앞으로의 계획

1. 앙상블 기법 학습 (Random Forest, XGBoost) 2. 딥러닝 기초 다지기 (Neural Networks) 3. 자연어 처리 입문 (NLP) 4. 컴퓨터 비전 기초 (Computer Vision)

머신러닝 두 번째 여정: 예측과 분류의 세계로

들어가며

1. 선형 회귀: 예측의 시작

1.1 선형 회귀의 개념

1.2 다중 선형 회귀

2. 로지스틱 회귀: 분류의 기초

2.1 이진 분류

2.2 다중 분류

3. 모델 평가와 검증

3.1 교차 검증

3.2 하이퍼파라미터 튜닝

4. 실전 프로젝트: 주택 가격 예측

4.1 데이터 전처리

5. 학습하면서 느낀 점

5.1 데이터의 중요성

5.2 모델 해석의 중요성

6. 앞으로의 계획

머신러닝 두 번째 여정: 예측과 분류의 세계로

들어가며

1. 선형 회귀: 예측의 시작

1.1 선형 회귀의 개념

1.2 다중 선형 회귀

2. 로지스틱 회귀: 분류의 기초

2.1 이진 분류

2.2 다중 분류

3. 모델 평가와 검증

3.1 교차 검증

3.2 하이퍼파라미터 튜닝

4. 실전 프로젝트: 주택 가격 예측

4.1 데이터 전처리

5. 학습하면서 느낀 점

5.1 데이터의 중요성

5.2 모델 해석의 중요성

6. 앞으로의 계획