import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn import preprocessing
get_ipython().run_line_magic('matplotlib', 'inline')

# Load data
df = pd.read_csv('loan_train.csv')
df = df.drop(labels=["Unnamed: 0","Unnamed: 0.1"], axis=1)
df.head()

df['due_date'] = pd.to_datetime(df['due_date'])
df['effective_date'] = pd.to_datetime(df['effective_date'])
df['dayofweek'] = df['effective_date'].dt.dayofweek
df['weekend'] = df['dayofweek'].apply(lambda x: 1 if (x>3) else 0)
df['Gender'].replace(to_replace=['male','female'], value=[0,1], inplace=True)

bins = np.linspace(df.Principal.min(), df.Principal.max(), 10)
g = sns.FacetGrid(df, col="Gender", hue="loan_status", palette="Set1", col_wrap=2)
g.map(plt.hist, 'Principal', bins=bins, ec="k")
g.axes[-1].legend()
plt.show()

bins = np.linspace(df.age.min(), df.age.max(), 10)
g = sns.FacetGrid(df, col="Gender", hue="loan_status", palette="Set1", col_wrap=2)
g.map(plt.hist, 'age', bins=bins, ec="k")
g.axes[-1].legend()
plt.show()

Feature = df[['Principal','terms','age','Gender','weekend']]
Feature = pd.concat([Feature, pd.get_dummies(df['education'])], axis=1)
Feature.drop(['Master or Above'], axis=1, inplace=True)
X = Feature
y = df['loan_status'].replace(to_replace=['PAIDOFF','COLLECTION'], value=[1,0]).values

X = preprocessing.StandardScaler().fit(X).transform(X)
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=4)

from sklearn.neighbors import KNeighborsClassifier
from sklearn import metrics

Ks = 20
mean_acc = np.zeros((Ks-1))
for n in range(1, Ks):
    neigh = KNeighborsClassifier(n_neighbors=n).fit(X_train, y_train)
    yhat = neigh.predict(X_test)
    mean_acc[n-1] = metrics.accuracy_score(y_test, yhat)
print("Best accuracy:", mean_acc.max(), "with k=", mean_acc.argmax()+1)
# Train final model
k = mean_acc.argmax()+1
loan_knn = KNeighborsClassifier(n_neighbors=k).fit(X_train, y_train)
yhat_knn = loan_knn.predict(X_test)

from sklearn.tree import DecisionTreeClassifier
loanTree = DecisionTreeClassifier(criterion="entropy", max_depth=4)
loanTree.fit(X_train, y_train)
yhat_dt = loanTree.predict(X_test)

from sklearn import svm
loan_svm = svm.SVC()
loan_svm.fit(X_train, y_train)
yhat_svm = loan_svm.predict(X_test)

from sklearn.linear_model import LogisticRegression
loan_lr = LogisticRegression(C=0.01)
loan_lr.fit(X_train, y_train)
yhat_lr = loan_lr.predict(X_test)
yhat_prob_lr = loan_lr.predict_proba(X_test)

from sklearn.metrics import jaccard_score, f1_score, log_loss
print("KNN Jaccard:", jaccard_score(y_test, yhat_knn))
print("Decision Tree Jaccard:", jaccard_score(y_test, yhat_dt))
print("SVM Jaccard:", jaccard_score(y_test, yhat_svm))
print("Logistic Regression Jaccard:", jaccard_score(y_test, yhat_lr))

# Example: Try a Random Forest Classifier
from sklearn.ensemble import RandomForestClassifier
rf = RandomForestClassifier()
rf.fit(X_train, y_train)
yhat_rf = rf.predict(X_test)
print("Random Forest Jaccard:", jaccard_score(y_test, yhat_rf))

Loan Classification: Topic-Based Exploration¶

01. Data Loading & Exploration¶

02. Data Cleaning & Preprocessing¶

03. Exploratory Data Analysis (EDA)¶

04. Feature Engineering¶

05. Data Normalization & Splitting¶

06. Model Training: K-Nearest Neighbors (KNN)¶

07. Model Training: Decision Tree¶

08. Model Training: Support Vector Machine (SVM)¶

09. Model Training: Logistic Regression¶

10. Model Evaluation & Comparison¶

Personal Experimentation Space¶

Project-Oriented Challenge¶