import matplotlib.pyplot as plt
import numpy as np

import seaborn as sns
import matplotlib.pyplot as plt
import pandas as pd
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.decomposition import PCA

from sklearn.tree import DecisionTreeClassifier
import os
pd.options.mode.chained_assignment = None


os.chdir('/home/wln/Documents/python_programs/Astronomy_Datasets')

s = pd.read_csv("sloan_survey.csv")



sub = s[['class', 'u', 'g' , 'r' , 'i' ,'z']]


plt.figure()
sns.scatterplot(x='u',y='i',data=s)

<Axes: xlabel='u', ylabel='g'>


plt.figure()
sns.scatterplot(x='u',y='z',data=s)

<Axes: xlabel='u', ylabel='z'>


pca = PCA(n_components=1)

sub['pca'] = PCA(n_components=1).fit_transform(sub[['i','z']])


X = np.array(sub['pca'].fillna(0))
X = X[:, np.newaxis]

y = np.array(sub['class'])


X_train, X_test, y_train, y_test = train_test_split(X,y,test_size=0.1)


D = DecisionTreeClassifier()

D.fit(X_train,y_train)

y_pred = D.predict(X_test)


sub['pred_class'] = D.predict(X)



print(D.score(X, y))


print(D.score(X_test, y_test))

0.9536
0.536