In [11]:
import os
from sklearn.feature_extraction import DictVectorizer
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.naive_bayes import MultinomialNB
from sklearn.tree import DecisionTreeClassifier
from sklearn.neighbors import KNeighborsClassifier
import sklearn.metrics as met
import pandas as pd
import time

In [12]:
#podaci o instancama
corpus = []
#klase instanci
classes = []

#putanja do direktorijuma koji sadrzi skup 
#u skupu su podaci podeljeni po direktorijumima cije ime odredjuje klasu clanaka
#u svakoj datoteci su podaci o recima iz clanaka u obliku koren_reci broj_pojavljivanja
dir_path='C:/Users/student/Desktop/ipIndustija4/ipVezbe82021/vezbe7/ebart/VektoriEbart-5/Skup/'
#ucitavanje skupa
#detalje o skupu pogledati u tekstu za vezbe 6
for class_name in os.listdir(dir_path): #izlistavanje direktorijuma koji predstavljaju klase
 dir_path_clas = dir_path + class_name #putanja klasa-direktorijuma
 for file_name in os.listdir(dir_path_clas): #izlistavanje datoteka u klasa-direktorijumu
 f=open(dir_path_clas + '/' + file_name, 'r') #otvaranje datoteke
 file_words = {} #priprema recnika za cuvanje podataka iz jednog clanka, elementi ce biti oblika rec:broj_pojavljivanja
 for line in f: #prolazak kroz redove datoteke
 word_count=line.split() #pravljenje liste na osnovu reda. U listi je prvi element rec, a drugi broj pojavljivanja reci 
 file_words[word_count[0]]=int(word_count[1]) #dodavanje podataka o reci u recnik
 classes.append(class_name) # dodavanje podataka o dokumentu
 corpus.append(file_words) # dodavanje klase dokumenta
 f.close()


In [13]:
#pravljenje term-matrice na osnovu liste recnika
#jedan recnik sadrzi informacije o jednoj instanci, tj. jednom clanku u
# kojem je kljuc term, a vrednost kljuca broj pojavljivanja terma u clanku
dv = DictVectorizer()
x=dv.fit_transform(corpus)
#print('Termi koji se pojavljuju u korpusu')
#print(dv.get_feature_names())



In [14]:
df=pd.DataFrame(x.toarray(), columns=dv.get_feature_names())
#print(df.head())

In [15]:
#podela na trening i test skup
x_train, x_test, y_train, y_test = train_test_split(df, classes, test_size=0.3, stratify=classes)


In [16]:
def class_info(clf, x_train, y_train, x_test, y_test, cv=False):

 start=time.time()
 clf.fit(x_train, y_train)

 end=time.time()
 print('Vreme pravljenja modela', end-start)

 #izvestaj za unakrsnu validaciju, ukoliko je primenjena
 if cv:
 print('Najbolji parametri', clf.best_params_)

 means = clf.cv_results_['mean_test_score']
 stds = clf.cv_results_['std_test_score']
 for mean, std, params in zip(means, stds, clf.cv_results_['params']):
 print("%0.3f (+/-%0.03f) za %s" % (mean, std * 2, params))

 print('Trening skup')
 y_pred = clf.predict(x_train)

 cnf_matrix = met.confusion_matrix(y_train, y_pred)
 print("Matrica konfuzije")
 print(pd.DataFrame(cnf_matrix, index=clf.classes_, columns=clf.classes_))
 

 accuracy = met.accuracy_score(y_train, y_pred)
 print("Preciznost", accuracy)
 

 class_report = met.classification_report(y_train, y_pred)
 print("Izvestaj klasifikacije")
 print(class_report)
 

 print('Test skup')
 y_pred = clf.predict(x_test)

 cnf_matrix = met.confusion_matrix(y_test, y_pred)
 print("Matrica konfuzije")
 print(pd.DataFrame(cnf_matrix, index=clf.classes_, columns=clf.classes_))
 

 accuracy = met.accuracy_score(y_test, y_pred)
 print("Preciznost", accuracy)
 

 class_report = met.classification_report(y_test, y_pred, target_names=clf.classes_)
 print("Izvestaj klasifikacije")
 print(class_report)
 


In [17]:
#klasifikacija primenom razlicitih algoritama
print("MultinomialNB")
clf_mnb = MultinomialNB()
class_info(clf_mnb, x_train, y_train, x_test, y_test)



MultinomialNB
Vreme pravljenja modela 0.5828678607940674
Trening skup
Matrica konfuzije
 Ekonomija HronikaKriminal KulturaZabava Politika Sport
Ekonomija 216 2 3 12 0
HronikaKriminal 9 362 2 61 0
KulturaZabava 0 2 433 4 0
Politika 5 14 2 628 5
Sport 0 4 0 2 678
Preciznost 0.9480360065466449
Izvestaj klasifikacije
 precision recall f1-score support

 Ekonomija 0.94 0.93 0.93 233
HronikaKriminal 0.94 0.83 0.89 434
 KulturaZabava 0.98 0.99 0.99 439
 Politika 0.89 0.96 0.92 654
 Sport 0.99 0.99 0.99 684

 accuracy 0.95 2444
 macro avg 0.95 0.94 0.94 2444
 weighted avg 0.95 0.95 0.95 2444

Test skup
Matrica konfuzije
 Ekonomija HronikaKriminal KulturaZabava Politika Sport
Ekonomija 85 2 0 13 0
HronikaKriminal 5 129 4 47 1
KulturaZabava 1 3 178 4 2
Politika 4 15 3 258 1
Sport 1 4 3 6 279
Preciznost 0.8864503816793893
Izvestaj klasifikacije
 precision recall f1-score support

 Ekonomija 0.89 0.85 0.87 100
HronikaKriminal 0.84 0.69 0.76 186
 KulturaZabava 0.95 0.95 0.95 188
 Politika 0.79 0.92

In [18]:
#definisanje mogucih vrednosti parametara za drveta odlucivanja
# koji ce se koristiti u unakrsnoj validaciji
parameters = [{'criterion': ['gini', 'entropy'],
 'max_depth':[15, 25, 5],
 }]


In [19]:
print("DecisionTreeClassifier")

#napomena: izvrsavanje traje dugo
clf_dt = GridSearchCV(DecisionTreeClassifier(), parameters, cv=5)
class_info(clf_dt, x_train, y_train, x_test, y_test, cv=True)


DecisionTreeClassifier
Vreme pravljenja modela 516.6887810230255
Najbolji parametri {'criterion': 'gini', 'max_depth': 25}
0.643 (+/-0.049) za {'criterion': 'gini', 'max_depth': 15}
0.685 (+/-0.042) za {'criterion': 'gini', 'max_depth': 25}
0.501 (+/-0.055) za {'criterion': 'gini', 'max_depth': 5}
0.645 (+/-0.039) za {'criterion': 'entropy', 'max_depth': 15}
0.664 (+/-0.054) za {'criterion': 'entropy', 'max_depth': 25}
0.532 (+/-0.043) za {'criterion': 'entropy', 'max_depth': 5}
Trening skup
Matrica konfuzije
 Ekonomija HronikaKriminal KulturaZabava Politika Sport
Ekonomija 170 0 0 25 38
HronikaKriminal 0 340 0 28 66
KulturaZabava 0 0 352 10 77
Politika 0 0 0 585 69
Sport 0 0 0 9 675
Preciznost 0.8682487725040916
Izvestaj klasifikacije
 precision recall f1-score support

 Ekonomija 1.00 0.73 0.84 233
HronikaKriminal 1.00 0.78 0.88 434
 KulturaZabava 1.00 0.80 0.89 439
 Politika 0.89 0.89 0.89 654
 Sport 0.73 0.99 0.84 684

 accuracy 0.87 2444
 macro avg 0.92 0.84 0.87 2444
 weighted av

In [20]:
print("KNeighborsClassifier")

#definisanje mogucih vrednosti parametara za K najblizih suseda
# koji ce se koristiti u unakrsnoj validaciji
parameters = [{'n_neighbors': [5, 10, 20],
 'p':[2],
 'weights': ['uniform', 'distance'],
 }]

# napomena: izvrsavanje traje dugo
clf_dt = GridSearchCV(KNeighborsClassifier(), parameters, cv=5 )
class_info(clf_dt, x_train, y_train, x_test, y_test, cv=True)

KNeighborsClassifier
Vreme pravljenja modela 82.55995988845825
Najbolji parametri {'n_neighbors': 10, 'p': 2, 'weights': 'distance'}
0.525 (+/-0.046) za {'n_neighbors': 5, 'p': 2, 'weights': 'uniform'}
0.544 (+/-0.025) za {'n_neighbors': 5, 'p': 2, 'weights': 'distance'}
0.549 (+/-0.043) za {'n_neighbors': 10, 'p': 2, 'weights': 'uniform'}
0.554 (+/-0.053) za {'n_neighbors': 10, 'p': 2, 'weights': 'distance'}
0.525 (+/-0.046) za {'n_neighbors': 20, 'p': 2, 'weights': 'uniform'}
0.533 (+/-0.046) za {'n_neighbors': 20, 'p': 2, 'weights': 'distance'}
Trening skup
Matrica konfuzije
 Ekonomija HronikaKriminal KulturaZabava Politika Sport
Ekonomija 233 0 0 0 0
HronikaKriminal 0 434 0 0 0
KulturaZabava 0 0 439 0 0
Politika 0 0 0 654 0
Sport 0 0 0 0 684
Preciznost 1.0
Izvestaj klasifikacije
 precision recall f1-score support

 Ekonomija 1.00 1.00 1.00 233
HronikaKriminal 1.00 1.00 1.00 434
 KulturaZabava 1.00 1.00 1.00 439
 Politika 1.00 1.00 1.00 654
 Sport 1.00 1.00 1.00 684

 accuracy 1.00 