{ "cells": [ { "cell_type": "code", "execution_count": 1, "metadata": {}, "outputs": [], "source": [ "import pandas as pd\n", "from sklearn.preprocessing import MinMaxScaler\n", "import matplotlib.pyplot as plt\n", "from sklearn.metrics import silhouette_score\n", "#from scipy.spatial.distance import pdist\n", "from scipy.cluster.hierarchy import dendrogram, linkage, fcluster\n", "#import matplotlib" ] }, { "cell_type": "code", "execution_count": 2, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Prvih 5 instanci\n", " breed height weight\n", "0 Border Collie 19 45\n", "1 Boston Terrier 12 20\n", "2 Brittany Spaniel 18 35\n", "3 Bullmastiff 29 120\n", "4 Chihuahua 8 8\n" ] } ], "source": [ "#ucitavanje skupa\n", "df = pd.read_csv(\"C:/Users/student/Desktop/ipVezbe122021/primeri/dogs.csv\")\n", "\n", "#prikaz imena kolona + 5 prvih instanci\n", "print('Prvih 5 instanci')\n", "print(df.head())\n" ] }, { "cell_type": "code", "execution_count": 3, "metadata": {}, "outputs": [], "source": [ "# Za klasterovanje ce se koristiti atributi visina i tezina psa,\n", "# a rasa nece biti uzeta u obzir.\n", "features = df.columns[1:]\n", "\n", "#vrednost atributa breed (tj. rasa) postaje oznaka (indeks) instance\n", "df.set_index('breed', inplace=True)\n" ] }, { "cell_type": "code", "execution_count": 4, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
heightweight
breed
Border Collie1945
Boston Terrier1220
Brittany Spaniel1835
Bullmastiff29120
Chihuahua88
German Shepherd2278
Golden Retriever2370
Great Dane32160
Portuguese Water Dog2150
Standard Poodle1965
Yorkshire Terrier67
\n", "
" ], "text/plain": [ " height weight\n", "breed \n", "Border Collie 19 45\n", "Boston Terrier 12 20\n", "Brittany Spaniel 18 35\n", "Bullmastiff 29 120\n", "Chihuahua 8 8\n", "German Shepherd 22 78\n", "Golden Retriever 23 70\n", "Great Dane 32 160\n", "Portuguese Water Dog 21 50\n", "Standard Poodle 19 65\n", "Yorkshire Terrier 6 7" ] }, "execution_count": 4, "metadata": {}, "output_type": "execute_result" } ], "source": [ "df" ] }, { "cell_type": "code", "execution_count": 9, "metadata": {}, "outputs": [], "source": [ "#normalizacija vrednosti atributa\n", "scaler = MinMaxScaler().fit(df)\n", "x = pd.DataFrame(scaler.transform(df), columns=features, index=df.index)\n" ] }, { "cell_type": "code", "execution_count": 10, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
heightweight
breed
Border Collie0.5000000.248366
Boston Terrier0.2307690.084967
Brittany Spaniel0.4615380.183007
Bullmastiff0.8846150.738562
Chihuahua0.0769230.006536
German Shepherd0.6153850.464052
Golden Retriever0.6538460.411765
Great Dane1.0000001.000000
Portuguese Water Dog0.5769230.281046
Standard Poodle0.5000000.379085
Yorkshire Terrier0.0000000.000000
\n", "
" ], "text/plain": [ " height weight\n", "breed \n", "Border Collie 0.500000 0.248366\n", "Boston Terrier 0.230769 0.084967\n", "Brittany Spaniel 0.461538 0.183007\n", "Bullmastiff 0.884615 0.738562\n", "Chihuahua 0.076923 0.006536\n", "German Shepherd 0.615385 0.464052\n", "Golden Retriever 0.653846 0.411765\n", "Great Dane 1.000000 1.000000\n", "Portuguese Water Dog 0.576923 0.281046\n", "Standard Poodle 0.500000 0.379085\n", "Yorkshire Terrier 0.000000 0.000000" ] }, "execution_count": 10, "metadata": {}, "output_type": "execute_result" } ], "source": [ "x" ] }, { "cell_type": "code", "execution_count": 12, "metadata": {}, "outputs": [], "source": [ "#postavljanje parametara za sliku\n", "#matplotlib.rcParams['font.size']=8\n" ] }, { "cell_type": "code", "execution_count": 13, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "[[ 5. 6. 0.06490979 2. ]\n", " [ 0. 2. 0.07583634 2. ]\n", " [ 4. 10. 0.07720025 2. ]\n", " [ 8. 12. 0.11749404 3. ]\n", " [ 9. 11. 0.15028617 3. ]\n", " [14. 15. 0.20912385 6. ]\n", " [ 1. 13. 0.20929971 3. ]\n", " [ 3. 7. 0.28576807 2. ]\n", " [16. 17. 0.54224963 9. ]\n", " [18. 19. 0.84284893 11. ]]\n" ] } ], "source": [ "#Primena hijerarhijskg sakupljajuceg klasterovanja koriscenjem euklidskog rastojanja\n", "# i 'average' veze pri odredjivanju bliskosti dva klastera.\n", "#Rezultat je matrica spajanja pri klasterovanju.\n", "Z = linkage(x, 'average')\n", "print(Z)\n" ] }, { "cell_type": "code", "execution_count": 31, "metadata": {}, "outputs": [ { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" } ], "source": [ "# pravljenje slike sa graficima\n", "fig = plt.figure(figsize=(15, 8))\n", "\n", "# Podela slike na 2x1 celije. U prvoj celiji se crta dendogram.\n", "fig.add_subplot(2,1,1)\n", "\n", "#prikaz izvrsenog hijerarhijskog klasterovanja pomocu dendograma\n", "dn = dendrogram(Z, labels=x.index, leaf_font_size=8, color_threshold=0 )\n", "plt.title('Dendogram')\n", "# Definisanje boja koje se koriste pri crtanju instanci klastera.\n", "# Instance jednog klastera ce biti prikazane istom bojom.\n", "colors = ['red', 'blue', 'green']\n", "\n", "# U drugoj celiji na slici prikazuju se instance klastera pomocu seme sa\n", "# rasprsenim elementima.\n", "fig.add_subplot(2,1,2)\n", "\n", "#Odredjivanje kom klasteru pripada svaka instanca u skupu.\n", "#Kao prag za rastojanje pri spajanju klastera postavlja se vrednost 0.3,\n", "# tj. prekida se spajanje klastera cije je rastojanje iznad 0.3.\n", "#Ako je criterion='maxclust' onda se preko t zadaje zeljeni broj klastera.\n", "\n", "df['label'] = fcluster(Z, t=0.3, criterion='distance')\n", "\n", "#Napomena: Nakon promene parametra color_threshold=0.3 u funkciji dendrogram\n", "# plavom bojom se prikazuju spajanja klastera koja se ne izvrsavaju. Razlicitim\n", "# bojama se prikazuju instance klastera koji ce biti izdvojeni. Oznake klastera su\n", "#u intervalu [1,k], gde je k ukupan broj klastera.\n", "\n", "for i in range(1, max(df['label'])+1):\n", " # izdvajanje instanci klastera koji se obradjuje\n", " cluster = df.loc[df['label']==i]\n", "\n", " # crtanje instanci klastera pomocu seme sa rasprsenim elementima\n", " plt.scatter(cluster['height'], cluster['weight'], color=colors[i-1], label='klaster %d' %i)\n", "\n", "# postavljanje legende i naslova za drugu celiju\n", "plt.title('Silueta koeficijent {0:0.3}'.format(silhouette_score(x, df['label'])))\n", "t=plt.legend()\n", "\n", "\n" ] }, { "cell_type": "code", "execution_count": 32, "metadata": {}, "outputs": [], "source": [ "#Komentar: izdvojena su tri klastera kojima su grupisani psi malog, srednjeg i velikog rasta.\n", "\n", "#Na dendogramu se jasno vidi da postoje 3 dobro odvojena klastera, tj. da ne treba izvrsiti\n", "# poslednja 2 spajanja klastera, sto se i postize sa zadatim pragom za rastojanje od 0.3.\n" ] }, { "cell_type": "code", "execution_count": null, "metadata": {}, "outputs": [], "source": [] } ], "metadata": { "kernelspec": { "display_name": "Python 3", "language": "python", "name": "python3" }, "language_info": { "codemirror_mode": { "name": "ipython", "version": 3 }, "file_extension": ".py", "mimetype": "text/x-python", "name": "python", "nbconvert_exporter": "python", "pygments_lexer": "ipython3", "version": "3.8.6" } }, "nbformat": 4, "nbformat_minor": 2 }