#POCETNA ANALIZA PODATAKA install.packages("faraway") #potrebno je samo prvi put; drugi nacin: Tools->Install Packages library(faraway) #drugi nacin u RStudio: na desnoj strani Packages i stiklirati trazeni paket data(pima) #ucitavanje baze pima #izlistavanje cele baze summary(pima) #daje osnovne statistike sort(pima$diastolic) #sortirane vrednosti pritiska #prekodiranje nedostajucih vrednosti, jer ove promenljive ne bi trebale da imaju vrednost nula pima$diastolic[pima$diastolic == 0] <- NA pima$glucose[pima$glucose == 0] <- NA pima$triceps[pima$triceps == 0] <- NA pima$insulin[pima$insulin == 0] <- NA pima$bmi[pima$bmi == 0] <- NA #R kategorijske promenljive sa numerickim vrednostima smatra numerickim promenljivim #zato je potrebno ovu promenljivu prekodirati pima$test <- factor(pima$test) summary(pima$test) levels(pima$test) <- c("negativno","pozitivno") summary(pima) par(mfrow=c(1,2)) #ispitivanje podataka grafickim predstavljanjem (treba uraditi za sve promenljive, ovde je samo za jednu) hist(pima$diastolic, main="Histogram za pritisak", ylab="Frekvencije", xlab="pritisak") #histogram pretvoren u grafik gustine, "uzoracka gustine" (https://en.wikipedia.org/wiki/Kernel_density_estimation) plot(density(pima$diastolic,na.rm=TRUE), main="Uzoracka gustina", ylab="Gustina") #grafik sortiranih podataka par(mfrow=c(1,1)) plot(sort(pima$diastolic),pch=".", main="Grafik sortiranih podataka", ylab="Sortirane vrednosti") par(mfrow=c(1,2)) #graficki prikaz odnosa izmešu promenljivih plot(diabetes ~ diastolic,pima) #grafik rasprsenosti dve numericke promenljive plot(diabetes ~ test,pima) #grafik kada je jedna promenljiva kategorijska par(mfrow=c(1,1)) pairs(pima) #dijagram rasprsenosti svake dve promenljive #primer regresije data(stat500) summary(stat500) stat500<-data.frame(scale(stat500)) #skaliranje vrednosti da bi mogle da se uporede summary(stat500) #graficki prikaz odnosa izmešu rezultata kolokvijuma i rezultata ispita #logicno je da osnovu kolokvijuma odrešujemo rezultate testa, pa zato stavljamo rezultate ispita #na y-osu, a kolokvijuma na x-osu plot(final ~ midterm,stat500) abline(0,1) #dodavanje prave x=y (ocekujemo da je odnos rezultata 1:1) #pravljenje linearnog modela: Y=beta_1*X_1+...+beta_n*X_n+epsilon #u R-u: lm(y ~ x1+x2+...+xn) g <- lm(final ~ midterm,stat500) g abline(coef(g),lty=5) #dodajemo regresionu liniju na grafik cor(stat500) #korelacija izmešu svake sve promenljive