Testiramo hipotezu da je dati uzorak iz neke apsolutno neprekidne raspodjele cija je funkcija raspodjele \(F_0\). Neka je \(\hat{F}_n(x)\) empirijska funkcija raspodjele. (Prisjetite se teoreme sa prvih casova o uniformnoj konvergeniciji empirijske funkcije raspodjele.) Test statistika ima oblik: \[ D_n=\sup\limits_{x}|F(x)-\hat{F}_n(x)| \] Kritična oblast: \[W=\{D_n>c\} \] Vrijednost \(c\) se čita iz tablica za KS test, i zavisi od n i od \(\alpha\). Ako je \(n\) veliko, \(c=c(\alpha)/\sqrt{n}\), gdje je \(c(\alpha)\) vrijednost koja se takođe nalazi u tablicama.
Napomena: Zadatke ćemo raditi na tabli i u R-u, treba znati oba načina!
x<-c(1.2,3.1,5.1,6.7)
n<-length(x)
alpha<-0.05
F_0<-pexp(x,0.2)
F_n<-ecdf(x) # empirijska FUNKCIJA dobijena na osnovu uzorka x
Dn<-max(c(abs(F_0-F_n(x)),abs(F_0-c(0,F_n(x)[-n]))))
c<-0.624
Dn>c
## [1] FALSE
# prihvatamo H0
# ili...
ks.test(x,"pexp",0.2)
##
## One-sample Kolmogorov-Smirnov test
##
## data: x
## D = 0.26185, p-value = 0.8782
## alternative hypothesis: two-sided
# p >0.05 pa prihvatamamo H0
# uzorak:
# 0-20 | 20-40 | 40-60 | 60-80 | 80-100
# 2 8 13 17 10
Napomene: Ovdje nemamo konkretne vrijednosti iz uzorka već samo u kojem su se intervalu našle, pa ćemo posmatrati tačke koje su jednake sredinama intervala i pretpostavljati da je polovina elemenata u prvoj polovini intervala, a polovina u drugoj.
x<-c(0.3, 0.7, 0.9, 1.2, 1.4, 1.5, 1.6, 1.9, 2.0, 2.1, 2.3, 2.5, 2.6, 2.7, 3.0, 3.8, 3.9, 4.0)
n<-length(x)
F.0<-pnorm(x, mean = 2, sd=1 )
F.n<-ecdf(x)
Dn<-max(c(abs(F.0-F.n(x)),abs(F.0-c(0,F.n(x)[-n]))))
c=0.309
Dn>c
## [1] FALSE
# prihvatamo H0
ks.test(x,"pnorm",2,1)
##
## One-sample Kolmogorov-Smirnov test
##
## data: x
## D = 0.13074, p-value = 0.8797
## alternative hypothesis: two-sided
Imamo dva nezavisna uzorka \(X_1,...,X_m\) sa funkcijom raspodjele \(F_1\) i \(Y_1,...,Y_n\) sa funkcijom raspodjele \(F_2\). Testira se hipoteza da su oba obilježja iz iste raspodjele, tj. \(H_0:F_1(x)=F_2(x)\). Test statistika: \[D_{mn}=\sup\limits_{t}|\hat{F}_1(t)-\hat{F}_2(t)| \] Kritična oblast: \(W=\{D_{mn}>c\}\) (za velike vrijednosti n i m \(c=c(\alpha)\sqrt{\frac{n+m}{nm}}\))
x<-c(1.6, 0.6, 2.9, 1.7, 3.2)
y<-c(3.8, 2.1, 3.0, 2.3, 3.1, 3.5)
sort(x)
## [1] 0.6 1.6 1.7 2.9 3.2
sort(y)
## [1] 2.1 2.3 3.0 3.1 3.5 3.8
ks.test(x,y)
##
## Two-sample Kolmogorov-Smirnov test
##
## data: x and y
## D = 0.6, p-value = 0.2381
## alternative hypothesis: two-sided
ks.test(x,y, alternative = "greater")
##
## Two-sample Kolmogorov-Smirnov test
##
## data: x and y
## D^+ = 0.6, p-value = 0.1403
## alternative hypothesis: the CDF of x lies above that of y
x<-c(0.04, 0.23, 0.34, 0.35, 0.51, 0.61, 0.63)
y<-c(0.02, 0.06, 0.07, 0.17, 0.4, 0.5, 0.55, 0.56, 0.73)
sort(x)
## [1] 0.04 0.23 0.34 0.35 0.51 0.61 0.63
sort(y)
## [1] 0.02 0.06 0.07 0.17 0.40 0.50 0.55 0.56 0.73
sort(c(x,y))
## [1] 0.02 0.04 0.06 0.07 0.17 0.23 0.34 0.35 0.40 0.50 0.51 0.55 0.56 0.61
## [15] 0.63 0.73
ks.test(x,y,alternative = "two.sided")
##
## Two-sample Kolmogorov-Smirnov test
##
## data: x and y
## D = 0.30159, p-value = 0.775
## alternative hypothesis: two-sided