Kolmogorov-Smirnov test ( na osnovu jednog uzorka)

Testiramo hipotezu da je dati uzorak iz neke apsolutno neprekidne raspodjele cija je funkcija raspodjele \(F_0\). Neka je \(\hat{F}_n(x)\) empirijska funkcija raspodjele. (Prisjetite se teoreme sa prvih casova o uniformnoj konvergeniciji empirijske funkcije raspodjele.) Test statistika ima oblik: \[ D_n=\sup\limits_{x}|F(x)-\hat{F}_n(x)| \] Kritična oblast: \[W=\{D_n>c\} \] Vrijednost \(c\) se čita iz tablica za KS test, i zavisi od n i od \(\alpha\). Ako je \(n\) veliko, \(c=c(\alpha)/\sqrt{n}\), gdje je \(c(\alpha)\) vrijednost koja se takođe nalazi u tablicama.

Napomena: Zadatke ćemo raditi na tabli i u R-u, treba znati oba načina!

  1. primjer
    Dat je uzorak 1.2, 3.1, 5.1, 6.7. Ispitati da li je uzorak iz \(\mathcal{E}(0.2)\) raspodjele.
x<-c(1.2,3.1,5.1,6.7)
n<-length(x)
alpha<-0.05
F_0<-pexp(x,0.2)
F_n<-ecdf(x) # empirijska FUNKCIJA dobijena na osnovu uzorka x
Dn<-max(c(abs(F_0-F_n(x)),abs(F_0-c(0,F_n(x)[-n]))))
c<-0.624
Dn>c
## [1] FALSE
# prihvatamo H0

# ili...

ks.test(x,"pexp",0.2)
## 
##  One-sample Kolmogorov-Smirnov test
## 
## data:  x
## D = 0.26185, p-value = 0.8782
## alternative hypothesis: two-sided
# p >0.05 pa prihvatamamo H0
  1. primjer Dat je uzorak trenutaka otkaza mašine u časovima. Sa pragom značajnosti \(\alpha=0.01\) ispitati da li trenutak otkaza ima uniformnu \(\mathcal{U}[0,100]\) raspodjelu.
# uzorak:

# 0-20  |  20-40  | 40-60  | 60-80  |  80-100

#  2        8         13      17        10

Napomene: Ovdje nemamo konkretne vrijednosti iz uzorka već samo u kojem su se intervalu našle, pa ćemo posmatrati tačke koje su jednake sredinama intervala i pretpostavljati da je polovina elemenata u prvoj polovini intervala, a polovina u drugoj.

  1. primjer Ispitati sa pragom značajnosti 0.05 da li je uzorak 0.3, 0.7, 0.9, 1.2, 1.4, 1.5, 1.6, 1.9, 2.0, 2.1, 2.3, 2.5, 2.6, 2.7, 3.0, 3.8, 3.9, 4.0 iz normalne \(\mathcal{N}(2,1)\) raspodjele.
x<-c(0.3, 0.7, 0.9, 1.2, 1.4, 1.5, 1.6, 1.9, 2.0, 2.1, 2.3, 2.5, 2.6, 2.7, 3.0, 3.8, 3.9, 4.0)
n<-length(x)
F.0<-pnorm(x, mean = 2, sd=1 )
F.n<-ecdf(x)
Dn<-max(c(abs(F.0-F.n(x)),abs(F.0-c(0,F.n(x)[-n]))))
c=0.309
Dn>c
## [1] FALSE
# prihvatamo H0
ks.test(x,"pnorm",2,1)
## 
##  One-sample Kolmogorov-Smirnov test
## 
## data:  x
## D = 0.13074, p-value = 0.8797
## alternative hypothesis: two-sided

Kolmogorov-Smirnov test ( na osnovu dva uzorka)

Imamo dva nezavisna uzorka \(X_1,...,X_m\) sa funkcijom raspodjele \(F_1\) i \(Y_1,...,Y_n\) sa funkcijom raspodjele \(F_2\). Testira se hipoteza da su oba obilježja iz iste raspodjele, tj. \(H_0:F_1(x)=F_2(x)\). Test statistika: \[D_{mn}=\sup\limits_{t}|\hat{F}_1(t)-\hat{F}_2(t)| \] Kritična oblast: \(W=\{D_{mn}>c\}\) (za velike vrijednosti n i m \(c=c(\alpha)\sqrt{\frac{n+m}{nm}}\))

  1. primjer Neka je uzorak 1.6, 0.6, 2.9, 1.7, 3.2, iz raspodjele sa funkcijom raspodjele \(F_1\) i uzorak 3.8, 2.1, 3.0, 2.3, 3.1, 3.5 iz raspodjele sa funkcijom raspodjele \(F_2\). Sa pragom značajnosti 0.05 testirati \(H_0: F_1(x)=F_2(x)\) protiv \(H_1(F_1(x)>F_2(x))\).
x<-c(1.6, 0.6, 2.9, 1.7, 3.2)
y<-c(3.8, 2.1, 3.0, 2.3, 3.1, 3.5)
sort(x)
## [1] 0.6 1.6 1.7 2.9 3.2
sort(y)
## [1] 2.1 2.3 3.0 3.1 3.5 3.8
ks.test(x,y)
## 
##  Two-sample Kolmogorov-Smirnov test
## 
## data:  x and y
## D = 0.6, p-value = 0.2381
## alternative hypothesis: two-sided
ks.test(x,y, alternative = "greater")
## 
##  Two-sample Kolmogorov-Smirnov test
## 
## data:  x and y
## D^+ = 0.6, p-value = 0.1403
## alternative hypothesis: the CDF of x lies above that of y
  1. primjer Ispitati da li sledeća dva uzorka imaju istu funkciju raspodjele.
x<-c(0.04, 0.23, 0.34, 0.35, 0.51, 0.61, 0.63)
y<-c(0.02, 0.06, 0.07, 0.17, 0.4, 0.5, 0.55, 0.56, 0.73)

sort(x)
## [1] 0.04 0.23 0.34 0.35 0.51 0.61 0.63
sort(y)
## [1] 0.02 0.06 0.07 0.17 0.40 0.50 0.55 0.56 0.73
sort(c(x,y))
##  [1] 0.02 0.04 0.06 0.07 0.17 0.23 0.34 0.35 0.40 0.50 0.51 0.55 0.56 0.61
## [15] 0.63 0.73
ks.test(x,y,alternative = "two.sided")
## 
##  Two-sample Kolmogorov-Smirnov test
## 
## data:  x and y
## D = 0.30159, p-value = 0.775
## alternative hypothesis: two-sided