# Neparametarski testovi # Hi-Kvadrat test saglasnosti # testiramo da li neko obelezje ima raspodelu F_0, tj # H_0: F = F_0 # H_1: F != F_0 # Delimo skup vrednosti slucajne velicine X na k kategorija, # i vazi: # M_i ~ Bin(N, p_i), # M_i - obim i-te kategorije. # Formiramo statistiku: # hi^2_n = sum [(M_i - N*p_i)^2] / (N*p_i) gde je # M_i - velicina i-te kategorije # p_i - verovatnoca teorijska # N - ceo obim uzorka. # I ta hi^2_n ima Hi-Kvadrat raspodelu sa k-1 stepeni slobode. # Ako raspodela F_0 ima nepoznatih parametara - moramo ih oceniti i tada: # hi^2_n ima Hi-Kvadrat raspodelu sa k-1-m stepeni slobode, gde je m - broj # ocenjenih parametara. # Kriticna oblast je # W = {hi^2 > c} # Za svaku teorijsku vrednost kategorije mora da vazi: # N*p_i >= 5, u suprotnom sabiramo suprotne kategorije. # (1) # Neka je zadat uzorak: # [0, 1] | (1, 2] | (2, 3] | (3, 4] # 23 | 26 | 23 | 28 # Sa pragom znacajnosti Alpha = 0.02 testirati da # X ima Unif[0, 4] raspodelu. # Resenje: # Kako testirano da li je nesto iz uniformne # onda teorijske vrednosti su N*p_i: # [0, 1] | (1, 2] | (2, 3] | (3, 4] # 25 | 25 | 25 | 25 # Pa racunamo dalje vrednost test statistike x = c(23, 26, 23,28) teorijske = rep(25, 4) test_stat = sum((x-teorijske)^2/teorijske ) # nalazimo c iz relacije # P(W) = 0.02 # Test statisika ima hi-kvadrat sa 3 stepena slobode, stoga c = qchisq(1-0.02, df=3) # Provera kriticne oblasti: test_stat > c # False => Prihvatamo H_0. # (2) # Dat je uzorak # 1 | 2 | 3 | 4 | 5 | 6 # 45 | 30 | 15 | 6 | 2 | 2 # alpha = 0.05, testirati da li X ima Geom(0.5) raspodelu. # Naci p-vrednost testa. # Resenje: # Kako geometrijska uzima vrednosti na svim prirodnim brojevima # (pocev od 1 u nasem slucaju) # to moramo dodati nedostajuce kolone, a to je [7, +\infty) # koja naravno ima vrednost 0. # Teorijske vrednosti su # N*p_i = N*0.5^i # a N = 100. # dok za poslednju kategoriju koja ima >= 7 to je: (1 - pgeom(q = 5, prob = 0.5) )* (45+30+15+6+2+2) # Jer u R-u geometrijska ide od nule # Oznacimo R-ovsku geometrijsku sa Y # tada vazi relacija Y = X - 1 # Za poslednju kategoriju vazi: # P{X >= 7 } = 1 - P{X < 7} = 1 - P{Y+1 < 7} = # = 1 - P{Y < 6} = 1 - P{Y <= 5} = 1 - pgeom(q=5, prob=0.5) # Zato je tabela teorijskih vrednosti: # 1 | 2 | 3 | 4 | 5 | 6 | >=7 # 50 | 25 | 12.5 | 6.25 | 3.125 | 1.562 | 1.562 # Kako nisu sve kategorije vece od 5, to mora da saberemo poslednje 3. # 1 | 2 | 3 | 4 | >=5 # 50 | 25 | 12.5 | 6.25 | 6.25 x = c(45, 30, 15, 6, 4) teorijske = c(50, 25, 12.5, 6.25, 6.25) test_statistika = sum( (x-teorijske)^2 / teorijske) # Nadjimo c: c = qchisq(p=0.95, df=4) # Kriticna oblast: test_statistika > c # Prihvatamo # dok p-vrednost: p_vred = 1 - pchisq(test_statistika, df=4) # (3) # Dati su podaci: # [0, 1] | (1, 2] | (2, 3] | (3, 4] # 42 | 34 | 16 | 8 # Alpha = 0.01 testirati da je ovo iz eksponencijalne raspodele sa parametrom # lambda. # resenje: # Prvo moramo oceniti parametar. # Uglavnom se radi ocena MMV. # Sto znaci da dobijamo ocena = 1/ ((42*0.5 + 34*1.5 + 16*2.5 + 8*3.5)/100 ) # oko 0.71 # Takodje moramo dodati kategoriju (4, +infty) # i racunamo teorijske vrednosti # Dobijamo: # [0, 1] | (1, 2] | (2, 3] | (3, 4] | (4, +inf) # 51 | 25 | 12 | 6 | 6 x = c(42, 34, 16, 8, 0) teorijske = c(51, 25, 12, 6, 6) test_statistika = sum( (x-teorijske)^2/teorijske ) # c: c = qchisq(0.99, df=3) # Kriticna oblast? test_statistika > c # Dobijamo TRUE, stoga odbacujemo nultu.