# Intervali poverenja

# Zelimo da nadjemo takve U_n, i V_n da nepoznati parametar Teta 
# upadne u interval [U_n, V_n] sa verovatnocom
# beta (unapred zadatom) tj:
# P{U_n <= Teta <= V_n}=beta
# beta nazivamo nivo poverenja.

# (1)
# Naci 95%-tni interval poverenja za parametar "m", ako je 
# nasa slucajna velicina X~N(m, sigma^2). 
# Poznato nam je sigma^2 i n - broj elemenata u
# prostom slucajnom uzorku.

#
n=64
x_sr=118
beta=0.95
sigma_kv= 100 #- poznata vrednost


# Resenje:
c=qnorm((1+beta)/2, 0, 1) # isto sto i qnorm((1+beta)/2) isto sto i qnorm(0.975)
c


interval_1=x_sr-c*sqrt(sigma_kv/n)
interval_2=x_sr+c*sqrt(sigma_kv/n)
interval_1
interval_2
(interval_poverenja=c(interval_1, interval_2))


# (2)
# Naci 95%-tni interval poverenja za m na osnovu uzorka obima n
# ako je X~N(m, sigma^2), sigma^2 - nepoznato.
# ako je
n=25
x_sr=2.6
ocena_sigma_kv=170.36
beta=0.95


# Resenje:
c=qt((1+beta)/2, n-1) #qt - kvantili studentove raspodele, drugi argument predstavlja broj stepeni slobode.
c
(interval_poverenja=c(x_sr-c*sqrt(ocena_sigma_kv/n), x_sr+c*sqrt(ocena_sigma_kv/n) ))


# Da primenimo ovakav interval poverenja i na prvi zadatak. Moramo da dobijemo nesto siri 
n=64
x_sr=118
beta=0.95
sigma_kv= 100 # ovde sada smatramo da je to ocenjena vrednost

c1=qt((1+beta)/2, n-1) 
c1


interval_1=x_sr-c1*sqrt(sigma_kv/n)
interval_2=x_sr+c1*sqrt(sigma_kv/n)
(interval_poverenja=c(interval_1, interval_2))
# I zaista vidimo da je ova malcice siri interval poverenja.


# INTERVALI POVERENJA

# U prva dva zadatka smo pominjali intervale poverenja u slucaju normalne raspodele 
# Norm(m, sigma^2) za parametar "m". 
# I videli smo da se taj slucaj deli
# na dva podslucaju u zavisnosti od toga da li znamo sigma^2 
# ili je ocenjujemo za dati uzorak.
# U slucaju kada znamo sigma^2 trazimo interval poverenja pomocu statistike:
# Z=(X_sr-m)*sqrt(n)/(sigma),
# gde je
# X_sr - srednja vrednost uzorka za dato obelezje.
# m - parametar koji ocenjujemo
# n - obim uzorka
# sigma - koren iz sigma^2 (koja nam je poznata u ovom slucaju)
# I u tom slucaju mozemo reci da je prema Centralnoj 
# Granicnoj Teoremi (CGT): Z~N(0,1) , tj Z je normalna sa parametrima 0 i 1.

# Dok u slucaju kada ne znamo sigma^2, moramo je oceniti i tada imamo 
# sledecu statistiku pomocu koje nalazimo Interval poverenja:
# T=(X_sr-m)*sqrt(n)/s_n
# gde je 
# s_n =sqrt(1/(n-1) * sum[(x_i-X_sr)^2]) - tj ocena korena iz disperzije.
# Tada T~t_{n-1} - tj Studentovu raspodelu sa n-1 stepeni slobode.


# To je sve bilo za slucaj kada se ocenjuje parametar m. Dok ako zelimo da intervalno ocenimo
# sigma^2 tu je prica malo drugacija.

# Statistika koja se koristi za to je:
# W=(n-1)*s_n_kv/sigma^2 ~ Hi-kvadrat sa n-1 stepeni slobode.
# gde je:
# n - obim uzorka
# s_n_kv = var(uzorak) = 1/(n-1)*sum[(x_i-x_sr)^2]
# sigma^2 - parametar koji ocenjujemo.
# I sasvim je prirodno da ta statistika, kojom se ocenjuje parametar sigma^2 
# ima neku nenegativnu raspodelu, kao sto je Hi-kvadrat.

# Za razliku od ocene za "m", gde su u oba slucaja statistike imale 
# simetricne raspodele oko nule, hi-kvadrat nije simetricna, i stavise
# nenagativna je.
# Iz tog razloga na vise nacina se moze prirodno definisati interval poverenja za sigma^2.
# kao na primer:

# Napomena: sve granice intervala koje cu da navodim dole, tj (A_n, B_n, U_n, V_n) su zapravo granice za statistiku(!) ne i za parametar.
# A tek kad se dobiju granice za stistiku - moramo da nadjemo bas Interval poverenja za trazeni parametar sigma^2.

# 1)
# Donji interval, tj (0,A_n], tj da pocinje uvek od nule, pa ide do vrednosti gde se dostigne trazena Beta, gde se A_n nalazi bas iz:
# P{W<=A_n}=beta => A_n=F^(-1)(beta), gde je F^(-1) inverzna funkcija za funkciju raspodele koju ima statistika W.
# sto se u R-u poziva na sledeci nacin:
# A_n=qchisq(beta, n-1)
# gde je qchisq - funkcija pomocu koje dobijamo kvantile hi-kvadrat raspodele. 

# 2) Dvostrani interval:
# [U_n, V_n], gde se granice biraju tako da je levo i desno od tog intervala ista povrsina koja je jednaka (1-beta)/2, za dato "beta".
# Nalazimo ih pomocu:
# P{W<=U_n}=(1-beta)/2 => U_n=qchisq((1-beta)/2, n-1).
# P{W<=V_n}=(1+beta)/2 => V_n=qchisq((1+beta)/2, n-1). Ovde je (1+beta)/2, jer je prosto povrsina koja je pre vrednosti V_n mora da bude beta+(1-beta)/2
# sto je bas jednako (1+beta)/2.

# 3) Gornji interval:
# slicno kao donji, smo sto nije ogranicen sa gornje strane pa je interval [B_n, +besk).
# B_n iz formule:
# P{W<=B_n}=1-beta => B_n=qchisq(1-beta, n-1).




# (3)
# Neka je dato:
# X~ Norm(m, sigma^2).
# n=20
# s_n_kv=21.12.
# Naci dvostrani interval poverenja za parametar sigma^2 za beta=0.99

# resenje:
# Potrebno je naci interval oblika:
# P{U_n<=W<=V_n}=0.99
# Prema gorenavedenoj teoriji:
# vrednost za V_n mora za bude vrednost F^(-1)(1.99/2)
v_n=qchisq(1.99/2, 19)
# vrednost za U_n mora za bude vrednost F^(-1)(0.01/2)
u_n=qchisq(0.01/2, 19)
u_n
n=20
s_na_kvadrat=21.12
# Odakle dobijamo sledeci izrar iz kojeg moramo da nadjemo interval poverenja.
# P{6.85<=(n-1)*S^2_n/sigma^2<=38.6}
# Sto je dalje jednako:
# P{(n-1)*21.12/38.6<=sigma^2<=(n-1)*21.12/6.85}

# donja vrednost intervala poverenja:
a=(n-1)*21.12/38.6

# gornja vrednost intervala poverenja:
b= (n-1)*21.12/6.85
a
b
(interval=c(a,b))
# Sto i jeste trazeni interval poverenja za parametar sigma^2

# Probajte da uradite gornji i donji interval poverenja za ovaj primer.


# Jos jedna vrsta intervala poverenja, koju cemo da razmotrimo su intervali poveranja za parametar p u Bernulijevoj raspodeli. (Podsetite se te slucajne velicine)
# Neka je X~Ber(p)=Bin(1, p) i zelimo da ocenimo parametar p.
# Tada to mozemo oceniti intervalno pomocu statistike:
# Z=(X_sr-p)*sqrt(n)/sqrt(p*(1-p))~ Norm(0,1).
# I dalje je ocenjivanje jako slicno kao za parametar "m" sto smo imali, s tim sto
# ovde imamo "malo vise" javljanja parametra "p" u datoj statistici, nego sto je to bilo u slucaju parametra "m".
# Stoga u opstem slucaju moracemo da resavamo kvadratnu nejednacinu i da pazimo da granice ne izadju izvan intervala (0,1) - jer ocenjujemo parametar
# p - koji predstavlja verovatnocu nekog dogadjaja!

# Dok u nekim specijalnim slucajevima mozemo umesto p*(1-p) koristiti (X_sr*(1-X_sr)). Za to mora da bude ispunjeno:
#  - parametar p - ne sme da bude blizu 0 ili 1.
#  - n>=100, tj da imamo dovoljno mnogo elemenata uzorka.
# U tom slucaju vise nemamo kvadratne nejednacine vec direktne vrednosti koje cemo da ubacimo i brzo izrazimo i dobijemo trazeni interval poverenja.

# (4)
# Od 500 ljudi, 285 se izjasnilo protiv. Naci 90% interval poverenja za verovatnocu da se slucajno odabrana osoba izjasni protiv.

# resenje:
# Kako se ta statistika aproksimira normalnom raspodelom, odmah nadjemo trazenu vrednost za "c".
# primetimo da je (1+beta)/2=(1+0.9)/2=0.95
c=qnorm(0.95)
c

# Dalje imamo:
# P{-c<=(X_{sr}-p)/sqrt(p*(1-p))*sqrt(n)<=c}
# mozemo da aproksimiramo sa 
# X_sr*(1-X_sr), jer n=500>100 i p~0.57
n=500
x_sr=285/500
x_sr

# dalje nadjemo donju, odnosno gornju vrednost intervala:
a=x_sr-c*sqrt(x_sr*(1-x_sr))/sqrt(n)
b=x_sr+c*sqrt(x_sr*(1-x_sr))/sqrt(n)

# trazeni interval poverenja za "p":
(interval=c(a,b))

# (5)
# Istrazivac procenjuje procenat gojaznih osoba sa visokim krvnim pritiskom.
# Od 25 ispitanika - 20 ima visok pritisak.
# Naci 95% interval poverenja za parametar p, koji predstavlja verovatnocu 
# da gojazna osoba ima visok krvni pritisak.

# resenje:
# ovde ne mozemo da primenimo aproksimaciju, jer n=25<100.
# Zato moramo da resimo kvadratnu nejednacinu. Ali pre toga vrednost za c:
beta=0.95
c=qnorm((1+beta)/2)
c

#
x_sr=20/25
# P{-c<=(X_{sr}-p)/sqrt(p*(1-p))*sqrt(n)<=c}
# = P{-1.96<=(0.8-p)/sqrt(p*(1-p))*5<=1.96}
# = P{|0.8-p|<=1.96*sqrt(p*(1-p))/5} sto sada kvadriramo:
# = P{0.8^2-1.6*p+p^2<=1.96^2*(p-p^2)/25}
# odakle klasicnim metodama dobijamo: 
#(vrednosti su zaokruzene na dve decimale)
a=0.61
b=0.91
(interval=c(a,b))

# (6)
# Naci 90% i 80% interval poverenja za istrazivanje u kojem je 
# ucestvovalo 100 ljudi
# i srednja vrednost je 0.45.

# Mozemo iskoristiti aproksimacije p*(1-p) = X_sr(1-X_sr)

# Z = (X_sr - p)/ sqrt[X_sr(1-X_sr)] * sqrt(n)
c_90 = qnorm((1+0.9)/2) # 1.64
c_80 = qnorm((1+.8)/2) # 1.28

(interval_90 = c(0.45 - c_90*sqrt(0.45*.55) / 10, 0.45 + c_90*sqrt(0.45*.55) / 10 ) ) 
(interval_80 = c(0.45 - c_80*sqrt(0.45*.55) / 10, 0.45 + c_80*sqrt(0.45*.55) / 10 ) ) 


# (7)
# Student zeli da istrazi procenat levorukih osoba. 
# Ispitano je 100 ljudi od kojih je samo 5 levorukih.
# Ako se nadje 90% interval poverenja da li ce on sadrzati vrednost 0.1? 
# Ako ne - koliko-procentni interval poverenja treba da trazimo?

# Da li 0.1 pripada (a, b) , ako P(a<=p<=b)=0.9?
# p = 5%, sto jeste blizu nule. Ovde ne smemo da koristimo aproksimaciju 
# za disperziju uzorka. 

# Test statistika nam je Z = sqrt(n)*[X_sr - p] / sqrt[p*(1-p)]

# P(a<=p<=b) = 0.9
# P(-c <= Z <= c) = 0.9
c = qnorm((1+0.90)/2) # 1.64
# P(|X_sr - p| <= c*sqrt(p*(1-p)/n)) =
# P(X_sr^2 - 2_X_sr*p + p^2 <= c^2*p(1-p)/n) = 
# 
a = 0.025
b = 0.099
(interval_1 = c(a, b) )
# ne upada 0.1

# ali za beta = 0.91 vec upada jer je c tada
c = qnorm((1+0.91)/2) # 1.69
# i interval je (0.024, 0.10001) otprilike.

# (8)
# Od poslednjih 10 puta kada je tostirani sendvic pao - devet puta 
# je pao na "ukusnu stranu".
# Ako je uzorak iz Bernulijeve raspodele sa parametrom p, 
# naci 80% interval poverenja da sendvic pada na "ukusnu stranu".

# X_sr = 0.9 nije dovoljno daleko od 1, a i n=10 je bas malo.
# Test statistika je Z = [X_sr - p] / sqrt[p(1-p)/n]
# P{a<=p<=b} = P{-c <= Z <= c} = 0.8
c = qnorm(1.8/2) # 1.28
a = 0.72
b = 0.97
interval = c(a, b)


# Ukoliko ipak primenimo aproksimaciju:
#(interval = c(0.9 - c*sqrt(0.1*0.9/10),0.9 + c*sqrt(0.1*0.9/10) ) )
# Moramo da izbacimo ove vrednost preko 1 iz intervala poverenja.
#(interval = c(max(0, 0.9 - c*sqrt(0.1*0.9/10)), min(1, 0.9 + c*sqrt(0.1*0.9/10))))
# Dobijamo skroz drugacije intervale.


# (9)
# Izvrseno je ispitivanje 250 ljudi, ocenjeno p odgovora je 0.45.
# Isto istrazivanje je ponovljeno na 1000 ljudi i dobijen isti odnos.
# Naci 95% interval poverenja u oba slucaja. Koliko puta je drugi manji od prvog?
# Koliko veliko treba da bude n u istrazivanju da bi 95% interval poverenja 
# bio duzine ne vece od 0.01.

# Z = [X_sr - p] / sqrt[X_sr(1-X_sr)/n]

c_95 = qnorm(0.975) # 1.96

interval_250 = c(0.45 - c_95*sqrt(0.45*0.55/250), 0.45 + c_95*sqrt(0.45*0.55/250))
# (0.39, 0.51)
diff(interval_250) # 0.12334

interval_1000 = c(0.45 - c_95*sqrt(0.45*0.55/1000), 0.45 + c_95*sqrt(0.45*0.55/1000))
interval_1000
# (0.42, 0.48)
diff(interval_1000) # 0.06167

# Bolje u obliku funkcije da se zapise.
duzina_intervala <- function(n)
{
  interval_1000 = c(0.45 - c_95*sqrt(0.45*0.55/n), 0.45 + c_95*sqrt(0.45*0.55/n))
  return(diff(interval_1000))
}
duzina_intervala(38031)

# Trazeno n nalazimo na sledeci nacin:
(duzina_intervala(250)/0.01)^2*250
# ~38031

# (10)
# Bajesovski intervali pokrivanja/prekrivanja (credible interval).

# X iz Bernulijeve sa parametrom p. Dobijen PSU duzine n=250
# Apriorna za p je Beta(2, 3).
# Tada aposteriorna je Beta(sum(x)+2, n - sum(x)+3)
# Naci interval prekrivanja za beta= 0.9

x = sample(x = c(0,1), size = 250, replace = TRUE, prob = c(0.45, 0.55))
suma = sum(x)
suma
# Interval prekrivanja je P(a<= p <= b | X) = 0.9
b = qbeta(0.95, suma + 2, -suma + 3 + 250)
a = qbeta(0.05, suma + 2, -suma + 3 + 250)
interval = c(a, b)
interval
# prava vrednost je bila 0.45. a srednja 0.456.