Na samom početku, treba da uvedemo dvije nove raspodjele koje ćemo nadalje često koristiti.

\(\chi^2\) raspodjela

Neka su \(X_1, X_2, \dots, X_n\) nezavisne i jednako raspodijeljene slučajne veličine iz standardne normalne raspodjele \(\mathcal{N}(0,1)\). Tada zbir kvadrata \(X_1^2+\dots+X_n^2\) ima hi kvadrat raspodjelu sa \(n\) stepeni slobode, u oznaci \(\chi^2_n\).
Često za slučajnu veličinu sa ovom raspodjelom koristimo istu oznaku \(\chi^2_n\). Ispostavlja se je ta raspodjela zapravo gama \(\gamma(\frac{n}{2},\frac{1}{2})\), pa sve osobine možemo izvesti iz osobina gama raspodjele. Na primjer, znamo da ako \(X\) ima \(\gamma(\alpha,\beta)\) raspodjelu onda je \(EX=\frac{\alpha}{\beta}\), a \(DX=\frac{\alpha}{\beta^2}\), pa je \(E\chi^2_n=n\), a \(D\chi^2_n=2n\).

# Za ovu raspdjelu koristimo pomocne funkcije rchisq, pchisq, qchisq, dchisq
# Argument df (degrees of freedom) je broj stepeni slobode

# Primjer: kriva gustine za chi kvadrat raspodjelu sa 3 stepena slobode:

curve(dchisq(x, df=3), lwd=2, col="pink", xlim= c(0,10), xlab = "", ylab = "", main="")

Studentova raspodjela (\(t\)-raspodjela)

Neka su opet \(X_1,\dots,X_n, Z\) nezavisne i jednako raspodijeljene slučajne veličine iz standardne normalne raspodjele. Tada slučajna veličina \[ \frac{Z}{\sqrt{\frac{1}{n}(X_1^2+\dots+X_n^2)}} \] ima Studentovu raspodjelu sa \(n\) stepeni slobode. Napomena: Za velike vrijednosti parametra \(n(n>=50)\) Studentovu raspodjelu možemo aproksimirati noramlnom, što ilustruje sledeći primjer.

# # Za ovu raspdjelu koristimo pomocne funkcije rt, pt, qt, dt
# Argument df (degrees of freedom) je broj stepeni slobode

# Primjer: kriva gustine za Studentovu raspodjelu sa 50 stepeni slobode (roza) u poredjenju
# sa standardnom normalnom (crna)

curve(dt(x, df=50), lwd=2, xlim= c(-5,5), xlab = "", ylab = "", main="")

curve(dnorm(x), lwd=2, col="pink", xlim= c(-5,5), xlab = "", ylab = "", main="", add = T)

Koja je motivacija da se posebno definišu \(\chi^2\) i Studentova raspodjela? Ispostavlja se da neke važne statistike imaju baš ove raspodjele. Neka je dat prost slučajan uzorak iz normalne raspdjele \(\mathcal{N}(m,\sigma^2)\). Tri važne statistike (koje treba znati) su:

Intervali povjerenja

Neka je \(X_1,\dots,X_n\) prost slučajan uzorak i \(\theta\) nepoznat parametar raspodjele tog uzorka. Neka su \(L_n=L_n(X_1,\dots,X_n)\) i \(U_n=U_n(X_1,\dots,X_n)\) za koje važi \(P\{L_n \leq \theta \leq U_n\}=\beta\). Tada interval \((L_n,U_n)\) zovemo \(\beta\%\) dvostranim intervalom povjerenja za parametar \(\theta\), a \(\beta\) nivoom povjerenja. Kada na osnovu uzorka dobijemo realizovane vrijednosti ovih statistika \((l_n,u_n)\) bice interval povjerenja za \(\theta\) na osnovu tog uzorka. Medjutim, treba voditi računa o interpretaciji ovakvog intervala povjerenja: ne možemo reći da je vjerovatnoća da se \(\theta\) nadje izmedju BROJEVA \(u_n\) i \(l_n\) jednaka \(\beta\) jer parametar nema svoju raspodjelu, smatramo ga konstantom a ne slučajnom veličinom ( u ovom frekvencionističkom pristupu). Tačnije bi bilo reći da će se stvarna vrijednost parametra \(\theta\) naći izmedju brojeva \(u_n\) i \(v_n\) u \(95\%\) slučajeva. ( Pročitati detaljnije o intervalima povjerenja u skripti profesorke.)

  1. \(\sqrt{n}\frac{\overline{X}_n-m}{\sigma} \in \mathcal{N}(0,1)\)

Obrazloženje: Znamo da linerarna kombinacija normalnih slučajnih veličina ima normalnu raspodjelu. Da bismo odredili paramtre te raspodjele, treba zapravo da nadjemo očekivanje i disperziju ove statistike. Od ranije nam je poznato da je \(E(\overline{X}_n)=m\), a disperzija \(D(\overline{X}_n)=\frac{\sigma^2}{n}\), pa je \(E(\sqrt{n}\frac{\overline{X}_n-m}{\sigma})=\frac{\sqrt{n}}{\sigma}(E(\overline{X}_n)-m)=0\) i slično dobijamo da je disperzija jednaka 1.

  1. \(\sqrt{n-1}\frac{\overline{X}_n-m}{\overline{S}_n} \sim t_{n-1}\) ili \(\sqrt{n}\frac{\overline{X}_n-m}{\widetilde{S}_n} \sim t_{n-1}\),

gdje je \(\overline{S}_n=\sqrt{\overline{S}^2_n}\), a \(\widetilde{S}_n=\sqrt{\widetilde{S}^2_n}\).

  1. \(\frac{n\overline{S}_n^2}{\sigma^2} \sim \chi^2_{n-1}\) ili \(\frac{(n-1)\widetilde{S}^2_n}{\sigma^2} \sim \chi^2_{n-1}\)

Primijetimo da su ove dvije statistike ekvivalentne jer znamo da važi \(n\overline{S}_n^2=(n-1)\widetilde{S}^2_n\).

Važna napomena: Ako nemamo pretpostavlku o normalnosti uzorka, onda za veliki obim uzorka \(n\) možemo smatrati da statistike 1. 2. i 3. imaju date raspodjele zbog važenja centralne granične teoreme.

1. Naći 95%-tni interval povjerenja za nepoznati parametar \(m\) ako je dat uzorak iz normalne \(\mathcal{N(m, 100)}\) raspodjele za koji je \(\overline{x}_n=118, \ n=64\).

Kako je disperzija \(\sigma^2=100\) poznata, koristićemo činjenicu da \[ \sqrt{n}\frac{\overline{X}_n - m}{\sigma} \in \mathcal{N}(0,1),\] što slijedi iz osobina matematičkog očekivanja i disperzije, jer je \(E(\overline{X}_n)=m\), a \(D(\overline{X}_n)=\frac{\sigma^2}{n}\). Dalje, hoćemo da nađemo \(c\) za koje važi \[P\left\{-c \leq \sqrt{n}\frac{\overline{X}_n - m}{\sigma} \leq c\right\}=0.95 .\] U tom slučaju, jednostavnim transformacijama (množenje sa \(\sigma/\sqrt{n}\) i slično) dobijamo da važi \[ P\{\overline{X}_n-c\frac{\sigma}{\sqrt{n}} \leq m \leq \overline{X}_n+c\frac{\sigma}{\sqrt{n}}\}=0.95, \] pa je traženi interval povjerenja \[(\overline{X}_n-c\frac{\sigma}{\sqrt{n}}, \overline{X}_n+c\frac{\sigma}{\sqrt{n}}).\]

Kako da nađemo \(c\)? Vratimo se na uslov \[P\{-c \leq \sqrt{n}\frac{\overline{X}_n - m}{\sigma} \leq c\}=0.95.\]

Pošto je normalna raspodjela simetrična, znamo da vjerovatnoće obilježene na slici moraju biti iste, a pošto je integral gustine jednak 1 na cijeloj realnoj pravoj (tj. površina ispod grafika krive gustine) one ukupno iznose \(1-0.95\), odnosno svaka od njih \((1-0.95)/2\). Odatle možemo da zaključimo da je \(\Phi(c)=1-0.025=0.975\), pa je \(c=\Phi^{-1}(0.975)\). Tu vrijednost u R-u dobijamo pozivom qnorm(0.975). Na osnovu datih podataka za uzorak možemo izračunati konkretne vrijednosti, odnosno realizovani interval povjerenja:

n <- 64
xn <- 118
sigma2 <- 100

c1 <- qnorm (0.975)
c1
## [1] 1.959964
interval_povjerenja <- c(xn - c1*sqrt(sigma2/n) , xn + c1*sqrt(sigma2/n))
interval_povjerenja
## [1] 115.55 120.45

Dakle, dobili smo da je interval povjerenja za nepoznati parametar \(m\) \((115.55 ,120.45)\).

2. Naći 95%-tni interval povjerenja za \(m\) na osnovu uzorka obima \(n\) ako je \(X \sim\mathcal{N}(m,\sigma^2)\) gdje je \(\sigma^2\) nepoznato, ako je \(n=25, \ \overline{x}_n=2.6, \ \overline{s}_n^2=170.36\).

U ovom slučaju, kada je disperzija \(\sigma^2\) nepoznata, ne možemo da koristimo statistiku iz prvog zadatka. Prirodno bi bilo da ocijenimo \(\sigma^2\) uzoračkom disperzijom \(\overline{S}_n^2\) ili popravljenom uzoračkom disperzijom \(\widetilde{S}_n^2\). To nas navodi da u ovom slučaju treba iskoristiti jednu od pomenutih statistika pod brojem 2. Posmatrajmo, na primer, \[ \sqrt{n}\frac{\overline{X}_n-m}{\widetilde{S}_n} \sim t_{n-1} \]

Kako je Studentova raspodjele simetrična oko nule, slično kao u prvom zadatku tražimo simetričan interval povjerenja, odnosno hoćemo da nađemo konstantu \(c\) takvu da važi \[ P\left\{-c \leq \sqrt{n}\frac{\overline{X}_n-m}{\widetilde{S}_n} \leq c \right\}=0.95. \] Množenjem sa \(\widetilde{S}_n/\sqrt{n}\) i oduzimanjem \(\overline{X}_n\) svodi se na \[ P\left\{-c\frac{\widetilde{S}_n}{\sqrt{n}}-\overline{X}_n \leq -m \leq c\frac{\widetilde{S}_n}{\sqrt{n}}-\overline{X}_n\right\}=0.95, \] pa množenjem sa -1 dobijamo \[ P\left\{\overline{X}_n-c\frac{\widetilde{S}_n}{\sqrt{n}} \leq m \leq \overline{X}_n+c\frac{\widetilde{S}_n}{\sqrt{n}}\right\}=0.95. \] Treba da nađemo konstantu \(c\). Oblik krive gustine studentove raspodjele je sličan kao kod normalne, pa uz pomoć slike iz prvog zadatka možemo da zaključimo da je \(F_{t_{n-1}}(c)=0.025+0.95=1-0.025=0.975,\) odakle dobijamo \(c=F^{-1}_{t_{n-1}}(0.975)\). Ovaj kvantil Studentove raspodjele možemo dobiti pozivom qt(0.975, df=n-1). Dakle, traženi interval povjerenja je \((\overline{X}_n-c\frac{\widetilde{S}_n}{\sqrt{n}},\leq \overline{X}_n+c\frac{\widetilde{S}_n}{\sqrt{n}})\). Dalje je zadatak odrediti konkretne vrijednosti na osnovu datog uzorka.

n <- 25  # obim uzorka
sn2 <- 170.36 # popravljena uzoracka disperzija 
xn <- 2.6 # uzoracka sredina 
beta <- 0.95 # nivo povjerenja 

c1 <- qt((1+beta)/2, 24) # kvantil studentove raspodjele sa 25-1=24 stepena slobode 
c1
## [1] 2.063899
interval_povjerenja <- c(xn - c1*sqrt(sn2/(n-1)) , xn + c1*sqrt(sn2/(n-1)))
interval_povjerenja  # realizovani interval povjerenja 
## [1] -2.898783  8.098783

3.1 Neka je dat uzorak iz normalne raspodjele \(\mathcal{N}(m,\sigma^2)\) obima 20 za koji je izračunata uzoračka sredina \(\widetilde{s}_n^2=21.12\). Naći 99%-tni dvostrani interval povjerenja za nepoznati parametar \(\sigma^2\).

Kada tražimo interval povjerenja za nepoznatu disperziju, najpogodnije je da koristimo statistiku po brojem 3., odnosno \[ \frac{(n-1)\widetilde{S}_n^2}{\sigma^2} \sim \chi^2_{n-1}. \] Kako \(\chi^2\) raspodjela nije simetrična, nećemo tražiti konstantu \(c\) kao u prethodna dva zadatka, ali ono što možemo da rasporedimo simetrično jesu vjerovatnoće lijevo i desno od intervala povjerenja. Na primer, ako se traži interval povjerenja sa nivoom povjerenja \(\beta\), hoćemo da nađemo konstante \(c_1\) i \(c_2\) takve da je vjerovatnoc1a da data statistika uzme vrijednost manju od \(c_1\) bude ista kao vjerovatnoća da uzme vrijednost veću od \(c_2\), a to onda mora biti \((1-\beta)/2\), što ilustruje sledeća slika:

Možemo da zaključimo da je \(F_{\chi^2_{n-1}}(c_1)=(1-\beta)/2\), a \(F_{\chi^2_{n-1}}(c_2)=\beta+(1-\beta)/2=(1+\beta)/2\), pa je \(c_1=F^{-1}_{\chi^2_{n-1}}((1-\beta)/2)\), a \(c_2=F^{-1}_{\chi^2_{n-1}}((1+\beta)/2)\). U ovom zadatku, kada uzmemo konkretne vrijednosti za \(n\) i \(\beta\) dobijamo da je \(c_1=F^{-1}_{\chi^2_{19}}(0.05)\) i \(c_2=F^{-1}_{\chi^2_{19}}(0.995)\). Tražene kvantile hi kvadrat raspodjele možemo dobiti pozivom qchisq(0.05, df = 19) i qchisq(0.995, df = 19). Kako na osnovu predložene statistike dobijamo interval povjerenja za \(\sigma^2\)? Na osnovu prethodne priče, zadajemo uslov \[ P\left\{c_1 \leq \ \frac{(n-1)\widetilde{S}_n^2}{\sigma^2} \leq c_2\right\}=\beta \] \[ \Leftrightarrow \] \[ P\left\{\frac{c_1}{(n-1)\widetilde{S}^2_n} \leq \frac{1}{\sigma^2} \leq \frac{c_2}{(n-1)\widetilde{S}^2_n}\right\}=\beta \] \[ \Leftrightarrow \] \[ P\left\{\frac{(n-1)\widetilde{S}^2_n}{c_2} \leq \sigma^2 \leq \frac{(n-1)\widetilde{S}^2_n}{c_1}\right\}=\beta, \] pa je interval povjerenja za \(\sigma^2\) jednak \(\left(\frac{(n-1)\widetilde{S}^2_n}{c_2} , \frac{(n-1)\widetilde{S}^2_n}{c_1}\right)\). Hoćemo da uvrstimo konkretne vrijednosti realizovanog uzorka:

n <- 20 # obim uzorka
sn2 <- 21.12 # popravljena uzoracka disperzija
beta <- 0.99 # nivo povjerenja 
c1 <- qchisq( (1-beta)/2 , 19) # kvantili hi kvadrat raspodjele
c2 <- qchisq( (1+beta)/2 , 19)


interval_povjerenja <- c((n-1)*sn2/c2, (n-1)*sn2/c1)
interval_povjerenja
## [1] 10.40064 58.63262
# Za vjezbu: Uraditi zadatak u slucaju da je dat podatak o "obicnoj" uzorackoj diseprziji.

3.2 Naći jednostrani ( gornji i donji ) interval povjerenja za \(\sigma^2\) na osnovu istog uzorka.

I kod jednostranih intervala koristimo istu statistiku kao u dijelu 3.1.

Ako se traži jednostrani gornji \(\beta\%\)-interval povjerenja za \(\sigma^2\), to znači da treba da nađemo neku statistiku \(U_n\) za koju važi \(P\{\sigma^2 \geq U_n\}=\beta\) i u tom slučaju taj interval povjerenja je \((U_n, +\infty)\), jer je \(+\infty\) prirodna gornja granica za \(\sigma^2\). Hoćemo da nađemo konstantu \(d\) takvu da je \[ P\left\{\frac{(n-1)\widetilde{S}_n^2 }{\sigma^2}\leq d\right\}=\beta \] \[ \Leftrightarrow \] \[ P\left\{\sigma^2 \geq \frac{(n-1)\widetilde{S}^2_{n}}{d}\right\}=\beta, \] pa je jednostrani gornji interval \(\left(\frac{(n-1)\widetilde{S}^2_{n}}{d},+\infty\right)\).

Slično, ako se traži jednostrani donji \(\beta\%\)-interval povjerenja za \(\sigma^2\), to znači da treba da nađemo neku statistiku \(V_n\) za koju važi \(P\{\sigma^2 \leq V_n\}=\beta\) i u tom slučaju taj interval povjerenja je \((0,V_n)\), jer je \(0\) prirodna donja granica za \(\sigma^2\).Hoćemo da nađemo konstantu \(f\) takvu da je \[ P\left\{\frac{(n-1)\widetilde{S}_n^2 }{\sigma^2}\geq f\right\}=\beta \] \[ \Leftrightarrow \] \[ P\left\{\sigma^2 \geq \frac{(n-1)\widetilde{S}^2_{n}}{f}\right\}=\beta, \] pa je jednostrani donji interval \(\left(0,\frac{(n-1)\widetilde{S}^2_{n}}{f}\right)\).

Kako tražimo konstante \(d\) i \(f\)? Na osnovu \(\chi^2\) raspodjele statistike i prethodnih uslova znamo da je \(F_{\chi^2_{n-1}}(d)=\beta\) i \(F_{\chi^2_{n-1}}(f)=1-\beta\), pa je \(d=F^{-1}_{\chi^2_{n-1}}(\beta)\) i \(f=F^{-1}_{\chi^2_{n-1}}(1-\beta)\). To ilustruju sledeće slike:

Za konkretne vrijednosti iz zadatka dobijamo:

n <- 20
sn2 <- 21.12
beta <- 0.99

d <- qchisq(0.99, n-1) 

gornji_interval <- c((n-1)*sn2/d, Inf)
gornji_interval
## [1] 11.08788      Inf
f <- qchisq(0.01, n-1)

donji_interval <- c(0, (n-1)*sn2/f)
donji_interval
## [1]  0.00000 52.57359

4. U nekoj anketi od 500 ispitanika 285 se izjasnilo protiv. Naći 90%-tni interval povjerenja za vjerovatnoću da se slučajno odabrana osoba izjasni protiv.

U ovom zadatku prvo treba uvesti neko obilježje i odrediti njegovu raspodjelu. Prirodno je da posmatramo obilježje \(X\) koje uzima vrijednost \(1\) ako se ispitanik izjasni protiv a vrijednost \(0\) ako se izjasni za. Takvo \(X\) imaće Bernulijevu raspodjelu \(Ber(p)\) gdje je \(p\) nepoznati parametar koji predstavlja vjerovatnoću da se ispitanik izjasni protiv. Iako nemamo pretpostavku o normalnosti, interval povjerenja za parametar \(p\) možemo naći slično kao u zadatku 1., jer kao što je na početku pomenuto, na osnovu centralne granične teoreme \[ \sqrt{n} \frac{\overline{X}_n-p}{\sqrt{p(1-p)}} \sim \mathcal{N}(0,1), \] jer je \(E(\overline{X}_n)=p\), a \(D(\overline{X}_n)=p(1-p)/n\) (provjeriti).
Na osnovu podataka iz zadatka \(\overline{x}_n=285/500=0.57\) a obim uzorka \(n=500\). U ovom slučaju, kada je \(n\) veliko \(n \geq 100\) a \(\overline{X}_n\) nije blizu \(0\) ili \(1\), dio imenioca \(p(1-p)\) možemo da aproksimiramo ocjenom \(\overline{X}_n(1-\overline{X}_n)\), pa koristimo statistiku \[ \sqrt{n} \frac{\overline{X}_n-p}{\sqrt{\overline{X}_n(1-\overline{X}_n)}} \sim \mathcal{N}(0,1). \] Dalje, tražimo simetričan interval povjerenja, odnosno konstantu \(c\) takvu da važi

\[ P\left\{-c \leq \sqrt{n} \frac{\overline{X}_n-p}{\sqrt{\overline{X}_n(1-\overline{X}_n)}} \leq c \right\}=\beta \] \[ \Leftrightarrow \quad \text{ (pogledati zadatak 2.)} \] \[ P\left\{\overline{X}_n - c\sqrt{\frac{\overline{X}_n(1-\overline{X}_n)}{n}}\leq p \leq \overline{X}_n+c\sqrt{\frac{\overline{X}_n(1-\overline{X}_n)}{n}}\right\}=\beta \] pa je \(\beta\%\) interval povjerenja za \(p\) \(\left(\overline{X}_n - c\sqrt{\frac{\overline{X}_n(1-\overline{X}_n)}{n}} , \overline{X}_n+c\sqrt{\frac{\overline{X}_n(1-\overline{X}_n)}{n}}\right)\).
Konstanta \(c\) biće kao i u 1.zadatku (radi se o istoj raspodjeli) \(c=\Phi^{-1}(\beta+(1-\beta)/2)=\Phi^{-1}((1+\beta)/2)\) (pogledati sliku). Za konkretan uzorak:

n <- 500
xn <- 285/500
beta <- 0.9

c1 <- qnorm((1+beta)/2)

(interval_povjerenja <- c(xn - c1* sqrt(xn*(1-xn)/n),xn + c1* sqrt(xn*(1-xn)/n)))
## [1] 0.5335822 0.6064178

5. Istraživač procjenjuje procenat gojaznih osoba sa visokim krvnim pritiskom. Od 25 ispitanika 20 ima visok pritisak. Naći 95%-tni interval povjerenja za parametar \(p\) koji predstavlja vjerovatnoću da gojazna osoba ima visok krvni pritisak.

Neka je \(X\) Bernulijeva slučajna veličina sa parametrom \(p\) koji predstavlja vjerovatnoću da je slučajno odabrana gojazna osoba ima visok krvni pritisak. Jasno je da nam je dat uzorak obima 25 koji ima uzoračku sredinu \(\overline{x}_n=20/25=0.8\). Međutim, kako obim uzorka nije velik, ne možemo da iskoristimo aproksimaciju \(\overline{X}_n(1-\overline{X}_n)\) pa interval povjerenja traŽimo na osnovu uslova \[ P\left\{-c \leq \sqrt{n} \frac{\overline{X}_n-p}{\sqrt{p(1-p)}} \leq c\right\}= \beta. \] Kako se nepoznati parametar \(p\) javlja i u brojicu i u imenicu pod korjenom, da bismo došli do odgovarajućeg oblika treba da riješimo kvadartnu jednačinu. Evo kako dolazimo do te kvadratne jednačine: \[ P\left\{\left|\sqrt{n} \frac{\overline{X}_n-p}{\sqrt{p(1-p)}}\right| \leq c\right\}=\beta \] \[ \Leftrightarrow \] \[ P\left\{\left|\sqrt{n} \frac{\overline{X}_n-p}{\sqrt{p(1-p)}}\right|^2 \leq c^2\right\}=\beta \] \[ \Leftrightarrow \] \[ P\left\{p^2(n+c^2)-p(2n\overline{X}_n+c^2)+ n\overline{X}_n^2 \leq 0\right\}=\beta \] Konstanta \(c\) je kao i maloprije \(c=\Phi^{-1}(1+\beta)/2=\Phi^{-1}(0.975)\) i to je qnorm(0.975) približno 1.96.
Ovu nejednačinu lakše ćemo riješiti za konkretne vrijednosti, svodi se na \[ p^2(25+(1.96)^2)-p(2\cdot 25 \cdot 0.8)+25(0.8)^2\leq 0 \] i njena rešenja su \(p_1=0.61\) i \(p_2=0.91\). Dakle, interval povjerenja za parametar \(p\) je \((0.61,0.91)\).

6. Za vježbu: Naći 90%-tni i 80%-tni interval povjerenja za nepoznati parametar \(p\) ako je u istraživanju u kojem učestvuje 100 ljudi dobijena srednja vrijednost 0.45.

7. Za vježbu: Student želi da istraži procenat ljevorukih osoba. Ispitano je 100 ljudi i među njima je samo pet ljevorukih osoba. Ako nađemo 90% interval povjerenja da li će on sadržati vrijednost 0.1? Ako ne, naći neko drugo \(beta\) tako da dobijeni interval sadrži tu vrijednost.

# Upustvo: xn=5/100=0.02 sto je blizu 0 pa ne bi trebalo koristiti aporoksimaciju za p(1-p).
# Ispostavlja se da je 90%-tni interval (0.025 , 0.099) ne sadrzi 0.1, a vec 
# 91% sadrzi. Pokazati ovu tvrdnju. 

8. Za vježbu: Od poslednjih 10 puta kada je tostirani sendvic pao, 9 puta je pao na “ukusnu” stranu. Naći 80% interval povjerenja za vjerovatnoću p da sendvič pada na tu stranu.

9. Izvršeno je ispitivanje 250 ljudi i dobijena ocjena za \(p\) je 0.45. Isto istraživanje je ponovljeno za 1000 ljudi i dobijena je ista ocjena. Naći 95%-tni interval povjerenja u oba slučaja. Koliko je puta drugi interval manji od prvog. Koliko veliko treba da bude \(n\) u istraživanju da bi 95%-tni interval bio dužine ne veće od 0.01?

Dati podaci su \(n_1=250\), \(\overline{x}_{n_1}=0.45\), \(n_2=1000\) i \(\overline{x}_{n_2}=0.45\). U oba slučaja \(n\) je veliko i \(\overline{x}\) nije blizu \(0\) ili \(1\), pa kao u 4. zadatku dobijemo da je interval povjerenja \(\left(\overline{X}_n - c\sqrt{\frac{\overline{X}_n(1-\overline{X}_n)}{n}} , \overline{X}_n+c\sqrt{\frac{\overline{X}_n(1-\overline{X}_n)}{n}}\right)\).
Odatle se lako vidi da je dužina intervala jednaka \[d=2c\sqrt{\frac{\overline{X}_n(1-\overline{X}_n)}{n}}\]. Kako za oba uzorka imamo istu srednju vrijednost i razlikuju se samo obimi, dobijamo da je odnos dužina \[\frac{d_1}{d_2}=\sqrt{\frac{n_2}{n_1}}=\sqrt{\frac{1000}{250}}=2,\] pa je prvi interval dva puta duži.
Što se tiče drugog dijela zadatka, uz pretpostavku da znamo da je \(\overline{x}_n=0.45\) i da nivo povjerenja \(\beta=0.95\) što nam daje \(c=\Phi^{-1}(0.975)\), treba da nađemo najmanje \(n\) tako da dužina intervala \(d=2c\sqrt{\frac{0.45(1-0.45)}{n}} \leq 0.01\). Kada kvadriramo ovo se svodi na nejednakost \[n \geq \frac{4c^2(0.45(1-0.45))}{(0.01)^2}\] što je približno \(38030,4\) pa je traženo \(n\) prvi cio broj veći od ovog odnosno \(38031\). Detalje u vezi sa računom možete pogledati u nastavku.

xn <- 0.45
n1 <- 250
n2 <- 1000
beta <- 0.95

c1 <- qnorm((1+beta)/2)

# duzina intervala povjerenja 

d <- function(n, xn=0.45){
  2 * sqrt(xn*(1-xn)/n) * c1
  
}

# odnos duzina

d(n1)/d(n2) # =2, pa je drugi interval dva puta kraci
## [1] 2
# Trazeno n je:

(n3 <- ceiling(4*c1^2*xn*(1-xn)/(0.01)^2))
## [1] 38031
# Provjeravamo duzinu intervala u tom slucaju
d(n3)
## [1] 0.009999927
d(n3) <= 0.1
## [1] TRUE

PRIMJER INTERVALA POVJERENJA (MONTE KARLO SIMULACIJE)

# Generisacemo 10^5 nezavisnih uzoraka obima n=1000 iz standardne normalne 
# raspodjele N(0,1) i na osnovu svakog od njih pojedinacno naci 95%-tni interval
# povjerenja za parametar m. Zatim provjeravamo procenat intervala koji sadrze
# pravu vrijednost parametra m, u ovom slucaju nulu. Sta ocekujemo kao rezultat?

# Funkcija koja nam za proslijedjeni uzorak vraca odgovarajuci interval
# povjerenja. U ovom slucaju smatramo da je sigma2 poznato i jednako 1.

ip <- function(x, beta = 0.95, sigma = 1) {
  c1 <- qnorm((1 + beta) / 2)
  n <- length(x)
  c(mean(x) - c1 * sigma / sqrt(n), mean(x) + c1 * sigma / sqrt(n))
  
}

# Pravimo matricu koja ima 10^5 redova od po 1000 elemenata. Svaki od redova
# predstavlja jedan nezavisan uzorak iz standardne normalne raspodjele.

m <- matrix(rnorm(10^5 * 1000), nrow = 10^5, ncol = 1000)

#  Za svaku od vrsta trazimo interval povjerenja:

l <- apply(m, 1, function(x) ip(x))

# Na ovaj nacin dobijamo matricu od 2 vrste i 10^5 kolona, odnosno svaka od
# kolona predstavlja po jedan interval povjerenja

# Provjeravamo koji je procenat tih intervala koji sadrze nulu.

a <- apply(l, 2, function(x) x[1] <= 0 && x[2] >= 0)
mean(a)*100 # blizu 95 sto je i ocekivano
## [1] 95.049