Statistika

Populacija $\Omega$ (osnovni skup)

Elementi $\Omega$ - elementi populacije

Obim populacije - broj elemenata skupa $\Omega$

Obilježje populacije - neka osobina koju ima svaki element populacije

Obilježje populacije je funkcija $X:\Omega \to \mathbb{R}$

Uzorak - podskup od $\Omega$ na kojem registrujemo vrijednost obilježja populacije i na osnovu kojeg donosimo zaključke o obilježju nad cijelom populacijom

Uzorak je reprezentativan ako se iz njega mogu dobiti zaključci koji važne za cijelu populaciju

Prost slučajan uzorak obima n je $(X_1,X_2,...,X_n)$, pri čemu su sve velichine $X_i$ nezavisne i imaju istu raspodjelu kao $X$.

Realizovan uzorak čine konkretne vrijednosti obilježja dobijene na jedinicama populacije koje su izabrane u uzorak, $(x_1,x_2,...,x_n)$.

Važne statistike

Statistike poretka

Neka je $(X_1, X_2,..., X_n)$ uzorak iz raspodele F i neka je $(x_1, ..., x_n)$ jedna realizacija tog uzorka. Poredjamo brojeve $x_1, ..., x_n$ po velicini u rastući niz. Dobijamo niz $x_{(1)} \leq x_{(2)} \leq ... \leq x_{(n)}$. Sluchajnu velichinu $X_{(k)}$ nazivamo k-tom statistikom poretka a niz $X_{(1)} \leq X_{(2)} \leq ... \leq X_{(n)}$ varijacionim nizom.

\[ X_{(1)}=min(X_1,..., X_n)\] \[X_{(n)}=max(X_1,..., X_n).\]

Neka je $(X_1, ..., X_n)$ uzorak iz raspodele F.

\[F_n(x)=\frac{1}{n} \sum\limits_{k=1}^n I\{X_k \leq x\}\]

zove se empirijska funkcija raspodele.

Primjer:

x<-rpois(20, lambda = 3)
table(x)

## x
## 0 1 2 3 4 5 7 
## 2 4 7 3 1 2 1

Fn<-ecdf(x)
plot(Fn, main="Empirijska funkcija raspodjele")

#### Teorema [Glivenko-Kanteli]:

\[P\{\lim\limits_{N\to \infty} \sup\limits_{x \in \mathbb{R}}|F_N(x)-F(x)|=0\}=1\]

Primjer:

x<-runif(1000)
Fn<-ecdf(x)
plot(Fn, main="Empirijska funkcija raspodjele")
curve(punif(x), from = -1, to= 2, add = T, col="blue")

Uzoračka sredina

\[ \overline{X}_n=\frac{1}{n}\sum\limits_{i=1}^{n}X_i \]

Uzoračka disperzija

\[\frac{1}{n}\sum\limits_{i=1}^{n}(X_i-\overline{X}_n)^2 \]

Popravljena uzoračka disperzija

\[\frac{1}{n-1}\sum\limits_{i=1}^{n}(X_i-\overline{X}_n)^2 \]

Histogram

Histogram je graficka reprezentacija raspodele niza datih numerickih podataka.

Koristi se za ocjenu funkcije gustine raspodjele.

Histogram se pravi na sledeći način:

1) Dobijeni podaci se sortiraju.

2) Odabere se duÅ¾ina podeoka d.

3) Podijeli se cio interval (raspon podataka) na podintervale duzine d.

4) Na x-osi se oznache ti dobijeni intervali, a na odgovarajuća vrijednost na y-osi je broj elemenata iz uzorka koji su upali u taj interval.

U R-u postoji ugradjena funkcija “hist()”.

Dva važna argumenta funkcije su:

x- vektor čiji histogram želimo da prikažemo

breaks - tu predajemo vektor sa krajevima svakog podintervala.

Kad pravimo histogram prvo treba da odaberemo koliko ćemo kategorija (odnosno tih podintervala) da imamo.

Taj broj dobijamo iz formule:

\[ k=[\log_2(N)]+1 \]

k-broj kategorija, N-obim uzorka (veličina tog vektora)

Odavde možemo naći širinu svakog intervala po formuli

\[ d=\frac{R}{k} \]

gdje je R- raspon uzorka (razlika najvećeg i najmanjeg člana “range(x)”)

Zadaci

1. Tvrdi se da je prosječna minimalna cena bezolovnog benzina u Americi bila 1.35$. U reklamne svrhe kompanija želi da pokaze kako je njihova cijna niza. Da bi potkrijepili svoju tvrdnju, statističari iz firme su sakupili sledeće podatke na osnovu slučajnog uzorka:

cijene<-c(1.22, 1.37, 1.27, 1.20, 1.42, 1.41, 1.22, 1.24,
  1.28, 1.42, 1.48, 1.32, 1.40, 1.26, 1.39, 1.45,
  1.44, 1.49, 1.47, 1.47, 1.24, 1.34, 1.27, 1.35,
  1.34, 1.45, 1.49, 1.45, 1.23, 1.20, 1.42, 1.34,
  1.43, 1.21, 1.49, 1.36, 1.24, 1.20, 1.45,
  1.23, 1.25, 1.24, 1.35, 1.23, 1.39, 1.38,
  1.46, 1.48, 1.26, 1.36, 1.22, 1.46, 1.39,
  1.22, 1.29, 1.47, 1.24, 1.35, 1.21, 1.21)

Napisati program u R-u koji računa uzoračku sredinu i medijanu, uzorački raspon, i iscrtava histogram nad zadatim podacima.

mean(cijene)

## [1] 1.340167

median(cijene)

## [1] 1.35

range(cijene)

## [1] 1.20 1.49

# Napomena: Naći ove statistike bez korišćenja ugrađenih funkcija

# Pravimo histogram:
n<-length(cijene)
k<-floor(log(n, base=2) ) +1
d<-diff(range(cijene))/k
k

## [1] 6

## [1] 0.04833333

# Sortiramo vektor:

cijene<-sort(cijene)

# Pravimo podjelu na intervale:

podjela<-cijene[1]+0:k * d
podjela

## [1] 1.200000 1.248333 1.296667 1.345000 1.393333 1.441667 1.490000

hist(cijene, breaks = podjela)

# Hoćemo da uporedimo histogram koji se dobija ako ne zadamo sami podjele:

par(mfrow=c(1,2))
hist(cijene, breaks=podjela)
hist(cijene)

2. Prilikom proučavanja rasta djece, posmatra se obim glave deteta pri rođenju izraženo u cm. Dobijeni su sledeći podaci:

obim<-c(33.1, 33.7, 33.7, 33.8, 33.4,
  33.9, 33.6, 33.4, 34.1, 34.2,
  34.5, 34.2, 34.6, 34.9, 34.8,
  34.0, 34.5, 34.2, 34.2, 34.7,
  34.7, 34.6, 34.3, 34.3, 34.2,
  35.1, 36.0, 35.8, 35.2, 35.6,
  36.1, 35.1, 35.3, 35.2)

Napisati program u R-u koji iscrtava histogram i stablo-lišće dijagram nad zadatim podacima.

n<-length(obim)
k<-floor(log(n,2))+1
d<-diff(range(obim))/k
podjela<-sort(obim)[1]+0:k*d
hist(obim, breaks = podjela)

# Stablo- lišće dijagram
stem(obim)

## 
##   The decimal point is at the |
## 
##   33 | 144
##   33 | 67789
##   34 | 012222233
##   34 | 55667789
##   35 | 11223
##   35 | 68
##   36 | 01

Za domaći pronađite uzoračku srednju vrijednost, medijanu i kvantile.

3. Dati su sledeći rezultati ispita:

rezultati<-c(28, 27, 26, 25, 24, 23, 21, 21, 20, 19, 19, 18, 18, 18, 17, 17, 17, 17,
  16, 16, 16, 15.5, 15, 15, 15, 15, 14, 13, 13, 13, 13, 12, 12, 11, 11, 
  11, 11, 11, 10, 10, 10, 9, 9, 8, 7, 6, 5, 4, 0, 0, 25, 23, 21, 21, 21, 
  21, 20, 19.5, 19, 19, 18, 18, 17, 17, 17, 17, 16, 15, 15, 15, 14, 14, 
  14, 13.5, 13, 13, 12, 12, 10, 10, 9, 9, 9, 9, 8,  7, 7, 7, 7, 5, 5, 5, 
  5, 4, 3, 2)

Odrediti: histogram, uzoračku sredinu, uzoračku disperziju, uzoračko standardno odstupanje, medijanu, stablo-lišće, kvantile?

# Uzoracka sredina
mean(rezultati)

## [1] 13.77604

# Uzoracka disperzija 
var(rezultati)

## [1] 38.12563

# Standardno odstupanje
sd(rezultati)

## [1] 6.174596

# Medijana
median(rezultati)

## [1] 14

# Stablo-lišće 
stem(rezultati)

## 
##   The decimal point is 1 digit(s) to the right of the |
## 
##   0 | 002344
##   0 | 5555567777788999999
##   1 | 0000011111222233333344444
##   1 | 55555556666677777777888889999
##   2 | 000111111334
##   2 | 55678

# Kvantili
quantile(rezultati)

##   0%  25%  50%  75% 100% 
##    0    9   14   18   28

# pokazuje koje vrijednosti statistika poretka imamo na 0%, 25%, 50% (medijana)
# 75% i 100%.

k<-floor(log(length(rezultati) , 2)) +1
d<-diff(range(rezultati))/k
podjela<-sort(rezultati)[1]+0:k*d
hist(rezultati, breaks=podjela)

```

Statistika

Populacija \(\Omega\) (osnovni skup)

Elementi \(\Omega\) - elementi populacije

Obim populacije - broj elemenata skupa \(\Omega\)

Obilježje populacije - neka osobina koju ima svaki element populacije

Obilježje populacije je funkcija \(X:\Omega \to \mathbb{R}\)

Uzorak - podskup od \(\Omega\) na kojem registrujemo vrijednost obilježja populacije i na osnovu kojeg donosimo zaključke o obilježju nad cijelom populacijom

Uzorak je reprezentativan ako se iz njega mogu dobiti zaključci koji važne za cijelu populaciju

Prost slučajan uzorak obima n je \((X_1,X_2,...,X_n)\), pri čemu su sve velichine \(X_i\) nezavisne i imaju istu raspodjelu kao \(X\).

Realizovan uzorak čine konkretne vrijednosti obilježja dobijene na jedinicama populacije koje su izabrane u uzorak, \((x_1,x_2,...,x_n)\).

Važne statistike

Statistike poretka

Neka je \((X_1, ..., X_n)\) uzorak iz raspodele F.

zove se empirijska funkcija raspodele.

Primjer:

Primjer:

Uzoračka sredina

Uzoračka disperzija

Popravljena uzoračka disperzija

Histogram

Histogram je graficka reprezentacija raspodele niza datih numerickih podataka.

Koristi se za ocjenu funkcije gustine raspodjele.

Histogram se pravi na sledeći način:

1) Dobijeni podaci se sortiraju.

2) Odabere se duÅ¾ina podeoka d.

3) Podijeli se cio interval (raspon podataka) na podintervale duzine d.

4) Na x-osi se oznache ti dobijeni intervali, a na odgovarajuća vrijednost na y-osi je broj elemenata iz uzorka koji su upali u taj interval.

U R-u postoji ugradjena funkcija “hist()”.

Dva važna argumenta funkcije su:

x- vektor čiji histogram želimo da prikažemo

breaks - tu predajemo vektor sa krajevima svakog podintervala.

Kad pravimo histogram prvo treba da odaberemo koliko ćemo kategorija (odnosno tih podintervala) da imamo.

Taj broj dobijamo iz formule:

k-broj kategorija, N-obim uzorka (veličina tog vektora)

Odavde možemo naći širinu svakog intervala po formuli

gdje je R- raspon uzorka (razlika najvećeg i najmanjeg člana “range(x)”)

Zadaci

1. Tvrdi se da je prosječna minimalna cena bezolovnog benzina u Americi bila 1.35$. U reklamne svrhe kompanija želi da pokaze kako je njihova cijna niza. Da bi potkrijepili svoju tvrdnju, statističari iz firme su sakupili sledeće podatke na osnovu slučajnog uzorka:

Napisati program u R-u koji računa uzoračku sredinu i medijanu, uzorački raspon, i iscrtava histogram nad zadatim podacima.

2. Prilikom proučavanja rasta djece, posmatra se obim glave deteta pri rođenju izraženo u cm. Dobijeni su sledeći podaci:

Napisati program u R-u koji iscrtava histogram i stablo-lišće dijagram nad zadatim podacima.

Za domaći pronađite uzoračku srednju vrijednost, medijanu i kvantile.

3. Dati su sledeći rezultati ispita:

Odrediti: histogram, uzoračku sredinu, uzoračku disperziju, uzoračko standardno odstupanje, medijanu, stablo-lišće, kvantile?