Statistika

Populacija $\Omega$ (osnovni skup)

Elementi $\Omega$ - elementi populacije

Obim populacije - broj elemenata skupa $\Omega$

Obilježje populacije - neka osobina koju ima svaki element populacije

Obilježje populacije je funkcija $X:\Omega \to \mathbb{R}$

Uzorak - podskup od $\Omega$ na kojem registrujemo vrijednosti obilježja populacije i na osnovu kojeg donosimo zaključke o obilježju nad cijelom populacijom

Uzorak je reprezentativan ako se iz njega mogu dobiti zaključci koji dobro opisuju cijelu populaciju

Prost slučajan uzorak obima $n$ je $(X_1,X_2,...,X_n)$, pri čemu su sve slučajne veličine $X_i$ nezavisne i imaju istu raspodjelu kao $X$.

Realizovan uzorak čine konkretne vrijednosti obilježja dobijene na jedinicama populacije koje su izabrane u uzorak, $(x_1,x_2,...,x_n)$.

Važne statistike

Statistike poretka

Neka je $(X_1, X_2,..., X_n)$ uzorak iz raspodele F i neka je $(x_1, ..., x_n)$ jedna realizacija tog uzorka. Poredjamo brojeve $x_1, ..., x_n$ po veličini u rastući niz. Dobijamo niz $x_{(1)} \leq x_{(2)} \leq ... \leq x_{(n)}$. Slučajnu veličinu $X_{(k)}$ nazivamo k-tom statistikom poretka a niz $X_{(1)} \leq X_{(2)} \leq ... \leq X_{(n)}$ varijacionim nizom.

\[ X_{(1)}=min(X_1,..., X_n)\] \[X_{(n)}=max(X_1,..., X_n).\]

Uzorački raspon

\[ R=X_{(n)}-X_{(1)}\]

Uzoračka sredina

\[ \overline{X}_n=\frac{1}{n}\sum\limits_{i=1}^{n}X_i \]

Uzoračka disperzija

\[\overline{S}_n^2=\frac{1}{n}\sum\limits_{i=1}^{n}(X_i-\overline{X}_n)^2 \]

Popravljena uzoračka disperzija

\[\widetilde{S}_n^2=\frac{1}{n-1}\sum\limits_{i=1}^{n}(X_i-\overline{X}_n)^2 \]

Neka je $(X_1, ..., X_n)$ uzorak iz raspodele F.

\[F_n(x)=\frac{1}{n} \sum\limits_{k=1}^n I\{X_k \leq x\}\]

zove se empirijska funkcija raspodele.

Primjer (u svesci) Odrediti empirisku funkciju raspodjele za uzorak: `0.5, 1.2, 2, 2.5, 3` i nacrtati njen grafik.

Primjer:

x<-rpois(20, lambda = 3)
table(x)

## x
## 1 2 3 4 5 
## 3 3 7 4 3

Fn<-ecdf(x)
plot(Fn, main="Empirijska funkcija raspodjele")

Teorema [Glivenko-Kanteli]:

\[P\{\lim\limits_{N\to \infty} \sup\limits_{x \in \mathbb{R}}|F_N(x)-F(x)|=0\}=1\]

Primjer:

x<-runif(1000)
Fn<-ecdf(x)
plot(Fn, main="Empirijska funkcija raspodjele")
curve(punif(x), from = -1, to= 2, add = T, col="blue")

Histogram

Histogram je grafička reprezentacija raspodjele niza datih numeričkih podataka.

Koristi se za ocjenu funkcije gustine raspodjele.

Histogram se može dobiti na sledeći način:

1) Dobijeni podaci se sortiraju.

2) Odabere se dužina podioka d.

3) Podijeli se cio interval (raspon podataka) na podintervale duzine $d$.

4) Na x-osi se označe ti dobijeni intervali, a odgovarajuća vrijednost na y-osi je broj elemenata iz uzorka koji su upali u taj interval.

U `R`-u postoji ugradjena funkcija “hist()”.

Dva važna argumenta funkcije su:

`x`- vektor čiji histogram želimo da prikažemo

`breaks` - tu predajemo vektor sa krajevima svakog podintervala.

Kad pravimo histogram prvo treba da odaberemo koliko ćemo kategorija (odnosno tih podintervala) da imamo.

Taj broj dobijamo po formuli:

\[ k=[\log_2(N)]+1 \]

$k$-broj kategorija, $N$-obim uzorka (veličina tog vektora)

Odavde možemo naći širinu svakog intervala po formuli

\[ d=\frac{R}{k} \]

gdje je R- raspon uzorka (razlika najvećeg i najmanjeg elementa uzorka)

Zadaci

1. Tvrdi se da je prosječna minimalna cijena bezolovnog benzina u Americi bila 1.35$. U reklamne svrhe kompanija želi da pokaže kako je njihova cijena niža. Da bi potkrijepili svoju tvrdnju, statističari iz firme su sakupili sledeće podatke na osnovu slučajnog uzorka:

cijene<-c(1.22, 1.37, 1.27, 1.20, 1.42, 1.41, 1.22, 1.24,
  1.28, 1.42, 1.48, 1.32, 1.40, 1.26, 1.39, 1.45,
  1.44, 1.49, 1.47, 1.47, 1.24, 1.34, 1.27, 1.35,
  1.34, 1.45, 1.49, 1.45, 1.23, 1.20, 1.42, 1.34,
  1.43, 1.21, 1.49, 1.36, 1.24, 1.20, 1.45,
  1.23, 1.25, 1.24, 1.35, 1.23, 1.39, 1.38,
  1.46, 1.48, 1.26, 1.36, 1.22, 1.46, 1.39,
  1.22, 1.29, 1.47, 1.24, 1.35, 1.21, 1.21)

Napisati program u R-u koji računa uzoračku sredinu i medijanu, uzorački raspon, i iscrtava histogram nad zadatim podacima.

mean(cijene)

## [1] 1.340167

median(cijene)

## [1] 1.35

range(cijene)

## [1] 1.20 1.49

diff(range(cijene))

## [1] 0.29

# Napomena: Naći ove statistike bez korišćenja ugrađenih funkcija

# Pravimo histogram:
n <- length(cijene)
k <- floor(log(n, base = 2)) + 1
d <- diff(range(cijene)) / k
k

## [1] 6

## [1] 0.04833333

# Sortiramo vektor:

cijene <- sort(cijene)

# Pravimo podjelu na intervale:

podjela <- cijene[1] + 0:k * d
podjela

## [1] 1.200000 1.248333 1.296667 1.345000 1.393333 1.441667 1.490000

hist(cijene, breaks = podjela, main = "")

# Hoćemo da uporedimo histogram koji se dobija ako ne zadamo sami podjele:

par(mfrow = c(1, 2))
hist(cijene, breaks = podjela, main = "")
hist(cijene, main = "")

2. Prilikom proučavanja rasta djece, posmatra se obim glave deteta pri rođenju izraženo u cm. Dobijeni su sledeći podaci:

obim<-c(33.1, 33.7, 33.7, 33.8, 33.4,
  33.9, 33.6, 33.4, 34.1, 34.2,
  34.5, 34.2, 34.6, 34.9, 34.8,
  34.0, 34.5, 34.2, 34.2, 34.7,
  34.7, 34.6, 34.3, 34.3, 34.2,
  35.1, 36.0, 35.8, 35.2, 35.6,
  36.1, 35.1, 35.3, 35.2)

Napisati program u R-u koji iscrtava histogram i stablo-lišće dijagram nad zadatim podacima.

n <- length(obim)
k <- floor(log(n, 2)) + 1
d <- diff(range(obim)) / k
podjela <- sort(obim)[1] + 0:k * d
hist(obim, breaks = podjela, main = "")

# Stablo- lišće dijagram
stem(obim)

## 
##   The decimal point is at the |
## 
##   33 | 144
##   33 | 67789
##   34 | 012222233
##   34 | 55667789
##   35 | 11223
##   35 | 68
##   36 | 01

Za domaći pronađite uzoračku srednju vrijednost, medijanu i kvantile.

3. Dati su sledeći rezultati ispita:

rezultati<-c(28, 27, 26, 25, 24, 23, 21, 21, 20, 19, 19, 18, 18, 18, 17, 17, 17, 17,
  16, 16, 16, 15.5, 15, 15, 15, 15, 14, 13, 13, 13, 13, 12, 12, 11, 11, 
  11, 11, 11, 10, 10, 10, 9, 9, 8, 7, 6, 5, 4, 0, 0, 25, 23, 21, 21, 21, 
  21, 20, 19.5, 19, 19, 18, 18, 17, 17, 17, 17, 16, 15, 15, 15, 14, 14, 
  14, 13.5, 13, 13, 12, 12, 10, 10, 9, 9, 9, 9, 8,  7, 7, 7, 7, 5, 5, 5, 
  5, 4, 3, 2)

Odrediti: histogram, uzoračku sredinu, uzoračku disperziju, uzoračko standardno odstupanje, medijanu, stablo-lišće, kvantile.

# Uzoracka sredina
mean(rezultati)

## [1] 13.77604

# Uzoracka disperzija 
var(rezultati)

## [1] 38.12563

# Standardno odstupanje
sd(rezultati)

## [1] 6.174596

# Medijana
median(rezultati)

## [1] 14

# Stablo-lišće 
stem(rezultati)

## 
##   The decimal point is 1 digit(s) to the right of the |
## 
##   0 | 002344
##   0 | 5555567777788999999
##   1 | 0000011111222233333344444
##   1 | 55555556666677777777888889999
##   2 | 000111111334
##   2 | 55678

# Kvantili
quantile(rezultati)

##   0%  25%  50%  75% 100% 
##    0    9   14   18   28

# pokazuje koje vrijednosti statistika poretka imamo na 0%, 25%, 50% (medijana)
# 75% i 100%.

k <- floor(log(length(rezultati) , 2)) + 1
d <- diff(range(rezultati)) / k
podjela <- sort(rezultati)[1] + 0:k * d
hist(rezultati, breaks = podjela, main = "Rezultati")

# Na osnovu oblika histograma mozemo pretpostaviti da ovi rezultati imaju normalnu raspodjelu.
# Podsjetimo se iz prvog semestra da mozemo skalirati podatke da dobijemo histogram gustine, koji ima zbir povrsina pravougaonika 1. Na taj histogram mozemo dodati krivu gustine normalne raspodjele simetricnu u odnosu na srednju vrijednost ovog uzorka. ( U nastavku kursa detaljnije cemo se baviti ocjenjivanjem nepoznatih parametara.)

hist(rezultati, breaks = podjela, main = "Rezultati", probability = TRUE, ylim = c(0,0.07))
curve(dnorm(x,mean = mean(rezultati), sd= sd(rezultati)),lwd =2, col ='coral1', add = T)

Zadatak na času

data("cars")
cars

##    speed dist
## 1      4    2
## 2      4   10
## 3      7    4
## 4      7   22
## 5      8   16
## 6      9   10
## 7     10   18
## 8     10   26
## 9     10   34
## 10    11   17
## 11    11   28
## 12    12   14
## 13    12   20
## 14    12   24
## 15    12   28
## 16    13   26
## 17    13   34
## 18    13   34
## 19    13   46
## 20    14   26
## 21    14   36
## 22    14   60
## 23    14   80
## 24    15   20
## 25    15   26
## 26    15   54
## 27    16   32
## 28    16   40
## 29    17   32
## 30    17   40
## 31    17   50
## 32    18   42
## 33    18   56
## 34    18   76
## 35    18   84
## 36    19   36
## 37    19   46
## 38    19   68
## 39    20   32
## 40    20   48
## 41    20   52
## 42    20   56
## 43    20   64
## 44    22   66
## 45    23   54
## 46    24   70
## 47    24   92
## 48    24   93
## 49    24  120
## 50    25   85

# Za obiljezje "brzina" iz date baze naci uzoracku sredinu i disperziju, medijanu i  kvantile, a zatim nacrtati grafik empirijske funkcije raspodjele i histogram podataka. Donijete neke zakljucke o raspodjeli.

Statistika

Populacija \(\Omega\) (osnovni skup)

Elementi \(\Omega\) - elementi populacije

Obim populacije - broj elemenata skupa \(\Omega\)

Obilježje populacije - neka osobina koju ima svaki element populacije

Obilježje populacije je funkcija \(X:\Omega \to \mathbb{R}\)

Uzorak - podskup od \(\Omega\) na kojem registrujemo vrijednosti obilježja populacije i na osnovu kojeg donosimo zaključke o obilježju nad cijelom populacijom

Uzorak je reprezentativan ako se iz njega mogu dobiti zaključci koji dobro opisuju cijelu populaciju

Prost slučajan uzorak obima \(n\) je \((X_1,X_2,...,X_n)\), pri čemu su sve slučajne veličine \(X_i\) nezavisne i imaju istu raspodjelu kao \(X\).

Realizovan uzorak čine konkretne vrijednosti obilježja dobijene na jedinicama populacije koje su izabrane u uzorak, \((x_1,x_2,...,x_n)\).

Važne statistike

Statistike poretka

Uzorački raspon

Uzoračka sredina

Uzoračka disperzija

Popravljena uzoračka disperzija

Neka je \((X_1, ..., X_n)\) uzorak iz raspodele F.

zove se empirijska funkcija raspodele.

Primjer (u svesci) Odrediti empirisku funkciju raspodjele za uzorak: 0.5, 1.2, 2, 2.5, 3 i nacrtati njen grafik.

Primjer:

Teorema [Glivenko-Kanteli]:

Primjer:

Histogram

Histogram je grafička reprezentacija raspodjele niza datih numeričkih podataka.

Koristi se za ocjenu funkcije gustine raspodjele.

Histogram se može dobiti na sledeći način:

1) Dobijeni podaci se sortiraju.

2) Odabere se dužina podioka d.

3) Podijeli se cio interval (raspon podataka) na podintervale duzine \(d\).

4) Na x-osi se označe ti dobijeni intervali, a odgovarajuća vrijednost na y-osi je broj elemenata iz uzorka koji su upali u taj interval.

U R-u postoji ugradjena funkcija “hist()”.

Dva važna argumenta funkcije su:

x- vektor čiji histogram želimo da prikažemo

breaks - tu predajemo vektor sa krajevima svakog podintervala.

Kad pravimo histogram prvo treba da odaberemo koliko ćemo kategorija (odnosno tih podintervala) da imamo.

Taj broj dobijamo po formuli:

\(k\)-broj kategorija, \(N\)-obim uzorka (veličina tog vektora)

Odavde možemo naći širinu svakog intervala po formuli

gdje je R- raspon uzorka (razlika najvećeg i najmanjeg elementa uzorka)

Zadaci

1. Tvrdi se da je prosječna minimalna cijena bezolovnog benzina u Americi bila 1.35$. U reklamne svrhe kompanija želi da pokaže kako je njihova cijena niža. Da bi potkrijepili svoju tvrdnju, statističari iz firme su sakupili sledeće podatke na osnovu slučajnog uzorka:

Napisati program u R-u koji računa uzoračku sredinu i medijanu, uzorački raspon, i iscrtava histogram nad zadatim podacima.

2. Prilikom proučavanja rasta djece, posmatra se obim glave deteta pri rođenju izraženo u cm. Dobijeni su sledeći podaci:

Napisati program u R-u koji iscrtava histogram i stablo-lišće dijagram nad zadatim podacima.

Za domaći pronađite uzoračku srednju vrijednost, medijanu i kvantile.

3. Dati su sledeći rezultati ispita:

Odrediti: histogram, uzoračku sredinu, uzoračku disperziju, uzoračko standardno odstupanje, medijanu, stablo-lišće, kvantile.

Zadatak na času

Primjer (u svesci) Odrediti empirisku funkciju raspodjele za uzorak: `0.5, 1.2, 2, 2.5, 3` i nacrtati njen grafik.

U `R`-u postoji ugradjena funkcija “hist()”.

`x`- vektor čiji histogram želimo da prikažemo

`breaks` - tu predajemo vektor sa krajevima svakog podintervala.