\[ X_{(1)}=min(X_1,..., X_n)\] \[X_{(n)}=max(X_1,..., X_n).\]
\[ R=X_{(n)}-X_{(1)}\]
\[ \overline{X}_n=\frac{1}{n}\sum\limits_{i=1}^{n}X_i \]
\[\overline{S}_n^2=\frac{1}{n}\sum\limits_{i=1}^{n}(X_i-\overline{X}_n)^2 \]
\[\widetilde{S}_n^2=\frac{1}{n-1}\sum\limits_{i=1}^{n}(X_i-\overline{X}_n)^2 \]
\[F_n(x)=\frac{1}{n} \sum\limits_{k=1}^n I\{X_k \leq x\}\]
0.5, 1.2, 2, 2.5, 3
i nacrtati njen grafik.x<-rpois(20, lambda = 3)
table(x)
## x
## 1 2 3 4 5
## 3 3 7 4 3
Fn<-ecdf(x)
plot(Fn, main="Empirijska funkcija raspodjele")
\[P\{\lim\limits_{N\to \infty} \sup\limits_{x \in \mathbb{R}}|F_N(x)-F(x)|=0\}=1\]
x<-runif(1000)
Fn<-ecdf(x)
plot(Fn, main="Empirijska funkcija raspodjele")
curve(punif(x), from = -1, to= 2, add = T, col="blue")
R
-u postoji ugradjena funkcija “hist()”.x
- vektor čiji histogram želimo da prikažemobreaks
- tu predajemo vektor sa krajevima svakog podintervala.\[ k=[\log_2(N)]+1 \]
\[ d=\frac{R}{k} \]
cijene<-c(1.22, 1.37, 1.27, 1.20, 1.42, 1.41, 1.22, 1.24,
1.28, 1.42, 1.48, 1.32, 1.40, 1.26, 1.39, 1.45,
1.44, 1.49, 1.47, 1.47, 1.24, 1.34, 1.27, 1.35,
1.34, 1.45, 1.49, 1.45, 1.23, 1.20, 1.42, 1.34,
1.43, 1.21, 1.49, 1.36, 1.24, 1.20, 1.45,
1.23, 1.25, 1.24, 1.35, 1.23, 1.39, 1.38,
1.46, 1.48, 1.26, 1.36, 1.22, 1.46, 1.39,
1.22, 1.29, 1.47, 1.24, 1.35, 1.21, 1.21)
mean(cijene)
## [1] 1.340167
median(cijene)
## [1] 1.35
range(cijene)
## [1] 1.20 1.49
diff(range(cijene))
## [1] 0.29
# Napomena: Naći ove statistike bez korišćenja ugrađenih funkcija
# Pravimo histogram:
n <- length(cijene)
k <- floor(log(n, base = 2)) + 1
d <- diff(range(cijene)) / k
k
## [1] 6
d
## [1] 0.04833333
# Sortiramo vektor:
cijene <- sort(cijene)
# Pravimo podjelu na intervale:
podjela <- cijene[1] + 0:k * d
podjela
## [1] 1.200000 1.248333 1.296667 1.345000 1.393333 1.441667 1.490000
hist(cijene, breaks = podjela, main = "")
# Hoćemo da uporedimo histogram koji se dobija ako ne zadamo sami podjele:
par(mfrow = c(1, 2))
hist(cijene, breaks = podjela, main = "")
hist(cijene, main = "")
obim<-c(33.1, 33.7, 33.7, 33.8, 33.4,
33.9, 33.6, 33.4, 34.1, 34.2,
34.5, 34.2, 34.6, 34.9, 34.8,
34.0, 34.5, 34.2, 34.2, 34.7,
34.7, 34.6, 34.3, 34.3, 34.2,
35.1, 36.0, 35.8, 35.2, 35.6,
36.1, 35.1, 35.3, 35.2)
n <- length(obim)
k <- floor(log(n, 2)) + 1
d <- diff(range(obim)) / k
podjela <- sort(obim)[1] + 0:k * d
hist(obim, breaks = podjela, main = "")
# Stablo- lišće dijagram
stem(obim)
##
## The decimal point is at the |
##
## 33 | 144
## 33 | 67789
## 34 | 012222233
## 34 | 55667789
## 35 | 11223
## 35 | 68
## 36 | 01
rezultati<-c(28, 27, 26, 25, 24, 23, 21, 21, 20, 19, 19, 18, 18, 18, 17, 17, 17, 17,
16, 16, 16, 15.5, 15, 15, 15, 15, 14, 13, 13, 13, 13, 12, 12, 11, 11,
11, 11, 11, 10, 10, 10, 9, 9, 8, 7, 6, 5, 4, 0, 0, 25, 23, 21, 21, 21,
21, 20, 19.5, 19, 19, 18, 18, 17, 17, 17, 17, 16, 15, 15, 15, 14, 14,
14, 13.5, 13, 13, 12, 12, 10, 10, 9, 9, 9, 9, 8, 7, 7, 7, 7, 5, 5, 5,
5, 4, 3, 2)
# Uzoracka sredina
mean(rezultati)
## [1] 13.77604
# Uzoracka disperzija
var(rezultati)
## [1] 38.12563
# Standardno odstupanje
sd(rezultati)
## [1] 6.174596
# Medijana
median(rezultati)
## [1] 14
# Stablo-lišće
stem(rezultati)
##
## The decimal point is 1 digit(s) to the right of the |
##
## 0 | 002344
## 0 | 5555567777788999999
## 1 | 0000011111222233333344444
## 1 | 55555556666677777777888889999
## 2 | 000111111334
## 2 | 55678
# Kvantili
quantile(rezultati)
## 0% 25% 50% 75% 100%
## 0 9 14 18 28
# pokazuje koje vrijednosti statistika poretka imamo na 0%, 25%, 50% (medijana)
# 75% i 100%.
k <- floor(log(length(rezultati) , 2)) + 1
d <- diff(range(rezultati)) / k
podjela <- sort(rezultati)[1] + 0:k * d
hist(rezultati, breaks = podjela, main = "Rezultati")
# Na osnovu oblika histograma mozemo pretpostaviti da ovi rezultati imaju normalnu raspodjelu.
# Podsjetimo se iz prvog semestra da mozemo skalirati podatke da dobijemo histogram gustine, koji ima zbir povrsina pravougaonika 1. Na taj histogram mozemo dodati krivu gustine normalne raspodjele simetricnu u odnosu na srednju vrijednost ovog uzorka. ( U nastavku kursa detaljnije cemo se baviti ocjenjivanjem nepoznatih parametara.)
hist(rezultati, breaks = podjela, main = "Rezultati", probability = TRUE, ylim = c(0,0.07))
curve(dnorm(x,mean = mean(rezultati), sd= sd(rezultati)),lwd =2, col ='coral1', add = T)
data("cars")
cars
## speed dist
## 1 4 2
## 2 4 10
## 3 7 4
## 4 7 22
## 5 8 16
## 6 9 10
## 7 10 18
## 8 10 26
## 9 10 34
## 10 11 17
## 11 11 28
## 12 12 14
## 13 12 20
## 14 12 24
## 15 12 28
## 16 13 26
## 17 13 34
## 18 13 34
## 19 13 46
## 20 14 26
## 21 14 36
## 22 14 60
## 23 14 80
## 24 15 20
## 25 15 26
## 26 15 54
## 27 16 32
## 28 16 40
## 29 17 32
## 30 17 40
## 31 17 50
## 32 18 42
## 33 18 56
## 34 18 76
## 35 18 84
## 36 19 36
## 37 19 46
## 38 19 68
## 39 20 32
## 40 20 48
## 41 20 52
## 42 20 56
## 43 20 64
## 44 22 66
## 45 23 54
## 46 24 70
## 47 24 92
## 48 24 93
## 49 24 120
## 50 25 85
# Za obiljezje "brzina" iz date baze naci uzoracku sredinu i disperziju, medijanu i kvantile, a zatim nacrtati grafik empirijske funkcije raspodjele i histogram podataka. Donijete neke zakljucke o raspodjeli.