Linearni statistički modeli

Osnovna literatura i obaveze

beleške
Linear models with R, J.J.Faraway
Regression analyses: theory, methods, and aplications, A. Sen, M. Srivastava

Obaveze

seminarski
ispit

Osnovni pojmovi

Regresija je zavisnost jedne slučajne promenjlive od druge (ili više njih). Regresioni model je matematički model koji opisuje tu zavisnost.
Slučajna veličina \[f(X)=E(Y|X)\] naziva se regresiona funkcija, pri čemu \(X\) može biti višedimenziona slučajna veličina.

-Ova funkcija minimizira \(E(Y-f(X))^2.\)

Osnovni pojmovi

Ako \((X,Y)\) ima višedimenzionu normalnu raspodelu onda je \(f(X)=aX+b\).

\[\begin{align*} a&=\frac{EXY-EXEY}{DX}\\ b&=EY-aEX \end{align*} \] -Metodom zamene dobijamo: \[\begin{align*} \hat{a}&=\frac{\sum X_iY_i-n\bar{X}\bar{Y}}{{\bar{S}_X^2}}=\hat{\rho}\frac{\bar{S}_X}{\bar{S}_Y}\\ \hat{b}&=\bar{Y}-\hat{a}\bar{X}. \end{align*}\]

Čime ćemo se baviti na kursu

Kakva je veza između različitih obeležja?
Kada odredimo oblik modela kako da ocenimo njegove parametre?
Koji su modeli "dopustivi" i u kom smislu?
Kako da ispitamo kvalitet modela?

Kontrolisana regresija

\(X\) posmatramo kao neslučajnu veličinu i zapravo slučajnost Y potiče od odgovarajućeg šuma, odnosno \(Y=f(X)+\varepsilon\).

Prosta regresija

Pretpostavljamo

da je \(X\) jednodimenziona veličina i da na raspolaganju imamo uzorak \((x_1,y_1),....,(x_n,y_n)\);
da je \(Y=aX+b+\varepsilon\);
nepoznate parametre ocenjujemo metodom najmanjih kvadrata odnosno \[\min\sum_{i=1}^n(y_i-ax_i-b)^2\]

Prosta regresija

Dobija se \[ \begin{align*} \hat{a}&=\frac{\sum_{i=1}^ny_ix_i-n\bar{x}\bar{y}}{\sum_{i=1}^nx_i^2-n\bar{x}^2}=\frac{\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y})}{\sum_{i=1}^n(x_i-\bar{x})^2}\\ \hat{b}&=\bar{y}-\hat{a}\bar{x}. \end{align*}\]

Primer

##    speed dist
## 1      4    2
## 2      4   10
## 3      7    4
## 4      7   22
## 5      8   16
## 6      9   10
## 7     10   18
## 8     10   26
## 9     10   34
## 10    11   17

\[\hat{a}=3.93\;\; \hat{b}=-17.59 \]

Osobine ocena

-nepristrasnost \[E(\hat{a})=a\;\;E(\hat{b})=b\] -postojanost

\[\begin{align*} D(\hat{a})&=\frac{\sigma^2}{\sum_{i=1}^n(x_i-\bar{x})^2}\\ D(\hat{b})&=\frac{\sigma^2}{n}\Big(1+\frac{\bar{x}}{S^2_x}\Big)\end{align*}\]

Reziduali i neke osobine

\[e_i=y_i-\hat{y}_i\] \[\begin{align*} SSE&=\sum_{i=1}^ne^2_i\\ SSR&=\sum_{i=1}^n(\hat{y}_i-\bar{y})^2\\ SSTO&=\sum_{i=1}^n(y_i-\bar{y})^2 \end{align*}\] \[SSTO=SSE+SSR\] \[\color{red}{R^2=1-\frac{SSE}{SSTO}}\]

Reziduali i neke osobine

\[E((n-2)SSE)=\sigma^2\] \[\hat{\sigma}^2=\frac{SSE}{n-2}\]

Primer - reziduali modela

\(\hat{\sigma}=15.38\)

Primer - reziduali modela

Osobine modela u slučaju da je šum Gausov

Pretpostavljamo da je \(\{\varepsilon_i\}\) niz nekorelisanih i jednako raspodeljenih slučajnih veličina sa normalnom \(\mathcal{N}(0,\sigma^2)\). Tada:

\(y_i \sim\mathcal{N}(ax_i+b,\sigma^2)\);
\(\hat{a}\sim\mathcal{N}(E(\hat{a}),D(\hat{a}))\);
\(\hat{b}\sim\mathcal{N}(E(\hat{b}),D(\hat{b}))\);
\(\frac{SSE}{\sigma^2}\sim\chi^2_{n-2}\);
\(\frac{\hat{a}-a}{\sqrt{\frac{\hat{\sigma}^2}{\sum_{i=1}^n(x_i-\bar{x})^2}}}=\frac{\hat{a}-a}{\sqrt{\frac{\hat{\sigma}^2}{nS^2_x}}}\sim t_{n-2}\);
\(\frac{\hat{b}-b}{\sqrt{\frac{\hat{\sigma}^2}{n}(1+\frac{\bar{x}^2}{S^2_x})}}\sim t_{n-2}\);
testiranje hipoteza

Osobine modela u slučaju da je šum Gausov

\(\hat{y}_0=\hat{a}x_0+\hat{b}\) ocena srednje vrednosti zavisne promenljive kada nezavisna uzima vrednost \(x_0\)
\(E(\hat{y}_0)=ax_0+b\;\;D(\hat{y}_0)=\frac{\sigma^2}{n}\Big(1+\frac{(x_0-\bar{x})^2}{nS^2_x}\Big)\)
\(\hat{\hat{y_0}}=\hat{a}x_0+\hat{b}\) ocena vrednosti zavisne promenljive kada nezavisna uzima vrednost \(x_0\)
\(D(\hat{\hat{y}}_0-y_0)=\sigma^2+D(\hat{y}_0)\)

-pravljenje intervala poverenja i predviđanja

Primer - intervali poverenja i predviđanja

Primer - sumarno o modelu

## 
## Call:
## lm(formula = dist ~ speed, data = cars)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -29.069  -9.525  -2.272   9.215  43.201 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -17.5791     6.7584  -2.601   0.0123 *  
## speed         3.9324     0.4155   9.464 1.49e-12 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 15.38 on 48 degrees of freedom
## Multiple R-squared:  0.6511, Adjusted R-squared:  0.6438 
## F-statistic: 89.57 on 1 and 48 DF,  p-value: 1.49e-12