Osnovna literatura i obaveze

  • beleške
  • Linear models with R, J.J.Faraway
  • Regression analyses: theory, methods, and aplications, A. Sen, M. Srivastava

Obaveze

  • seminarski
  • ispit

Osnovni pojmovi

  • Regresija je zavisnost jedne slučajne promenjlive od druge (ili više njih). Regresioni model je matematički model koji opisuje tu zavisnost.
  • Slučajna veličina \[f(X)=E(Y|X)\] naziva se regresiona funkcija, pri čemu \(X\) može biti višedimenziona slučajna veličina.

-Ova funkcija minimizira \(E(Y-f(X))^2.\)

Osnovni pojmovi

  • Ako \((X,Y)\) ima višedimenzionu normalnu raspodelu onda je \(f(X)=aX+b\).

\[\begin{align*} a&=\frac{EXY-EXEY}{DX}\\ b&=EY-aEX \end{align*} \] -Metodom zamene dobijamo: \[\begin{align*} \hat{a}&=\frac{\sum X_iY_i-n\bar{X}\bar{Y}}{{\bar{S}_X^2}}=\hat{\rho}\frac{\bar{S}_X}{\bar{S}_Y}\\ \hat{b}&=\bar{Y}-\hat{a}\bar{X}. \end{align*}\]

Čime ćemo se baviti na kursu

  • Kakva je veza između različitih obeležja?
  • Kada odredimo oblik modela kako da ocenimo njegove parametre?
  • Koji su modeli "dopustivi" i u kom smislu?
  • Kako da ispitamo kvalitet modela?

Kontrolisana regresija

\(X\) posmatramo kao neslučajnu veličinu i zapravo slučajnost Y potiče od odgovarajućeg šuma, odnosno \(Y=f(X)+\varepsilon\).

Prosta regresija

Pretpostavljamo

  • da je \(X\) jednodimenziona veličina i da na raspolaganju imamo uzorak \((x_1,y_1),....,(x_n,y_n)\);
  • da je \(Y=aX+b+\varepsilon\);

  • nepoznate parametre ocenjujemo metodom najmanjih kvadrata odnosno \[\min\sum_{i=1}^n(y_i-ax_i-b)^2\]

Prosta regresija

  • Dobija se \[ \begin{align*} \hat{a}&=\frac{\sum_{i=1}^ny_ix_i-n\bar{x}\bar{y}}{\sum_{i=1}^nx_i^2-n\bar{x}^2}=\frac{\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y})}{\sum_{i=1}^n(x_i-\bar{x})^2}\\ \hat{b}&=\bar{y}-\hat{a}\bar{x}. \end{align*}\]

Primer

##    speed dist
## 1      4    2
## 2      4   10
## 3      7    4
## 4      7   22
## 5      8   16
## 6      9   10
## 7     10   18
## 8     10   26
## 9     10   34
## 10    11   17

\[\hat{a}=3.93\;\; \hat{b}=-17.59 \]

Osobine ocena

-nepristrasnost \[E(\hat{a})=a\;\;E(\hat{b})=b\] -postojanost

\[\begin{align*} D(\hat{a})&=\frac{\sigma^2}{\sum_{i=1}^n(x_i-\bar{x})^2}\\ D(\hat{b})&=\frac{\sigma^2}{n}\Big(1+\frac{\bar{x}}{S^2_x}\Big)\end{align*}\]

Reziduali i neke osobine

\[e_i=y_i-\hat{y}_i\] \[\begin{align*} SSE&=\sum_{i=1}^ne^2_i\\ SSR&=\sum_{i=1}^n(\hat{y}_i-\bar{y})^2\\ SSTO&=\sum_{i=1}^n(y_i-\bar{y})^2 \end{align*}\] \[SSTO=SSE+SSR\] \[\color{red}{R^2=1-\frac{SSE}{SSTO}}\]

Reziduali i neke osobine

\[E((n-2)SSE)=\sigma^2\] \[\hat{\sigma}^2=\frac{SSE}{n-2}\]

Primer - reziduali modela

\(\hat{\sigma}=15.38\)

Primer - reziduali modela

Osobine modela u slučaju da je šum Gausov

Pretpostavljamo da je \(\{\varepsilon_i\}\) niz nekorelisanih i jednako raspodeljenih slučajnih veličina sa normalnom \(\mathcal{N}(0,\sigma^2)\). Tada:

  • \(y_i \sim\mathcal{N}(ax_i+b,\sigma^2)\);
  • \(\hat{a}\sim\mathcal{N}(E(\hat{a}),D(\hat{a}))\);
  • \(\hat{b}\sim\mathcal{N}(E(\hat{b}),D(\hat{b}))\);
  • \(\frac{SSE}{\sigma^2}\sim\chi^2_{n-2}\);
  • \(\frac{\hat{a}-a}{\sqrt{\frac{\hat{\sigma}^2}{\sum_{i=1}^n(x_i-\bar{x})^2}}}=\frac{\hat{a}-a}{\sqrt{\frac{\hat{\sigma}^2}{nS^2_x}}}\sim t_{n-2}\);
  • \(\frac{\hat{b}-b}{\sqrt{\frac{\hat{\sigma}^2}{n}(1+\frac{\bar{x}^2}{S^2_x})}}\sim t_{n-2}\);
  • testiranje hipoteza

Osobine modela u slučaju da je šum Gausov

  • \(\hat{y}_0=\hat{a}x_0+\hat{b}\) ocena srednje vrednosti zavisne promenljive kada nezavisna uzima vrednost \(x_0\)
  • \(E(\hat{y}_0)=ax_0+b\;\;D(\hat{y}_0)=\frac{\sigma^2}{n}\Big(1+\frac{(x_0-\bar{x})^2}{nS^2_x}\Big)\)
  • \(\hat{\hat{y_0}}=\hat{a}x_0+\hat{b}\) ocena vrednosti zavisne promenljive kada nezavisna uzima vrednost \(x_0\)
  • \(D(\hat{\hat{y}}_0-y_0)=\sigma^2+D(\hat{y}_0)\)

-pravljenje intervala poverenja i predviđanja

Primer - intervali poverenja i predviđanja

Primer - sumarno o modelu

## 
## Call:
## lm(formula = dist ~ speed, data = cars)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -29.069  -9.525  -2.272   9.215  43.201 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -17.5791     6.7584  -2.601   0.0123 *  
## speed         3.9324     0.4155   9.464 1.49e-12 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 15.38 on 48 degrees of freedom
## Multiple R-squared:  0.6511, Adjusted R-squared:  0.6438 
## F-statistic: 89.57 on 1 and 48 DF,  p-value: 1.49e-12