Tabela de conteúdos
CE-071: Análise de Regressão Linear
<fs large><fc #FF0000>EXAME FINAL</fc> no dia 16/07, 19h00 no LABEST. Todo o conteúdo da disciplina. O aluno pode usar computador próprio. </fs>
Detalhes da oferta da disciplina
- Curso: Estatística.
- Período: 2014/1.
- Local: LABEST, LAB C.
- Horário: Segunda, 20h45-22:00h e quarta 19:00-20:30h.
- Atendimento: Segunda, 19:00-20:30h.
Scripts, notas e documentos
<note tip> Apostilas e textos úteis: ce071_livros.zip (84 MB) </note>
http://www.leg.ufpr.br/~walmes/ensino/ce071-2014-01/ 800px, 600px center
Links úteis
Cursos, dados e scripts sobre Regressão Linear
- Regression Examples: dados e scripts de análises em R e $A$;
Cartões de referência
Medidas de diagnóstico
Regressão com variáveis categóricas
Avaliações
Trabalho 1
- Função para estimação de beta a partir de X e y. Implementar o método de estimação literal, decomposição de Cholesky e decomposição QR.
- Função para calcular o quadro de análise de variância.
- Função para tabela de estimativas com erro-padrão e IC.
- Função para quadro de anova particionado.
- Função para calcular o valor predito com IC.
- Entregar o código impresso das funções programadas no dia 24/03/14.
## Estima o vetor de parâmetros \beta mycoef <- function(X, y, method){ ... } ## Retorna o quadro de análise de variância corrigido para a média myanova <- function(X, y){ ... } ## Retorna a tabela com erros padrões, t-valor, p-valor e IC para \betas mycoeftable <- function(X, y, conf=0.95){ ... } ## Retorna o quadro de análise de variância particionado para X1 myanovapart <- function(X, y, X1){ ... } ## Retorna o valor predito com IC mypredict <- function(x0, betas, vcov, conf){ ... }
Trabalho 2
- Fazer estudo de simulação para estudar a distribuição amostral dos estimadores e das estatísticas do testes.
- Verificar que <latex>E(\hat\beta) = \beta</latex>, <latex>var(\hat\beta) = \sigma^2(X'X)^{-1}</latex>, e que <latex>\hat\betas</latex> têm distribuição Normal.
- Verificar que <latex>E(\hat\sigma^2) = \sigma^2</latex> e que <latex>(n-p)*\hat\sigma/\sigma<\latex> têm distribuição qui-quadrado.
- Verificar que <latex>F = (A\hat\beta-m)'[A(X'X)^{-1}A']^{-1}(A\hat\beta-m)/(r QMRes)</latex> têm distribuição F sob H0 que <latex>A\betas = m</latex>.
- Estudar a distribuição da estatística F = QMReg/QMres e comparar com o F anterior.
- Entregar código impresso com gráficos e tabelas que sobre os resultados solicitados no dia 24/03/14.
## Função que retorna estimativas de parâmetros e estatísticas sob uma ## amostra aleatória simulada ao ser executada. mysimula <- function(X, beta, sigma, A, m=beta){ ... } results <- replicate(10000, mysimula)
Trabalho 3
- Programar funções para obter:
- Resíduos ordinários, padronizados e studentizados;
- Valores de alavancagem;
- Distância de Cook;
- DFfits, DFbetas;
- As funções devem receber como argumentos as matrizes X e y e retornas as respectivas medidas;
- Alavancagem
<latex>
h_i = H_{ii}
h = \text{diag}(H) = \text{diag}(X(X^\top X)^{-1}X^\top)
</latex>
- Resíduos crus
<latex>
e_i = y_i - \hat{y}_i
e = y - \hat{y}
e = y - X\hat{\beta}
</latex>
- Resíduos padronizados (ou internamente studentizados)
<latex> r_i = \dfrac{e_i}{s(e_i)} = \dfrac{e_i}{\hat{\sigma}\sqrt{1-h_{i}}} </latex>
- Resíduos studentizados (ou externamente studentizados)
<latex>
t_i = \dfrac{e_i}{s(e_i)} = \dfrac{e_i}{\hat{\sigma}_{-i}\sqrt{1-h_{i}}}
\hat{\sigma}_{-i}^2 = \dfrac{(n-p)\hat{\sigma}^2-\frac{e_i^2}{1-h_{i}}}{(n-1)-p}
</latex>
- Distância de Cook
<latex> D_i = \dfrac{(\hat{y}-\hat{y}_{i(-i)})^\top (\hat{y}-\hat{y}_{i(-i)})}{p\hat{\sigma}^2} = \dfrac{1}{p}\cdot\dfrac{h_i}{(1-h_i)}\cdot\dfrac{e_i^2}{\hat{\sigma}^2(1-h_i)} </latex>
- DFfits
<latex> dffits_i = \dfrac{\hat{y}_i-\hat{y}_{i(-i))}}{\hat{\sigma}_{-i}\sqrt{h_i}} = t_i\left( \dfrac{h_i}{1-h_i} \right )^{1/2} </latex>
- DFbetas
<latex>
dbetas_i = \dfrac{\hat{\beta}-\hat{\beta}_{-i}}{\hat{\sigma}_{-i}\sqrt{\text{diag}((X^\top X)^{-1})}}
\hat{\beta}_{-i} = \hat{\beta}-\dfrac{e_i}{1-h_i}\cdot (X^\top X)^{-1} x_i
</latex>
Trabalho 4
- Análise de dados por meio de regressão com presença de variáveis independentes categóricas;
- Os dados e contexto são exercício do capítulo 6 do *Applied Linear Regression* 3.ed do Weisberg;
- Fazer a análise dos dados fornecendo o contexto e objetivos do mesmo, declarar o modelo, correr análise dos resíduos, interpretar os resultados, fazer a predição com bandas de confiança;
- Entregar *.zip o pdf, Rnw e arquivos acessórios;
- Prazo de entrega: 12/05/2014 até às 23h59;
##----------------------------------------------------------------------------- str(twins) ## 6.4. Eduardo. str(BGSall) ## 6.6. Michele. str(cathedral) ## 6.10. Paula. str(salary) ## 6.13. Cintia. str(mile) ## 6.18. Gustavo. ##-----------------------------------------------------------------------------
Links de arquivos e dados disponibilizados pelos alunos
pessoais:walmes:ce071-2014-01:discussion
~~DISCUSSION~~