Diferenças
Aqui você vê as diferenças entre duas revisões dessa página.
| Ambos lados da revisão anteriorRevisão anteriorPróxima revisão | Revisão anterior | ||
| disciplinas:ce709-2010 [2010/09/26 08:45] – edycelia | disciplinas:ce709-2010 [2010/10/20 21:58] (atual) – peccin | ||
|---|---|---|---|
| Linha 14: | Linha 14: | ||
| Na oferta do 3o trimestre de 2010 será abordado o conteúdo: | Na oferta do 3o trimestre de 2010 será abordado o conteúdo: | ||
| - | **Modelagem estatística** | + | **Modelagem estatística**: modelo linear e suas extensões: GLMs, efeitos aleatórios, |
| ===== Referências Bibliográficas ===== | ===== Referências Bibliográficas ===== | ||
| Linha 118: | Linha 118: | ||
| [[disciplinas: | [[disciplinas: | ||
| - | ########################################################## | ||
| - | # Extending the Linear Model with R: Generalized Linear, | ||
| - | # Mixed Effects and # | ||
| - | # Julian J.Faraway | ||
| - | ########################################################## | ||
| - | # CAPÍTULO 1 | ||
| - | library(faraway) | ||
| - | # Eleição presidencial dos EUA em 2000, com os dados do | ||
| - | # estado da Florida | ||
| - | |||
| - | data(gavote) | ||
| - | help(gavote) | ||
| - | |||
| - | # Observando as variáveis e os seis primeiros casos | ||
| - | head(gavote) | ||
| - | |||
| - | # Resumo dos dados | ||
| - | summary(gavote) | ||
| - | |||
| - | # Considerando os votos nulos de forma relativa | ||
| - | # NULOS = (TOTAL - VÁLIDOS)/ | ||
| - | |||
| - | gavote$undercount <- (gavote$ballots-gavote$votes)/ | ||
| - | summary(gavote$undercount) | ||
| - | |||
| - | # Isso é diferente de: | ||
| - | # (TOTAL DE NULOS)/ TOTAL | ||
| - | sum(gavote$ballots-gavote$votes)/ | ||
| - | |||
| - | ## OBSERVANDO A DISTRIBUIÇÃO DAS VARIÁVEIS | ||
| - | |||
| - | par(mfrow=c(1, | ||
| - | # HISTOGRAMA | ||
| - | hist(gavote$undercount, | ||
| - | |||
| - | # DENSIDADE | ||
| - | plot(density(gavote$undercount), | ||
| - | rug (gavote$undercount) | ||
| - | |||
| - | ## AVALIANDO AS VARIÁVEIS CATEGÓRICAS | ||
| - | |||
| - | par(mfrow=c(1, | ||
| - | |||
| - | # PIZZA | ||
| - | pie(table(gavote$equip)) | ||
| - | |||
| - | # PARETO | ||
| - | barplot(sort(table(gavote$equip), | ||
| - | |||
| - | ## GRÁFICOS EM DUAS DIMENSÕES | ||
| - | |||
| - | # PERCENTUAL DE VOTOS DE GORE | ||
| - | gavote$pergore <- gavote$gore/ | ||
| - | |||
| - | par(mfrow=c(1, | ||
| - | |||
| - | # PERCENTUAL DE VOTOS DE GORE vs PERC DE AA | ||
| - | plot(pergore ~ perAA, gavote, xlab=" | ||
| - | ylab=" | ||
| - | |||
| - | #BOX PLOT DE NULOS POR EQUIPAMENTO DE VOTAÇÃO | ||
| - | plot(undercount ~ equip, gavote, xlab=" ", ylab=" | ||
| - | |||
| - | ## TABELA CRUZADA REGIÃO METROPOL vs RURAL/ | ||
| - | xtabs (~ atlanta + rural, gavote) | ||
| - | |||
| - | |||
| - | ## CÁLCULO DA CORRELAÇÃO | ||
| - | |||
| - | head(gavote) | ||
| - | |||
| - | # selecionando as colunas com as variáveis | ||
| - | nix <- c(3, | ||
| - | |||
| - | #cálculo da correlação entre as variáveis selecionadas | ||
| - | cor(gavote[, | ||
| - | |||
| - | ## AJUSTANDO MODELOS LINEARES | ||
| - | |||
| - | # NULOS = f(GORE(%), AA(%)) | ||
| - | # NULOS = b0 + b1*(GORE(%)) + b2*(AA(%)) | ||
| - | |||
| - | lmod <- lm(undercount ~ pergore+perAA, | ||
| - | |||
| - | # para ML, EMV e EMQ | ||
| - | |||
| - | # APENAS OS COEFICIENTES | ||
| - | coef(lmod) | ||
| - | |||
| - | # CALCULANDO OS VALORES PREDITOS | ||
| - | predict <- predict(lmod) | ||
| - | head(predict) | ||
| - | tail(predict) | ||
| - | |||
| - | # CALCULANDO OS RESÍDUOS | ||
| - | residuals <- residuals(lmod) | ||
| - | head(residuals) | ||
| - | tail(residuals) | ||
| - | |||
| - | ## QUALIDADE DO AJUSTE | ||
| - | |||
| - | # Em ML, Deviance = SQRes | ||
| - | deviance(lmod) | ||
| - | |||
| - | # GL Res | ||
| - | df.residual(lmod) | ||
| - | |||
| - | # GL Res = Núm de Obs - Núm de Parms | ||
| - | nrow(gavote) - length(coef(lmod)) | ||
| - | |||
| - | #VARIÂNCIA DO ERRO | ||
| - | sqrt(deviance(lmod)/ | ||
| - | |||
| - | |||
| - | # OUTRA FORMA DE PEDIR AS ESTATÍSTICAS | ||
| - | names(lmod) | ||
| - | summary(lmod) | ||
| - | names(summary(lmod)) | ||
| - | |||
| - | lmodsummary <- summary(lmod) | ||
| - | lmodsummary$sigma | ||
| - | lmodsummary$coefficients | ||
| - | |||
| - | ## QUALIDADE DO AJUSTE DE FORMA RELATIVA | ||
| - | |||
| - | #R2 e R2ajustado | ||
| - | lmodsummary$r.squared | ||
| - | |||
| - | # | ||
| - | cor(predict(lmod), | ||
| - | |||
| - | # R2 ajustado para o número de parâmetros do modelo | ||
| - | lmodsummary$adj.r.squared | ||
| - | |||
| - | ## | ||
| - | |||
| - | contr.treatment(5) | ||
| - | |||
| - | #CENTRANDO AS VARIÁVEIS EM RELAÇÃO À MÉDIA | ||
| - | gavote$cpergore <- gavote$pergore - mean(gavote$pergore) | ||
| - | gavote$cperAA <- gavote$perAA - mean (gavote$perAA) | ||
| - | |||
| - | head(gavote) | ||
| - | |||
| - | # | ||
| - | lmodi <- lm(undercount ~ cperAA+cpergore*rural+equip, | ||
| - | summary(lmodi) | ||
| - | |||
| - | ## TESTANDO HIPÓTESES | ||
| - | |||
| - | #Testa a hipótese de que não há ganho com o modelo maior | ||
| - | anova(lmod, | ||
| - | |||
| - | #Esta função calcula F para comparar o modelo sem cada | ||
| - | # um dos preditores em relação ao modelo completo | ||
| - | drop1(lmodi, | ||
| - | |||
| - | ## INTERVALOS DE CONFIANÇA | ||
| - | |||
| - | #Intervalo de valores plausíveis para o parâmetro | ||
| - | # pode-se julgar o tamanho do efeito do preditor | ||
| - | confint(lmodi) | ||
| - | |||
| - | ## DIAGNÓSTICOS DO MODELO | ||
| - | |||
| - | plot (lmodi) | ||
| - | |||
| - | #OBSERVANDO OS DOIS CASOS INFLUENTES | ||
| - | gavote[cooks.distance(lmodi) > 0.1,] | ||
| - | |||
| - | #OBSERVANDO PONTOS EXTREMOS | ||
| - | halfnorm(influence(lmodi)$hat) | ||
| - | |||
| - | #OBSERVANDO OS CASOS INFLUENTES MAIORES QUE 0.3 | ||
| - | gavote[influence(lmodi)$hat> | ||
| - | |||
| - | #GRÁFICO DOS RESÍDUOS PARCIAIS | ||
| - | |||
| - | termplot(lmodi, | ||
| - | |||
| - | ### | ||
| - | #melhor usar uma alternativa robusta funcao rlm) | ||
| - | #Metodos de inferencia sao mais dificies de aplicar na estimacao robusta. | ||
| - | #O ajuste robusto tem reduzido o efeito dos dois municipios distantes | ||
| - | |||
| - | library(MASS) | ||
| - | rlmodi<- rlm(undercount ~ cperAA+cpergore*rural+equip, | ||
| - | summary(rlmodi) | ||
| - | |||
| - | #MINIMOS QUADRADOS PONDERADOS### | ||
| - | #Os tamanhos dos municipios nesse conjunto de dados variam muito com o numeros de votos em cada municipio. | ||
| - | #Uso dos minimos quadrados ponderado- criacao dos pesos proporcionais ao numeros de votos. | ||
| - | |||
| - | wlmodi<- lm(undercount ~ cperAA+cpergore*rural+equip, | ||
| - | #usando o desvio padrao usando a binomial | ||
| - | sqrt(0.035*(1-0.035)/ | ||
| - | |||
| - | #Menor que o erro padrao residual de 0,0233. Logo os efeitos serao menores para os outros municipios. | ||
| - | |||
| - | ##### | ||
| - | #Melhor ajuste Box-Cox- transformacao na variavel resposta | ||
| - | ## | ||
| - | ##facil de selecionar o correto grau)#### | ||
| - | |||
| - | plmodi <- lm(undercount ~ poly(cperAA, | ||
| - | summary(plmodi) | ||
| - | |||
| - | ##Vantagem dos polinomios ortogonais 'e que o coeficientes de baixa ordem nao muda conforme o grau maximo do modelo## | ||
| - | #RESIDUOS PARCIAIS# | ||
| - | |||
| - | termplot(plmodi, | ||
| - | #Ajuste estavel usa-se splines | ||
| - | |||
| - | ### | ||
| - | #Obs: Complexidade do ajuste B_spline pode ser controlada especificando os graus de liberdade. Usou-se 4. | ||
| - | library(splines) | ||
| - | blmodi <- lm(undercount ~ cperAA+bs (cpergore, | ||
| - | termplot(blmodi, | ||
| - | #Obs:O ajuste da curva nao 'e muito diferente de uma constante????? | ||
| - | |||
| - | ####SELECAO DE VARIAVEIS### | ||
| - | #Modelo lineares-previsao -prever medidas de incerteza-remocao de variaveis -pouco para modelo -modelo otimizado-AIC- | ||
| - | #AIC =-2 maxima log vero+ 2p onde p= numeros de paramettros | ||
| - | |||
| - | biglm <- lm(undercount ~ (equip+econ+rural+atlanta)^2+ | ||
| - | | ||
| - | ##eliminar termos-minimizar AIC | ||
| - | smallm <- step (biglm, trace=F) | ||
| - | |||
| - | ##Comparar os modelos AIC### | ||
| - | dropl(smallm, | ||
| - | |||
| - | #### | ||
| - | finalm<- lm(undercount~equip + econ + perAA + equip:econ + equip: | ||
| - | summary(finalm) | ||
| - | #Obs: Vimos que a rural perAA pode ser descartado. Dando um modelo final##### | ||
| - | |||
| - | ##### | ||
| - | pdf <- data.frame(econ=rep(levels(gavote$econ), | ||
| - | |||
| - | #tabela predict para todas as 15 combinacoes# | ||
| - | pp <- predict (finalm, new=pdf) | ||
| - | xtabs(round(pp, | ||
| - | #obs:menor nos municipios mais ricos e maior nos municipios mais pobres | ||
| - | #economia variavel a media# | ||
| - | pdf <- data.frame(econ=rep(" | ||
| - | | ||
| - | pp <- predict(finalm, | ||
| - | |||
| - | #fator de tres niveis-baixo, | ||
| - | propAA <- gl(3, | ||
| - | xtabs(round(pp, | ||
| - | ##Em resumo descobrimos que a situa' | ||
| ===== Espaço Aberto ===== | ===== Espaço Aberto ===== | ||