Diferenças
Aqui você vê as diferenças entre duas revisões dessa página.
Ambos lados da revisão anteriorRevisão anteriorPróxima revisão | Revisão anterior | ||
disciplinas:ce709-2010 [2010/09/26 08:45] – edycelia | disciplinas:ce709-2010 [2010/10/20 21:58] (atual) – peccin | ||
---|---|---|---|
Linha 14: | Linha 14: | ||
Na oferta do 3o trimestre de 2010 será abordado o conteúdo: | Na oferta do 3o trimestre de 2010 será abordado o conteúdo: | ||
- | **Modelagem estatística** | + | **Modelagem estatística**: modelo linear e suas extensões: GLMs, efeitos aleatórios, |
===== Referências Bibliográficas ===== | ===== Referências Bibliográficas ===== | ||
Linha 118: | Linha 118: | ||
[[disciplinas: | [[disciplinas: | ||
- | ########################################################## | ||
- | # Extending the Linear Model with R: Generalized Linear, | ||
- | # Mixed Effects and # | ||
- | # Julian J.Faraway | ||
- | ########################################################## | ||
- | # CAPÍTULO 1 | ||
- | library(faraway) | ||
- | # Eleição presidencial dos EUA em 2000, com os dados do | ||
- | # estado da Florida | ||
- | |||
- | data(gavote) | ||
- | help(gavote) | ||
- | |||
- | # Observando as variáveis e os seis primeiros casos | ||
- | head(gavote) | ||
- | |||
- | # Resumo dos dados | ||
- | summary(gavote) | ||
- | |||
- | # Considerando os votos nulos de forma relativa | ||
- | # NULOS = (TOTAL - VÁLIDOS)/ | ||
- | |||
- | gavote$undercount <- (gavote$ballots-gavote$votes)/ | ||
- | summary(gavote$undercount) | ||
- | |||
- | # Isso é diferente de: | ||
- | # (TOTAL DE NULOS)/ TOTAL | ||
- | sum(gavote$ballots-gavote$votes)/ | ||
- | |||
- | ## OBSERVANDO A DISTRIBUIÇÃO DAS VARIÁVEIS | ||
- | |||
- | par(mfrow=c(1, | ||
- | # HISTOGRAMA | ||
- | hist(gavote$undercount, | ||
- | |||
- | # DENSIDADE | ||
- | plot(density(gavote$undercount), | ||
- | rug (gavote$undercount) | ||
- | |||
- | ## AVALIANDO AS VARIÁVEIS CATEGÓRICAS | ||
- | |||
- | par(mfrow=c(1, | ||
- | |||
- | # PIZZA | ||
- | pie(table(gavote$equip)) | ||
- | |||
- | # PARETO | ||
- | barplot(sort(table(gavote$equip), | ||
- | |||
- | ## GRÁFICOS EM DUAS DIMENSÕES | ||
- | |||
- | # PERCENTUAL DE VOTOS DE GORE | ||
- | gavote$pergore <- gavote$gore/ | ||
- | |||
- | par(mfrow=c(1, | ||
- | |||
- | # PERCENTUAL DE VOTOS DE GORE vs PERC DE AA | ||
- | plot(pergore ~ perAA, gavote, xlab=" | ||
- | ylab=" | ||
- | |||
- | #BOX PLOT DE NULOS POR EQUIPAMENTO DE VOTAÇÃO | ||
- | plot(undercount ~ equip, gavote, xlab=" ", ylab=" | ||
- | |||
- | ## TABELA CRUZADA REGIÃO METROPOL vs RURAL/ | ||
- | xtabs (~ atlanta + rural, gavote) | ||
- | |||
- | |||
- | ## CÁLCULO DA CORRELAÇÃO | ||
- | |||
- | head(gavote) | ||
- | |||
- | # selecionando as colunas com as variáveis | ||
- | nix <- c(3, | ||
- | |||
- | #cálculo da correlação entre as variáveis selecionadas | ||
- | cor(gavote[, | ||
- | |||
- | ## AJUSTANDO MODELOS LINEARES | ||
- | |||
- | # NULOS = f(GORE(%), AA(%)) | ||
- | # NULOS = b0 + b1*(GORE(%)) + b2*(AA(%)) | ||
- | |||
- | lmod <- lm(undercount ~ pergore+perAA, | ||
- | |||
- | # para ML, EMV e EMQ | ||
- | |||
- | # APENAS OS COEFICIENTES | ||
- | coef(lmod) | ||
- | |||
- | # CALCULANDO OS VALORES PREDITOS | ||
- | predict <- predict(lmod) | ||
- | head(predict) | ||
- | tail(predict) | ||
- | |||
- | # CALCULANDO OS RESÍDUOS | ||
- | residuals <- residuals(lmod) | ||
- | head(residuals) | ||
- | tail(residuals) | ||
- | |||
- | ## QUALIDADE DO AJUSTE | ||
- | |||
- | # Em ML, Deviance = SQRes | ||
- | deviance(lmod) | ||
- | |||
- | # GL Res | ||
- | df.residual(lmod) | ||
- | |||
- | # GL Res = Núm de Obs - Núm de Parms | ||
- | nrow(gavote) - length(coef(lmod)) | ||
- | |||
- | #VARIÂNCIA DO ERRO | ||
- | sqrt(deviance(lmod)/ | ||
- | |||
- | |||
- | # OUTRA FORMA DE PEDIR AS ESTATÍSTICAS | ||
- | names(lmod) | ||
- | summary(lmod) | ||
- | names(summary(lmod)) | ||
- | |||
- | lmodsummary <- summary(lmod) | ||
- | lmodsummary$sigma | ||
- | lmodsummary$coefficients | ||
- | |||
- | ## QUALIDADE DO AJUSTE DE FORMA RELATIVA | ||
- | |||
- | #R2 e R2ajustado | ||
- | lmodsummary$r.squared | ||
- | |||
- | # | ||
- | cor(predict(lmod), | ||
- | |||
- | # R2 ajustado para o número de parâmetros do modelo | ||
- | lmodsummary$adj.r.squared | ||
- | |||
- | ## | ||
- | |||
- | contr.treatment(5) | ||
- | |||
- | #CENTRANDO AS VARIÁVEIS EM RELAÇÃO À MÉDIA | ||
- | gavote$cpergore <- gavote$pergore - mean(gavote$pergore) | ||
- | gavote$cperAA <- gavote$perAA - mean (gavote$perAA) | ||
- | |||
- | head(gavote) | ||
- | |||
- | # | ||
- | lmodi <- lm(undercount ~ cperAA+cpergore*rural+equip, | ||
- | summary(lmodi) | ||
- | |||
- | ## TESTANDO HIPÓTESES | ||
- | |||
- | #Testa a hipótese de que não há ganho com o modelo maior | ||
- | anova(lmod, | ||
- | |||
- | #Esta função calcula F para comparar o modelo sem cada | ||
- | # um dos preditores em relação ao modelo completo | ||
- | drop1(lmodi, | ||
- | |||
- | ## INTERVALOS DE CONFIANÇA | ||
- | |||
- | #Intervalo de valores plausíveis para o parâmetro | ||
- | # pode-se julgar o tamanho do efeito do preditor | ||
- | confint(lmodi) | ||
- | |||
- | ## DIAGNÓSTICOS DO MODELO | ||
- | |||
- | plot (lmodi) | ||
- | |||
- | #OBSERVANDO OS DOIS CASOS INFLUENTES | ||
- | gavote[cooks.distance(lmodi) > 0.1,] | ||
- | |||
- | #OBSERVANDO PONTOS EXTREMOS | ||
- | halfnorm(influence(lmodi)$hat) | ||
- | |||
- | #OBSERVANDO OS CASOS INFLUENTES MAIORES QUE 0.3 | ||
- | gavote[influence(lmodi)$hat> | ||
- | |||
- | #GRÁFICO DOS RESÍDUOS PARCIAIS | ||
- | |||
- | termplot(lmodi, | ||
- | |||
- | ### | ||
- | #melhor usar uma alternativa robusta funcao rlm) | ||
- | #Metodos de inferencia sao mais dificies de aplicar na estimacao robusta. | ||
- | #O ajuste robusto tem reduzido o efeito dos dois municipios distantes | ||
- | |||
- | library(MASS) | ||
- | rlmodi<- rlm(undercount ~ cperAA+cpergore*rural+equip, | ||
- | summary(rlmodi) | ||
- | |||
- | #MINIMOS QUADRADOS PONDERADOS### | ||
- | #Os tamanhos dos municipios nesse conjunto de dados variam muito com o numeros de votos em cada municipio. | ||
- | #Uso dos minimos quadrados ponderado- criacao dos pesos proporcionais ao numeros de votos. | ||
- | |||
- | wlmodi<- lm(undercount ~ cperAA+cpergore*rural+equip, | ||
- | #usando o desvio padrao usando a binomial | ||
- | sqrt(0.035*(1-0.035)/ | ||
- | |||
- | #Menor que o erro padrao residual de 0,0233. Logo os efeitos serao menores para os outros municipios. | ||
- | |||
- | ##### | ||
- | #Melhor ajuste Box-Cox- transformacao na variavel resposta | ||
- | ## | ||
- | ##facil de selecionar o correto grau)#### | ||
- | |||
- | plmodi <- lm(undercount ~ poly(cperAA, | ||
- | summary(plmodi) | ||
- | |||
- | ##Vantagem dos polinomios ortogonais 'e que o coeficientes de baixa ordem nao muda conforme o grau maximo do modelo## | ||
- | #RESIDUOS PARCIAIS# | ||
- | |||
- | termplot(plmodi, | ||
- | #Ajuste estavel usa-se splines | ||
- | |||
- | ### | ||
- | #Obs: Complexidade do ajuste B_spline pode ser controlada especificando os graus de liberdade. Usou-se 4. | ||
- | library(splines) | ||
- | blmodi <- lm(undercount ~ cperAA+bs (cpergore, | ||
- | termplot(blmodi, | ||
- | #Obs:O ajuste da curva nao 'e muito diferente de uma constante????? | ||
- | |||
- | ####SELECAO DE VARIAVEIS### | ||
- | #Modelo lineares-previsao -prever medidas de incerteza-remocao de variaveis -pouco para modelo -modelo otimizado-AIC- | ||
- | #AIC =-2 maxima log vero+ 2p onde p= numeros de paramettros | ||
- | |||
- | biglm <- lm(undercount ~ (equip+econ+rural+atlanta)^2+ | ||
- | | ||
- | ##eliminar termos-minimizar AIC | ||
- | smallm <- step (biglm, trace=F) | ||
- | |||
- | ##Comparar os modelos AIC### | ||
- | dropl(smallm, | ||
- | |||
- | #### | ||
- | finalm<- lm(undercount~equip + econ + perAA + equip:econ + equip: | ||
- | summary(finalm) | ||
- | #Obs: Vimos que a rural perAA pode ser descartado. Dando um modelo final##### | ||
- | |||
- | ##### | ||
- | pdf <- data.frame(econ=rep(levels(gavote$econ), | ||
- | |||
- | #tabela predict para todas as 15 combinacoes# | ||
- | pp <- predict (finalm, new=pdf) | ||
- | xtabs(round(pp, | ||
- | #obs:menor nos municipios mais ricos e maior nos municipios mais pobres | ||
- | #economia variavel a media# | ||
- | pdf <- data.frame(econ=rep(" | ||
- | | ||
- | pp <- predict(finalm, | ||
- | |||
- | #fator de tres niveis-baixo, | ||
- | propAA <- gl(3, | ||
- | xtabs(round(pp, | ||
- | ##Em resumo descobrimos que a situa' | ||
===== Espaço Aberto ===== | ===== Espaço Aberto ===== |