Redigir de maneira individual e entregar na área correspondente no sistema Microsoft Teans um relatório eletrônico com as respostas até o dia 25 de maio de 2026.
1- [15 pontos] Considere o conjunto de dados do rio Nilo. Estes dados são o conjunto de dados históricos que consistem em leituras do volume anual do fluxo do rio Nilo em Assuão (Aswan) de 1871 a 1970. A cidade de Assuão é um centro de comércio e de turismo importante em Egito, localizada ao norte da represa de Assuão, na margem leste do rio Nilo. A Grande Barragem na represa de Assuão, construída na década de 1960, fornece água e electricidade a todo o Egito.
par(mar=c(3,3,3,1))
plot.ts(Nile, main = expression(paste("Fluxo anual do rio Nilo em Assuão, 1871-1970, em ",10^8,"",m^3)))
grid()
Na figura obtida com os comandos acima observa-se que o volume do rio Nilo no século XIX era, em média, maior do que o volume registrado no século XX.
num = length(Nile)
A = array(1, dim=c(1,1,num))
mu0 = mean(Nile[1:20]); Sigma0 = var(Nile[61:80])
Phi = 1; cQ = 1; cR = 1
ks = astsa::Ksmooth(Nile,A,mu0,Sigma0,Phi,cQ,cR)
As linhas de comando acima ajudam a estimar o modelo proposto e, a continuação, mostramos como poderiam ser apresentados os resultados:
par(mar=c(3,3,3,1))
plot.ts(Nile, main="Preditos", ylab=expression(mu[t]))
lines(ts(as.vector(ks$Xs),start=start(Nile)), type="b",pch=19,col="brown",cex=0.8); grid()
pu = ts(as.vector(ks$Xs+2*sqrt(ks$Ps)),start=start(Nile))
pl = ts(as.vector(ks$Xs-2*sqrt(ks$Ps)),start=start(Nile))
lines(pl, lty = 2, col = "brown")
lines(pu, lty = 2, col = "brown")
forecast::accuracy(Nile,ts(as.vector(ks$Xs),start=start(Nile)))
## ME RMSE MAE MPE MAPE ACF1
## Test set -4.752858e-05 72.38846 57.71856 0.3913999 6.372597 -0.3402081
## Theil's U
## Test set 1.281018
2- [35 pontos] Usando um DLM (modelo linear dinâmico) examinar a relação
entre a sobrevivẽncia marinha do salmão Chinook e um índice de força da
ressurgência do oceano ao longo da costa oeste dos EUA. A ressurgência é
um processo que traz águas frias e ricas em nutrientes do oceano
profundo às áreas costeiras rasas.
Pesquisadores levantaram a hipótese de que a ressurgência mais forte
em abril deveria criar melhores condições de crescimento para o
plâncton, para que o salmão juvenil (smolts) entrasse no
oceano em maio e junho encontre melhores oportunidades de
alimentação.
Leitura dos dados:
Salmon = read.csv2("http://estatistica.c3sl.ufpr.br/~lucambio/CE017/20242S/SalmonChinook.csv", sep=";")
head(Salmon,4)
## X year logit.s CUI.apr
## 1 1 1964 -3.46 57
## 2 2 1965 -3.32 5
## 3 3 1966 -3.58 43
## 4 4 1967 -3.03 11
O conjunto de dados possui 3 colunas:
year Ano em que os smolts de salmão migraram para o
oceano,logit.s sobrevivência transformada na escala
logaritmica eCUI.apr índice de ressurgência costeiro para abril.
Existem 42 anos de dados (1964 - 2005).Padronizar as covariáveis para ter média zero e variância unitária
pode ser útil no ajuste e interpretação do modelo. Nesse caso, a
variável resposta CUI.apr é ordens de magnitude maior que a
sobrevivência. Podemos, então, utilizar a função scale e definir:
CUI.z = scale(Salmon$CUI.apr)
Verificar se a hipótese pode ser considerada válida com estes dados e verificar a qualidade do ajuste, analisando para isso se os resíduos podem ser considerados um ruído branco gaussiano.
3- [50 pontos] As Empresas da Rede de Transporte (TNCs) da
cidade de Nova York fornecem serviços de transporte por aplicativo,
permitindo que os passageiros usem seus aplicativos de celulares para se
conectar com motoristas próximos que comumente dirigem meio período
usando seu própio carro.
Consideramos dados semanais de uso de transporte por aplicativos de
\(g=105\) diferentes zonas e táxi de
Nova York, de janeiro de 2015 a junho de 2017, fornecendo dados para
\(n=129\) semanas. Os dados consistem
no uso de TNCs (tnc), táxi (taxi) e metrô
(subway) por zonas de taxi (zoneid) para cada
semana (date).
Leitura dos dados:
TNCs = read.csv2("http://estatistica.c3sl.ufpr.br/~lucambio/CE017/20251S/tnc_weekly_data.csv", sep = ",")
head(TNCs)
## date month year zoneid tnc subway taxi holidays precip median.age
## 1 2015-01-11 1 2015 ID100 5115 1209861 55087 0 0.15 31.75
## 2 2015-01-18 1 2015 ID100 5690 1217097 58130 0 2.38 31.75
## 3 2015-01-25 1 2015 ID100 4893 1158184 53187 1 0.73 31.75
## 4 2015-02-01 2 2015 ID100 4445 1027610 43494 0 0.81 31.75
## 5 2015-02-08 2 2015 ID100 6236 1240529 51982 0 1.1 31.75
## 6 2015-02-15 2 2015 ID100 7508 1270491 57774 1 0.14 31.75
## median.earnings scaled.population scaled.employment zone.name
## 1 86659.5 1.2734693877551 0.828571428571429 Garment District
## 2 86659.5 1.2734693877551 0.828571428571429 Garment District
## 3 86659.5 1.2734693877551 0.828571428571429 Garment District
## 4 86659.5 1.2734693877551 0.828571428571429 Garment District
## 5 86659.5 1.2734693877551 0.828571428571429 Garment District
## 6 86659.5 1.2734693877551 0.828571428571429 Garment District
## borough
## 1 Manhattan
## 2 Manhattan
## 3 Manhattan
## 4 Manhattan
## 5 Manhattan
## 6 Manhattan
O uso de TNCs agrega três modos de viagem: Uber, Lyft e Via. O uso de táxi agrega táxis amarelos e verdes. A principal diferença entre os táxis amarelos e verdes em Nova York é a área de atuação: táxis amarelos (Yellow Cabs) podem pegar passageiros em qualquer lugar da cidade, enquanto os táxis verdes (Boro Taxis) são restritos a áreas fora do centro de Manhattan (norte da rua 96 ou 110) e aos bairros (Brooklyn, Bronx, Queens, Staten Island). Na maioria das zonas, o uso de TNCs mostra um aumento contínuo ao longo do tempo, enquanto o uso de táxis exibe uma tendência decrescente. O uso de metrô, como esperado para Nova York, domina os outros dois tipos de viagens na maioria das zonas.
O conjunto de dados também inclui dados sobre potenciais preditores, obtidos de várias fontes, como o Portal de Dados Abertos de Nova York (NYC Open Data Portal), a Administração Oceânica e Atmosférica Nacional (National Oceanic and Atmospheric Administration - NOAA), o Departamemnto do Censo dos EUA (U.S. Census Bureau), etc.
Eles incluem:
dados que variam por semana, mas permanecem constantes em toda as
zonas de táxi para qualquer semana, como feriados (holiday)
um indicador e precipitação ( precip) em polegadas
e
dados sobre variáveis socio-economômicas e de uso do solo, que
presumimos variarem por zona de táxi, e consistem em população
total/número de edifícios (scaled.population), empregados
em tempo integral/número de edifícios (scaled.employment),
idade mediana (median.age) e rendimento mediano
(median.earnings).
Como os padrões estocásticos parecem variar a longo do tempo, o uso de modelos dinâmicos é uma escolha natural para estes dados. Modelos dinâmicos nos permitem reunir informações de \(g\) grupos ou indivíduos (zona de táxi em nosso exemplo) para estimar coeficiêntes comuns, bem como estimar coeficiêntes específicos de grupo/zona.
No conjunto de dados, dividimos cada contagem observada por \(k = 10.000\) e dividimos os dados da série temporal em partes de treinamento (ou calibração) e de retenção (ou teste). Especificamente, reservamos (\(n_h=5\)) semanas para teste de cada uma das zonas de táxi, ou seja, \(g =105\)
A cidade de Nova York é dividida em cinco distritos principais,
conhecidos como boroughs: Manhattan, Brooklyn, Queens,
Bronx e Staten Island. Cada um desses distritos funciona como um condado
do estado de Nova York e possui uma identidade cultural, história e
atmosfera únicas. No arquivo de dados não é considerado o distrito de
Staten Island (Condado de Richmond), o qual oferece um ambiente mais
suburbano e residencial, conhecido pelo ferry gratuito que proporciona
belas vistas da Estátua da Liberdade. Faça um estudo descritivo
mostrando o uso semanal em escala de TNCs e táxis em duas zonas de táxis
selecionadas aleatoriamente nos quatro distritos. Comente se as
observações acerca do comportamento do uso do TNCs e do taxi é
perceptível dos gráficos.
As série temporais de resposta \(Y_t\) escalonada representam o uso de TNCs na semana \(t\), com \(n=129\) e \(g=105\). A resposta pode ser escrita como uma matriz de dados \(Y\) com \(g\) linhas (sujeitos/locais) e \(k\) colunas.
Consideremos três tipos de preditores: preditores que variam por
semana \(t\) e zona \(i\), estes incluem o uso do metrô e o uso
de táxi. Preditores que variam apenas na semana \(t\), essas variáveis são constantes em
todas as zonas de táxi \(i\) para
qualquer \(t\) dados, incluem feriados
(holidyas) - um indicador e precipitação
(precip) em polegadas. Preditores que variam apenas pela
zona \(i\), presupõe-se que permaneçam
constantes semana após semanas, incluem população escalonada
(scaled.population), emprego escalonado
(scaled.employment), idade mediana
(median.age) e rendimentos medianos
(median.earnings).
Considere o modelo: \[ \begin{array}{rcl} Y_{it} & = & \alpha + \beta_{it,0} + \pmb{b}_{it}^\top \pmb{\beta}_{it} + \pmb{d}_t^\top \pmb{\gamma}_t + \pmb{s}_i^\top \pmb{\eta}_i + \nu_{it}, \\[0.8em] \beta_{it,0} & = & \phi_0 \beta_{i,t-1,0}+\omega_{it,0}, \\[0.8em] \beta_{it,h} & = & \phi_h^{(\beta)} \beta_{i,t-1,h}+\omega_{it,h}^{(\beta)}, \quad h=1,2 \\[0.8em] \gamma_{t\ell} & = & \phi_\ell^{(\gamma)} \gamma_{t-1,\ell} + \omega_{t,\ell}^{(\gamma)}, \quad \ell = 1,2\cdot \end{array} \]
Incluímos um nível \(\alpha\) e um intercepto variável no tempo \(\beta_{it,0}\) que é modelado como um processo \(AR(1)\) latente de média zero com coeficiênte \(\phi_0\). As variáveis correspondentes ao uso do metrô e do táxi são \(\beta_{it,h}\), \(h=1,2\), componentes do vetor \(\pmb{\beta}_{it}\), cada uma dos quais evolui como um processo \(AR(1)\) gaussiano latente com coeficiêntes \(\phi_1^{(\beta)}\) e \(\phi_2^{(\beta)}\), respectivamente. As variáveis correspondentes a feriados e precipitação são denotadas por \(\gamma_{t\ell}\), \(\ell=1,2\), componentes dos vetor \(\pmb{\gamma}_t\), evoluem como processos \(AR(1)\) gaussianos latentes com coeficiêntes \(\phi_1^{(\gamma)}\) e \(\phi_2^{(\gamma)}\), respectivamente. As variáveis componentes do vetor \(\pmb{\eta}_i\) correspondem aos proditores demográficos e de uso do solo, específicos apenas para cada zona de táxi e não seguem nenhum modelo dinâmico. Assumimos todos os coeficiêntes \(AR(1)\) entre -1 e 1. Os erros de observação \(\nu_{it}\) são assumidos como \(N(0,\sigma_\nu^2)\). Os erros de estado \(\omega_{it,0}\) são \(N(0,\sigma_{\omega,0}^2)\), os erros \(\omega_{it,h}^{(\beta)}\sim N(0,\sigma_{\omega,\beta_{_h}}^2)\), \(h=1,2\) e os erros \(\omega_{t,\ell}^{(\gamma)}\sim N(0,\sigma_{\omega,\gamma_{_\ell}}^2)\), \(\ell=1,2\). Os erros são não correlacionados. Para os elementos do vetor \(\pmb{\eta}_i\) no modelo, assumimos a priori normais independentes.
Estime o modelo dinâmico proposto e verifique a pocessão do ajuste nos dados reservados como de retenção. Apresente o estudo dos resíduos e, se conveniênte, faça sugestões de outros possíveis trabalhos (modelos).