Trabalho No.3

Redigir de maneira individual e entregar na área correspondente no sistema Microsoft Teans um relatório eletrônico com as respostas até o dia 25 de maio de 2026.

Modelos dinâmicos (DLM)

1- [15 pontos] Considere o conjunto de dados do rio Nilo. Estes dados são o conjunto de dados históricos que consistem em leituras do volume anual do fluxo do rio Nilo em Assuão (Aswan) de 1871 a 1970. A cidade de Assuão é um centro de comércio e de turismo importante em Egito, localizada ao norte da represa de Assuão, na margem leste do rio Nilo. A Grande Barragem na represa de Assuão, construída na década de 1960, fornece água e electricidade a todo o Egito.

par(mar=c(3,3,3,1))
plot.ts(Nile, main = expression(paste("Fluxo anual do rio Nilo em Assuão, 1871-1970, em ",10^8,"",m^3)))
grid()

Na figura obtida com os comandos acima observa-se que o volume do rio Nilo no século XIX era, em média, maior do que o volume registrado no século XX.

Estime o volume médio do rio Nilo utilizando modelos dinâmicos

num = length(Nile)
A = array(1, dim=c(1,1,num))
mu0 = mean(Nile[1:20]); Sigma0 = var(Nile[61:80])
Phi = 1; cQ = 1; cR = 1
ks = astsa::Ksmooth(Nile,A,mu0,Sigma0,Phi,cQ,cR)

As linhas de comando acima ajudam a estimar o modelo proposto e, a continuação, mostramos como poderiam ser apresentados os resultados:

par(mar=c(3,3,3,1))
plot.ts(Nile, main="Preditos", ylab=expression(mu[t])) 
lines(ts(as.vector(ks$Xs),start=start(Nile)), type="b",pch=19,col="brown",cex=0.8); grid()
pu = ts(as.vector(ks$Xs+2*sqrt(ks$Ps)),start=start(Nile))
pl = ts(as.vector(ks$Xs-2*sqrt(ks$Ps)),start=start(Nile))
lines(pl, lty = 2, col = "brown")
lines(pu, lty = 2, col = "brown")

Verifique a quailidade dos resíduos, lembrando que estes devem ser um ruído branco. Uma forma de quantificar a qualidade do ajuste é utilizando as métricas:

forecast::accuracy(Nile,ts(as.vector(ks$Xs),start=start(Nile)))

##                     ME     RMSE      MAE       MPE     MAPE       ACF1
## Test set -4.752858e-05 72.38846 57.71856 0.3913999 6.372597 -0.3402081
##          Theil's U
## Test set  1.281018

Os dados do volume do rio Nilo foram coletados até 1970. Obtenha as previsões do volume médio para até o ano de 1975.

2- [35 pontos] Usando um DLM (modelo linear dinâmico) examinar a relação entre a sobrevivẽncia marinha do salmão Chinook e um índice de força da ressurgência do oceano ao longo da costa oeste dos EUA. A ressurgência é um processo que traz águas frias e ricas em nutrientes do oceano profundo às áreas costeiras rasas.

Pesquisadores levantaram a hipótese de que a ressurgência mais forte em abril deveria criar melhores condições de crescimento para o plâncton, para que o salmão juvenil (smolts) entrasse no oceano em maio e junho encontre melhores oportunidades de alimentação.

Leitura dos dados:

Salmon = read.csv2("http://estatistica.c3sl.ufpr.br/~lucambio/CE017/20242S/SalmonChinook.csv", sep=";")
head(Salmon,4)

##   X year logit.s CUI.apr
## 1 1 1964   -3.46      57
## 2 2 1965   -3.32       5
## 3 3 1966   -3.58      43
## 4 4 1967   -3.03      11

O conjunto de dados possui 3 colunas:

year Ano em que os smolts de salmão migraram para o oceano,
logit.s sobrevivência transformada na escala logaritmica e
CUI.apr índice de ressurgência costeiro para abril. Existem 42 anos de dados (1964 - 2005).

Padronizar as covariáveis para ter média zero e variância unitária pode ser útil no ajuste e interpretação do modelo. Nesse caso, a variável resposta CUI.apr é ordens de magnitude maior que a sobrevivência. Podemos, então, utilizar a função scale e definir:


CUI.z = scale(Salmon$CUI.apr)

Verificar se a hipótese pode ser considerada válida com estes dados e verificar a qualidade do ajuste, analisando para isso se os resíduos podem ser considerados um ruído branco gaussiano.

3- [50 pontos] As Empresas da Rede de Transporte (TNCs) da cidade de Nova York fornecem serviços de transporte por aplicativo, permitindo que os passageiros usem seus aplicativos de celulares para se conectar com motoristas próximos que comumente dirigem meio período usando seu própio carro.

Consideramos dados semanais de uso de transporte por aplicativos de \(g=105\) diferentes zonas e táxi de Nova York, de janeiro de 2015 a junho de 2017, fornecendo dados para \(n=129\) semanas. Os dados consistem no uso de TNCs (tnc), táxi (taxi) e metrô (subway) por zonas de taxi (zoneid) para cada semana (date).

Leitura dos dados:

TNCs = read.csv2("http://estatistica.c3sl.ufpr.br/~lucambio/CE017/20251S/tnc_weekly_data.csv", sep = ",")
head(TNCs)

##         date month year zoneid  tnc  subway  taxi holidays precip median.age
## 1 2015-01-11     1 2015  ID100 5115 1209861 55087        0   0.15      31.75
## 2 2015-01-18     1 2015  ID100 5690 1217097 58130        0   2.38      31.75
## 3 2015-01-25     1 2015  ID100 4893 1158184 53187        1   0.73      31.75
## 4 2015-02-01     2 2015  ID100 4445 1027610 43494        0   0.81      31.75
## 5 2015-02-08     2 2015  ID100 6236 1240529 51982        0    1.1      31.75
## 6 2015-02-15     2 2015  ID100 7508 1270491 57774        1   0.14      31.75
##   median.earnings scaled.population scaled.employment        zone.name
## 1         86659.5   1.2734693877551 0.828571428571429 Garment District
## 2         86659.5   1.2734693877551 0.828571428571429 Garment District
## 3         86659.5   1.2734693877551 0.828571428571429 Garment District
## 4         86659.5   1.2734693877551 0.828571428571429 Garment District
## 5         86659.5   1.2734693877551 0.828571428571429 Garment District
## 6         86659.5   1.2734693877551 0.828571428571429 Garment District
##     borough
## 1 Manhattan
## 2 Manhattan
## 3 Manhattan
## 4 Manhattan
## 5 Manhattan
## 6 Manhattan

O uso de TNCs agrega três modos de viagem: Uber, Lyft e Via. O uso de táxi agrega táxis amarelos e verdes. A principal diferença entre os táxis amarelos e verdes em Nova York é a área de atuação: táxis amarelos (Yellow Cabs) podem pegar passageiros em qualquer lugar da cidade, enquanto os táxis verdes (Boro Taxis) são restritos a áreas fora do centro de Manhattan (norte da rua 96 ou 110) e aos bairros (Brooklyn, Bronx, Queens, Staten Island). Na maioria das zonas, o uso de TNCs mostra um aumento contínuo ao longo do tempo, enquanto o uso de táxis exibe uma tendência decrescente. O uso de metrô, como esperado para Nova York, domina os outros dois tipos de viagens na maioria das zonas.

O conjunto de dados também inclui dados sobre potenciais preditores, obtidos de várias fontes, como o Portal de Dados Abertos de Nova York (NYC Open Data Portal), a Administração Oceânica e Atmosférica Nacional (National Oceanic and Atmospheric Administration - NOAA), o Departamemnto do Censo dos EUA (U.S. Census Bureau), etc.

Eles incluem:

dados que variam por semana, mas permanecem constantes em toda as zonas de táxi para qualquer semana, como feriados (holiday) um indicador e precipitação ( precip) em polegadas e
dados sobre variáveis socio-economômicas e de uso do solo, que presumimos variarem por zona de táxi, e consistem em população total/número de edifícios (scaled.population), empregados em tempo integral/número de edifícios (scaled.employment), idade mediana (median.age) e rendimento mediano (median.earnings).

Como os padrões estocásticos parecem variar a longo do tempo, o uso de modelos dinâmicos é uma escolha natural para estes dados. Modelos dinâmicos nos permitem reunir informações de \(g\) grupos ou indivíduos (zona de táxi em nosso exemplo) para estimar coeficiêntes comuns, bem como estimar coeficiêntes específicos de grupo/zona.

No conjunto de dados, dividimos cada contagem observada por \(k = 10.000\) e dividimos os dados da série temporal em partes de treinamento (ou calibração) e de retenção (ou teste). Especificamente, reservamos (\(n_h=5\)) semanas para teste de cada uma das zonas de táxi, ou seja, \(g =105\)

A cidade de Nova York é dividida em cinco distritos principais, conhecidos como boroughs: Manhattan, Brooklyn, Queens, Bronx e Staten Island. Cada um desses distritos funciona como um condado do estado de Nova York e possui uma identidade cultural, história e atmosfera únicas. No arquivo de dados não é considerado o distrito de Staten Island (Condado de Richmond), o qual oferece um ambiente mais suburbano e residencial, conhecido pelo ferry gratuito que proporciona belas vistas da Estátua da Liberdade. Faça um estudo descritivo mostrando o uso semanal em escala de TNCs e táxis em duas zonas de táxis selecionadas aleatoriamente nos quatro distritos. Comente se as observações acerca do comportamento do uso do TNCs e do taxi é perceptível dos gráficos.
As série temporais de resposta \(Y_t\) escalonada representam o uso de TNCs na semana \(t\), com \(n=129\) e \(g=105\). A resposta pode ser escrita como uma matriz de dados \(Y\) com \(g\) linhas (sujeitos/locais) e \(k\) colunas.
Consideremos três tipos de preditores: preditores que variam por semana \(t\) e zona \(i\), estes incluem o uso do metrô e o uso de táxi. Preditores que variam apenas na semana \(t\), essas variáveis são constantes em todas as zonas de táxi \(i\) para qualquer \(t\) dados, incluem feriados (holidyas) - um indicador e precipitação (precip) em polegadas. Preditores que variam apenas pela zona \(i\), presupõe-se que permaneçam constantes semana após semanas, incluem população escalonada (scaled.population), emprego escalonado (scaled.employment), idade mediana (median.age) e rendimentos medianos (median.earnings).
Considere o modelo: \[ \begin{array}{rcl} Y_{it} & = & \alpha + \beta_{it,0} + \pmb{b}_{it}^\top \pmb{\beta}_{it} + \pmb{d}_t^\top \pmb{\gamma}_t + \pmb{s}_i^\top \pmb{\eta}_i + \nu_{it}, \\[0.8em] \beta_{it,0} & = & \phi_0 \beta_{i,t-1,0}+\omega_{it,0}, \\[0.8em] \beta_{it,h} & = & \phi_h^{(\beta)} \beta_{i,t-1,h}+\omega_{it,h}^{(\beta)}, \quad h=1,2 \\[0.8em] \gamma_{t\ell} & = & \phi_\ell^{(\gamma)} \gamma_{t-1,\ell} + \omega_{t,\ell}^{(\gamma)}, \quad \ell = 1,2\cdot \end{array} \]
Incluímos um nível \(\alpha\) e um intercepto variável no tempo \(\beta_{it,0}\) que é modelado como um processo \(AR(1)\) latente de média zero com coeficiênte \(\phi_0\). As variáveis correspondentes ao uso do metrô e do táxi são \(\beta_{it,h}\), \(h=1,2\), componentes do vetor \(\pmb{\beta}_{it}\), cada uma dos quais evolui como um processo \(AR(1)\) gaussiano latente com coeficiêntes \(\phi_1^{(\beta)}\) e \(\phi_2^{(\beta)}\), respectivamente. As variáveis correspondentes a feriados e precipitação são denotadas por \(\gamma_{t\ell}\), \(\ell=1,2\), componentes dos vetor \(\pmb{\gamma}_t\), evoluem como processos \(AR(1)\) gaussianos latentes com coeficiêntes \(\phi_1^{(\gamma)}\) e \(\phi_2^{(\gamma)}\), respectivamente. As variáveis componentes do vetor \(\pmb{\eta}_i\) correspondem aos proditores demográficos e de uso do solo, específicos apenas para cada zona de táxi e não seguem nenhum modelo dinâmico. Assumimos todos os coeficiêntes \(AR(1)\) entre -1 e 1. Os erros de observação \(\nu_{it}\) são assumidos como \(N(0,\sigma_\nu^2)\). Os erros de estado \(\omega_{it,0}\) são \(N(0,\sigma_{\omega,0}^2)\), os erros \(\omega_{it,h}^{(\beta)}\sim N(0,\sigma_{\omega,\beta_{_h}}^2)\), \(h=1,2\) e os erros \(\omega_{t,\ell}^{(\gamma)}\sim N(0,\sigma_{\omega,\gamma_{_\ell}}^2)\), \(\ell=1,2\). Os erros são não correlacionados. Para os elementos do vetor \(\pmb{\eta}_i\) no modelo, assumimos a priori normais independentes.
Estime o modelo dinâmico proposto e verifique a pocessão do ajuste nos dados reservados como de retenção. Apresente o estudo dos resíduos e, se conveniênte, faça sugestões de outros possíveis trabalhos (modelos).

Trabalho No.3

CE017 - Séries temporais e modelos dinâmicos

Fernando Lucambio Pérez

2026-04-21

Modelos dinâmicos (DLM)