Redigir de maneira individual e entregar na área correspondente no sistema Microsoft Teans um relatório eletrônico com as respostas até o dia 6 de abril de 2026.
1- Seja \(f\) a função de densidade da função de distribuição \(F\) e \[ \widehat{f}_n(x)=\dfrac{1}{2nh_n}\sum_{i=1}^n \pmb{1}_{(x-h_n,x+h_n)}(X_i) \] um estimador da função de densidade, sendo \(h\) um número real conhecido como largura de banda. Então, com probabilidade 1, \[ 2nh_n \widehat{f}_n(x)\sim \mbox{Binomial}(n,p), \] sendo \(p=F(x+h_n)-F(x-h_n)\).
Encontrar
\(\mbox{E}\big(\widehat{f}_n(x)\big)\)
\(\mbox{Var}\big(\widehat{f}_n(x)\big)\)
Prove que \(\widehat{f}_n(x)\) é um estimador de densidade consistente em média quadrática, ou seja, \[ \lim_{n\to\infty} \mbox{MSE}\big( \widehat{f}_n(x)\big) = 0, \] onde \(\mbox{MSE}\) denota o erro quadrático medio, isto é, \[ \mbox{MSE}\big(\widehat{f}(x) \big)=\mbox{E}\Big(\big(\widehat{f}_n(x)-f(x)\big)^2 \Big)\cdot \]
2- Podemos considerar a densidade kernel estimada como a função de densidade de uma amostra, como obter então novas amostras?
Como o estimador kernel da função de densidade \[ \widehat{f}_n(x)=\dfrac{1}{nh_n}\sum_{i=1}^n K\Bigg(\dfrac{x-X_i}{h_n}\Bigg) \] é uma mistura de \(n\) componentes de kerneis, cada um pode ser amostrado independentemente. A única parte que pode exigir tratamento especial é a amostragem da densidade \(K\), embora para a maioria dos kernels implementados R podem ser encontradas funções de amostragem especificas.
Consideremos os dados em:
phipsi = read.csv("http://estatistica.c3sl.ufpr.br/~lucambio/Nonparam/phipsi.csv",
sep = ",", header = T)
head(phipsi)
## chain AA pos phi psi
## 1 A Pro 5 -92.92684 12.94131
## 2 A Gly 6 65.79681 -162.22971
## 3 A Val 7 -81.13208 121.41302
## 4 A Val 8 -85.52381 137.17372
## 5 A Ile 9 -124.98875 85.24247
## 6 A Ser 10 -43.11722 147.11371
Execute o seguinte algoritmo para gerar amostras de tamanho \(N\), a partir da densidade kernel estimada dos dados em phipsi:
Escolha \(i\in \{1,\cdots,n\}\) aleatoriamene,
Obtenha uma amostra de tamanho 1 da densidade \(K\), caso utiliza-se a densidade gaussiana, a média é \(X_i\) e o desvio padrão é \(h_n\),
Repita os passos anteriores \(N\) vezes.
Obtenha uma amostra de tamanho \(N = 600\) da variável \(\psi\) (phipsi$psi) utilizando o algoritmo acima e compare a densidade estimada da nova amostra com a densidade estimada de \(\psi\). Esta comparação pode ser graficamente.
3- Considere a função \(\Delta(F,G)\), \[ \Delta(F,G)=\int_{-\infty}^\infty \big(F(x)-G(x) \big)^2\dfrac{F'(x)+G'(x)}{2}\mbox{d}x \] sendo \(F\) e \(G\) distribuições absolutamente contínuas. Seja \(X_1,\cdots,X_m\) uma amostra aleatória de \(F\) e \(Y_1,\cdots,Y_n\) uma amostra aleatória de \(G\), independentes. Sabemos que a \(U\)-estatística \[ U(X,Y)=\dfrac{1}{\displaystyle \binom{m}{2}\binom{n}{2}}\sum_{i_1<i_2} \sum_{k_1<k_2} \varphi(X_{i_1},X_{i_2},Y_{k_1},Y_{k_2}), \] onde \[ \varphi(X_1,X_2,Y_1,Y_2)=\left\{ \begin{array}{cl} 1, & \mbox{se } \max(X_1,X_2)<\min(Y_1,Y_2) \, \mbox{ ou se } \, \max(Y_1,Y_2)<\min(X_1,X_2) \\[0.8em] 0, & \mbox{caso contrário}\end{array}\right., \] permite encontrar o estimador não viciado de mínima variância de \(\Delta(F,G)\) como \[ \widehat{\Delta}(F,G)=\dfrac{1}{2}U(X,Y)-\dfrac{1}{6}\cdot \]
Escreva uma função R para encontrar estimativas de \(\widehat{\Delta}(F,G)\), considerando diversos valores de tamanhos de cada amostra.
Considere como possíveis distribuições de referência \(F\) as seguintes (i) Normal padrão, (ii) Cauchy padrão, (iii) \(t\)-Student(4) e gere amostras de tamanho 100 de cada uma.
Calcule as estimativas de \(\widehat{\Delta}(F,G)\) para cada amostra das distribuições de referência \(F\) obtidas no item (b) e a amostra da distribuição desconhecida \(G\), obtida no arquivo:
G = read.csv("http://estatistica.c3sl.ufpr.br/~lucambio/CE313/20251S/dados.csv", header = FALSE)
head(G)
## V1
## 1 1.2099379
## 2 2.7093132
## 3 -2.2304522
## 4 -1.3140455
## 5 1.6436315
## 6 -0.1098181