Trabalho No.1

Redigir de maneira individual e entregar na área correspondente no sistema Microsoft Teans um relatório eletrônico com as respostas até o dia 6 de abril de 2026.

1- Seja $f$ a função de densidade da função de distribuição $F$ e \[ \widehat{f}_n(x)=\dfrac{1}{2nh_n}\sum_{i=1}^n \pmb{1}_{(x-h_n,x+h_n)}(X_i) \] um estimador da função de densidade, sendo $h$ um número real conhecido como largura de banda. Então, com probabilidade 1, \[ 2nh_n \widehat{f}_n(x)\sim \mbox{Binomial}(n,p), \] sendo $p=F(x+h_n)-F(x-h_n)$.

Encontrar
1. $\mbox{E}\big(\widehat{f}_n(x)\big)$
2. $\mbox{Var}\big(\widehat{f}_n(x)\big)$
3. Prove que $\widehat{f}_n(x)$ é um estimador de densidade consistente em média quadrática, ou seja, \[ \lim_{n\to\infty} \mbox{MSE}\big( \widehat{f}_n(x)\big) = 0, \] onde $\mbox{MSE}$ denota o erro quadrático medio, isto é, \[ \mbox{MSE}\big(\widehat{f}(x) \big)=\mbox{E}\Big(\big(\widehat{f}_n(x)-f(x)\big)^2 \Big)\cdot \]
2- Podemos considerar a densidade kernel estimada como a função de densidade de uma amostra, como obter então novas amostras?

Como o estimador kernel da função de densidade \[ \widehat{f}_n(x)=\dfrac{1}{nh_n}\sum_{i=1}^n K\Bigg(\dfrac{x-X_i}{h_n}\Bigg) \] é uma mistura de $n$ componentes de kerneis, cada um pode ser amostrado independentemente. A única parte que pode exigir tratamento especial é a amostragem da densidade $K$, embora para a maioria dos kernels implementados R podem ser encontradas funções de amostragem especificas.

Consideremos os dados em:
```
phipsi = read.csv("http://estatistica.c3sl.ufpr.br/~lucambio/Nonparam/phipsi.csv", 
                  sep = ",", header = T)
head(phipsi)
```
```
##   chain  AA pos        phi        psi
## 1     A Pro   5  -92.92684   12.94131
## 2     A Gly   6   65.79681 -162.22971
## 3     A Val   7  -81.13208  121.41302
## 4     A Val   8  -85.52381  137.17372
## 5     A Ile   9 -124.98875   85.24247
## 6     A Ser  10  -43.11722  147.11371
```
Execute o seguinte algoritmo para gerar amostras de tamanho $N$, a partir da densidade kernel estimada dos dados em phipsi:
1. Escolha $i\in \{1,\cdots,n\}$ aleatoriamene,
2. Obtenha uma amostra de tamanho 1 da densidade $K$, caso utiliza-se a densidade gaussiana, a média é $X_i$ e o desvio padrão é $h_n$,
3. Repita os passos anteriores $N$ vezes.
Obtenha uma amostra de tamanho $N = 600$ da variável $\psi$ (phipsi$psi) utilizando o algoritmo acima e compare a densidade estimada da nova amostra com a densidade estimada de $\psi$. Esta comparação pode ser graficamente.
3- Considere a função $\Delta(F,G)$, \[ \Delta(F,G)=\int_{-\infty}^\infty \big(F(x)-G(x) \big)^2\dfrac{F'(x)+G'(x)}{2}\mbox{d}x \] sendo $F$ e $G$ distribuições absolutamente contínuas. Seja $X_1,\cdots,X_m$ uma amostra aleatória de $F$ e $Y_1,\cdots,Y_n$ uma amostra aleatória de $G$, independentes. Sabemos que a $U$-estatística \[ U(X,Y)=\dfrac{1}{\displaystyle \binom{m}{2}\binom{n}{2}}\sum_{i_1<i_2} \sum_{k_1<k_2} \varphi(X_{i_1},X_{i_2},Y_{k_1},Y_{k_2}), \] onde \[ \varphi(X_1,X_2,Y_1,Y_2)=\left\{ \begin{array}{cl} 1, & \mbox{se } \max(X_1,X_2)<\min(Y_1,Y_2) \, \mbox{ ou se } \, \max(Y_1,Y_2)<\min(X_1,X_2) \\[0.8em] 0, & \mbox{caso contrário}\end{array}\right., \] permite encontrar o estimador não viciado de mínima variância de $\Delta(F,G)$ como \[ \widehat{\Delta}(F,G)=\dfrac{1}{2}U(X,Y)-\dfrac{1}{6}\cdot \]
1. Escreva uma função R para encontrar estimativas de $\widehat{\Delta}(F,G)$, considerando diversos valores de tamanhos de cada amostra.
2. Considere como possíveis distribuições de referência $F$ as seguintes (i) Normal padrão, (ii) Cauchy padrão, (iii) $t$-Student(4) e gere amostras de tamanho 100 de cada uma.
3. Calcule as estimativas de $\widehat{\Delta}(F,G)$ para cada amostra das distribuições de referência $F$ obtidas no item (b) e a amostra da distribuição desconhecida $G$, obtida no arquivo:
```
G = read.csv("http://estatistica.c3sl.ufpr.br/~lucambio/CE313/20251S/dados.csv", header = FALSE)
head(G)
```
```
##           V1
## 1  1.2099379
## 2  2.7093132
## 3 -2.2304522
## 4 -1.3140455
## 5  1.6436315
## 6 -0.1098181
```
1. Segundo seus cálculos, qual é a distribuição desconhecida $G$?

Trabalho No.1

CE313- Estatística Não-Paramétrica

2026-03-05