Uma análise completa de dados multidimensionais requer a aplicação de uma variedade de ferramentas estatísticas — paramétricas, não paramétricas e gráficas. A análise paramétrica é a mais poderosa. A análise não paramétrica é a mais flexível e a análise gráfica fornece o meio para descobrir o inesperado.
Este capítulo apresenta algumas ferramentas gráficas para visualizar a estrutura em dados multidimensionais. Um conjunto de ferramentas concentra-se na representação dos próprios pontos de dados, enquanto outro conjunto de ferramentas se baseia na exibição de funções estimadas a partir desses pontos. A visualização e o contorno de funções em mais de duas dimensões são introduzidos. Alguns aspectos matemáticos da geometria de dimensões superiores são revisados. Esses resultados têm consequências para a análise de dados não paramétrica.
Os modelos estatísticos multivariados lineares clássicos baseiam-se principalmente na análise da matriz de covariância. Essas técnicas são tão poderosas que a análise se tornou quase rotineira para conjuntos de dados com centenas de variáveis. Embora a base teórica dos modelos paramétricos esteja na densidade normal multivariada, esses modelos são aplicados na prática a muitos tipos de dados. Estudos paramétricos fornecem resumos inferenciais concisos e uma representação parcimoniosa dos dados.
Para muitos problemas, informações de segunda ordem são inadequadas. Modelagem avançada ou transformações simples de variáveis podem fornecer uma solução. Quando nenhum modelo paramétrico simples é obtido, muitos pesquisadores optam por métodos totalmente “não paramétricos”, que podem ser agrupados sob o título de análise exploratória de dados. Essas análises são altamente gráficas; porém, em um cenário não normal complexo, um gráfico pode fornecer uma representação mais concisa do que um modelo paramétrico, pois um modelo paramétrico de complexidade adequada pode envolver centenas de parâmetros.
Existem algumas diferenças significativas entre a modelagem paramétrica e a não paramétrica. O foco na otimização na modelagem paramétrica não se traduz bem para o mundo não paramétrico. Por exemplo, pode-se provar que o histograma é um estimador inadmissível, mas esse fato teórico não deve ser interpretado como uma sugestão de que histogramas não devam ser usados. Muito pelo contrário, alguns métodos que são teoricamente superiores quase nunca são usados na prática. A razão é que a ordem dos algoritmos não é absoluta, mas depende não apenas da densidade desconhecida, mas também do tamanho da amostra. Assim, o histograma é geralmente superior para amostras pequenas, independentemente de suas propriedades assintóticas. A escola exploratória está no extremo oposto, rejeitando modelos probabilísticos, cuja existência fornece a estrutura para definir a otimalidade.
Nestas notas, adota-se um ponto de vista intermediário em relação à eficácia estatística. Nenhuma estatística não paramétrica é considerada errada; apenas diferentes componentes da solução são enfatizados. Muito esforço será dedicado ao problema da calibração baseada em dados, mas estimativas não paramétricas podem ser razoavelmente calibradas na prática sem muita dificuldade. A “maldição da otimalidade” pode sugerir que este é um ponto de vista ilógico.
No entanto, se a noção de que a otimalidade é tudo for adotada, o foco passa a ser a correspondência das propriedades teóricas de um estimador com as propriedades assumidas da função de densidade. É uma grande ineficiência usar um procedimento que requer apenas duas derivadas contínuas quando a curva, na verdade, tem seis derivadas contínuas? Essa atitude pode ter alguma base formal, mas deve ser desencorajada por ser muito rigorosa para o pensamento não paramétrico.
Uma atitude mais flexível é necessária. Além disso, muitos procedimentos não paramétricos “ótimos” são instáveis de uma maneira que procedimentos ligeiramente ineficientes não são. Na prática, ao se deparar com a aplicação de um procedimento que requer seis derivadas, ou alguma outra suposição que não pode ser comprovada na prática é mais importante ser capaz de reconhecer os sinais de falha do estimador do que se preocupar demais com as suposições. Detectar falha no nível de uma quarta derivada descontínua é um pouco extremo, mas certamente os efeitos de descontinuidades simples devem ser bem compreendidos. Assim, apenas para fins de ilustração, as melhores suposições são apresentadas.
As noções de eficiência e admissibilidade estão relacionadas à escolha de um critério, que só pode medir imperfeitamente a qualidade de uma estatística não paramétrica. Ao contrário das estatísticas paramétricas ótimas, que são úteis para muitos propósitos, as estatísticas não paramétricas devem ser otimizadas para cada aplicação. O trabalho extra é justificado pela maior flexibilidade. Como a escolha do critério é imperfeita, o mesmo ocorre com a noção de um único estimador ótimo. Essa atitude reflete não um pensamento descuidado, mas sim a relação imperfeita entre os aspectos práticos e teóricos de nossos métodos. Um ponto de vista muito rígido leva a uma visão minimax do mundo, onde os métodos não paramétricos deveriam ser abandonados porque existem problemas difíceis.
A visualização é um componente importante da análise de dados não paramétrica. A visualização de dados é o foco de métodos exploratórios, que variam de simples diagramas de dispersão a gráficos sofisticados interativos dinâmicos. A visualização de funções é um componente significativo da estimação de funções não paramétricas e pode se basear na literatura relevante nas áreas de visualização científica e computação gráfica.
O foco da análise de dados multivariados em pontos e diagramas de dispersão fez com que o impacto total da visualização científica ainda não fosse alcançado. Com a nova ênfase em funções suaves estimadas não parametricamente, os frutos da visualização serão alcançados. Banchoff (1986) foi um pioneiro na visualização de superfícies matemáticas de dimensões superiores. Curiosamente, as superfícies de interesse para os matemáticos contêm singularidades e descontinuidades, que produzem imagens impressionantes quando projetadas no plano. Em estatística, a visualização da superfície de densidade suave em quatro, cinco e seis dimensões não pode se basear em projeção, pois as projeções de superfícies suaves no plano não mostram nada.
Em vez disso, a ênfase está no contorno em três dimensões e no fatiamento de superfícies além dessa dimensão. O foco em três e quatro dimensões é natural, pois uma e duas são tão bem compreendidas. Além de quatro dimensões, a capacidade de explorar superfícies cuidadosamente diminui rapidamente devido à maldição da dimensionalidade. Felizmente, dados estatísticos raramente exibem estrutura em mais de cinco dimensões, então a projeção guiada para essas dimensões pode ser adequada. São essas dimensões limiares de três a cinco que são, e merecem ser, o foco de nossos esforços de visualização.
Existe um fluxo natural entre os procedimentos paramétricos, exploratórios e não paramétricos que representa uma abordagem racional para a análise estatística de dados. Comece com um ponto de vista totalmente exploratório para obter uma visão geral dos dados. Se uma estrutura probabilística estiver presente, estime essa estrutura não parametricamente e explore-a visualmente. Finalmente, se um modelo linear parecer adequado, adote uma abordagem totalmente paramétrica.
Cada etapa representa conceitualmente uma disposição para suavizar mais fortemente os dados brutos, reduzindo finalmente a dimensão da solução a um punhado de parâmetros de interesse. Com a suposição de normalidade, a mente pode facilmente imaginar os clusters de dados elípticos em forma de ovo de dimensão \(d\). Alguns estatísticos podem preferir trabalhar na ordem inversa, progredindo para a metodologia exploratória como uma ferramenta de diagnóstico para avaliar a adequação do ajuste de um modelo paramétrico.
Existem muitas referências excelentes que complementam e expandem este assunto. Na análise exploratória de dados, as referências incluem J. W. Tukey (1977), P. A. Tukey and Tukey (1981), Cleveland and McGill (1988) e Wang (1978).
Na estimação de densidade, os textos clássicos de Tapia and Thompson (1978), Wertz (1978) e Thompson and Tapia (1990) indicaram pela primeira vez o poder da abordagem não paramétrica para dados univariados e bivariados. Silverman (1986) apresentou uma análise mais aprofundada das aplicações nesse contexto. Prakasa Rao (1983) forneceu um levantamento teórico com uma extensa bibliografia.
Outros textos são mais especializados, alguns focando em regressão (Müller 1988; Härdle 1990), alguns em um critério de erro específico (Devroye and Györfi 1985; Devroye 1987) e alguns em classes de soluções específicas como splines (Eubank 1988; Wahba 1990). Uma discussão sobre modelos aditivos pode ser encontrada em Hastie and Tibshirani (1990).
Uma das raízes do pensamento estatístico moderno remonta à descoberta empírica da correlação por Galton em 1886 (Stigler 1986). As ideias de Galton rapidamente chegaram a Karl Pearson. Embora seja mais lembrado por suas contribuições metodológicas, como testes de aderência, curvas de frequência e biometria, Pearson foi um forte defensor da representação geométrica da estatística. Em uma série de palestras proferidas há um século, em novembro de 1891, no Gresham College, em Londres, Pearson abordou uma ampla gama de tópicos (Pearson 1938). Ele discutiu os fundamentos da ciência da estatística pura e suas diversas divisões. Discutiu a coleta de observações. Ele descreveu a classificação e a representação de dados usando descritores numéricos e geométricos. Finalmente, enfatizou a metodologia estatística e a descoberta de leis estatísticas.
O programa de sua palestra de 11 de novembro de 1891 inclui esta nota enigmática: Opinião errônea de que a Geometria é apenas um meio de representação popular: ela é um método fundamental de investigação e análise de material estatístico. (itálico dele) Nessa palestra, Pearson descreveu 10 métodos de representação geométrica de dados. O mais familiar é uma representação “por colunas”, que ele chamou de “his- tograma”. (Pearson geralmente é creditado por cunhar a palavra “histograma” posteriormente em um artigo de 1894.) Outros nomes com sonoridade familiar incluem “diagramas”, “cartogramas”, “topogramas” e “estereogramas”. Nomes menos familiares incluem “estigmogramas”, “euti- gramas”, “epipedogramas”, “radiogramas” e “hormogramas”. Vinte e um anos depois, Fisher avançou a parte numericamente descritiva da estatística com o método da máxima verossimilhança, a partir do qual progrediu para a análise de variância e outras contribuições que se concentraram no uso ideal de dados na modelagem paramétrica e inferência. Em Métodos Estatísticos para Pesquisadores, Fisher (1932) dedica um capítulo intitulado “Diagramas” a ferramentas gráficas. Ele inicia o capítulo com esta afirmação: O exame preliminar da maioria dos dados é facilitado pelo uso de diagramas.
Os diagramas não provam nada, mas trazem características importantes à vista; eles não são, portanto, substitutos para os testes críticos que podem ser aplicados aos dados, mas são valiosos para sugerir tais testes e para explicar as conclusões baseadas neles.
A ênfase na otimização e na eficiência dos procedimentos estatísticos tem sido uma marca registrada da estatística matemática desde então. Ironicamente, Fisher foi criticado por estatísticos matemáticos por se basear excessivamente em argumentos geométricos em provas de seus resultados.
A estatística moderna experimentou um forte ressurgimento da estatística geométrica e gráfica na forma de análise exploratória de dados (Tukey, 1977). Dada a ênfase paramétrica na otimização, a filosofia mais flexível da análise exploratória de dados tem sido revigorante. A revolução foi impulsionada pelo baixo custo de estações de trabalho gráficas e microcomputadores. Essas máquinas possibilitaram o trabalho atual em estatística em movimento (Scott, 1990), ou seja, o uso de animação e exibição cinemática para visualização da estrutura de dados, análise estatística e desempenho de algoritmos. Não mais as exibições estáticas são suficientes para uma análise abrangente.
Todos esses eventos foram previstos por Pearson e seu visionário laboratório de computação estatística. Em sua palestra de 14 de abril de 1891, intitulada “A Geometria do Movimento”, ele falou sobre os “elementos fundamentais das sensações que representamos como movimentos no espaço e no tempo”. Em 1918, após seus muitos esforços durante a Primeira Guerra Mundial, ele relembrou a empolgação gerada pelo trabalho de seu laboratório de estatística em tempos de guerra: O trabalho foi tão urgente e de tanto valor que o Ministério de Munições colocou de oito a dez computadores e desenhistas à minha disposição… (Pearson, 1938, p. 165).
Esses trabalhadores produziram centenas de gráficos estatísticos, desde mapas detalhados da disponibilidade de trabalhadores em toda a Inglaterra (cartogramas) até figuras para mira de canhões antiaéreos (diagramas). O uso de estereogramas permitiu a representação de dados com três variáveis. Seus “computadores”, é claro, não eram eletrônicos, mas humanos. Mais tarde, Fisher ficaria frustrado porque Pearson não concordaria em alocar seus “computadores” para a tarefa de tabular os percentis da distribuição t. Mas as capacidades de Pearson para produzir gráficos de alta qualidade eram muito superiores às da maioria dos estatísticos modernos antes de 1980. Dado o interesse conjunto de Pearson em gráficos e cinemática, é tentador especular sobre como ele teria utilizado os computadores modernos.
O desafio moderno na análise de dados é lidar com as complexidades intrínsecas aos dados. Os dados podem, por exemplo, apresentar forte não-normalidade, ocupar um subespaço não-linear, exibir múltiplas modas ou ser assimétricos. Lidar com essas características torna-se exponencialmente mais difícil à medida que a dimensionalidade dos dados aumenta, um fenômeno conhecido como a maldição da dimensionalidade.
De fato, conjuntos de dados com centenas de variáveis e milhões de observações são rotineiramente compilados, exibindo todas essas características. Exemplos abundam em campos tão diversos como sensoriamento remoto, o Censo dos EUA, exploração geológica, reconhecimento de fala e pesquisa médica.
O custo de coleta e gerenciamento desses grandes conjuntos de dados é frequentemente tão alto que não restam recursos para uma análise de dados séria. O papel da estatística é claro, mas muitas vezes nenhum estatístico está envolvido em grandes projetos e nenhum pensamento estatístico criativo é aplicado. O objetivo da análise estatística de dados é extrair o máximo de informações dos dados e apresentar um produto que seja o mais preciso e útil possível.
A apresentação de dados multivariados é frequentemente feita em formato tabular, especialmente para conjuntos de dados pequenos com objetos nomeados ou rotulados. Por exemplo, a Tabela 1.1 contém dados econômicos que abrangem os anos da Grande Depressão da década de 1930 e a Tabela 1.2 contém informações sobre uma amostra selecionada de universidades americanas. É relativamente fácil examinar uma coluna individual nessas tabelas, fazer comparações do tamanho das bibliotecas, por exemplo, e tirar conclusões para cada variável individualmente (ver Tufte (1983) e Wang (1978)).
Variáveis econômicas anuais para os Estados Unidos entre 1925 e 1940. A seleção de variáveis para os rostos de Chernoff na Figura 1.7 também está indicada.
us.economy = read.csv(file = "useconomy.csv", sep = ";")
rownames(us.economy) = c("1925","1926","1927","1928","1929","1930","1931","1932",
"1933","1934","1935","1936","1937","1938","1939","1940")
head(us.economy)
## GNP WPI CPI Incom Banks Unempl Fuel Hous Suic Homic
## 1925 1.794 5.33 5.25 1.274 2.8442 3.2 4.0014 9.37 12.0 8.3
## 1926 1.900 5.16 5.30 1.274 2.7742 1.8 4.1342 8.49 12.6 8.4
## 1927 1.898 4.93 5.20 1.274 2.6650 3.3 4.2492 8.10 13.2 8.4
## 1928 1.909 5.00 5.13 1.274 2.5798 4.2 4.3020 7.53 13.5 8.6
## 1929 2.036 4.91 5.13 1.274 2.4970 3.2 4.9039 5.09 13.9 8.4
## 1930 1.835 4.46 5.00 1.167 2.3679 8.7 4.7544 3.30 15.6 8.8
Legenda:
GNP - 1958 prices; 100 Bil. Dol.
WPI - Wholesale Price Index
CPI - Consumer Price Index
Income - Personal 1958 Prices
Banks - Number Commercial Banks
Unemployment - Percent Civilian
Fuel - Electric Utitlies Cost
House - New Starts (000's)
Suicides - Rate/100,000
Homicide - Rate/100,000
Fonte: U.S. Department of Commerce Bureau of the Census.
"Historical Statistics of the United States:
Colonial Times to 1970" Washington, D.C., 1975.
Tabela 1.1: Conjunto de dados de variáveis
econômicas dos EUA.
No entanto, a análise de dados multivariados, variável por variável, pode ser complexa e cansativa, além de não revelar nenhuma relação entre as variáveis. Observar todos os pares de diagramas de dispersão proporciona uma melhoria (Chambers et al. 1983). Os dados de quatro variáveis de três espécies de íris são apresentados na Figura 1.1. Uma lista dos dados de Fisher-Anderson para íris, um dos poucos conjuntos de dados quadridimensionais conhecidos, pode ser encontrada em diversas referências e é fornecida no R (R Core Team 2025).
university = read.csv("university.csv",sep=";")
rownames(university) <- c("Amherst","Brown","Cal Tech","Carnegie-M","Chicago","Columbia",
"Dartmouth","Duke","Emory","Harvard","J. Hopkins","MIT","Northwest.",
"Notre Dame","Oberlin","U. Penn.","Princeton","Rice","USC","SMU",
"Southwest.","Stanford","Swarthmore","Texas A&M","U. Texas",
"Tulane","Vanderbilt","Yale")
colnames(university) <- c("$/F","S/F","G/U","Tuit","Bks","$$/F","NMP","$R&D","Bk/F")
head(university)
## $/F S/F G/U Tuit Bks $$/F NMP $R&D Bk/F
## Amherst 0.59 9.7 0.00 81.5 2.4 1.2 0.8 3 3.8
## Brown 0.27 13.6 0.22 82.0 4.2 0.9 0.7 34 3.8
## Cal Tech 0.70 5.8 1.05 75.0 2.0 0.4 3.8 110 1.3
## Carnegie-M 0.29 12.9 0.38 63.0 2.2 0.6 0.4 51 1.2
## Chicago 0.38 7.5 1.73 70.7 6.8 0.5 3.3 51 4.4
## Columbia 0.52 12.3 2.49 78.9 7.2 0.4 0.3 56 3.5
Legenda:
$/F. Endowment per faculty ($millions)
S/F. Total Students per faculty
G/U. Ratio Grad/Undergrad Students
Tuit. Tuition ($100s)
Bks. Square Root Library Books (100,000s)
$$/F. Fund drive per faculty ($10,000s)
NMP. Percentage National Merit undergrads
$R&D. Federal R&D Funds per faculty ($1,000s)
Bk/F. Library Books (1,000s)/Faculty
Fonte: U.S. Department of Commerce Bureau of the Census.
"Historical Statistics of the United States:
Colonial Times to 1970" Washington, D.C., 1975.
Tabela 1.2: Características de 28 universidades
selecionadas por volta de 1984.
Qual estrutura multivariada é aparente nesta figura? A variedade setosa não se sobrepõe às outras duas variedades. As variedades versicolor e virginica não estão tão bem separadas, embora uma análise mais detalhada revele que elas quase não se sobrepõem. Se as 150 observações não fossem rotuladas e plotadas com o mesmo símbolo, é provável que apenas dois agrupamentos fossem observados.
Mesmo que se soubesse a priori que havia três agrupamentos, ainda seria improvável que todos os três fossem identificados corretamente. Essas apresentações alternativas refletem os dois problemas relacionados de discriminação e agrupamento, respectivamente. Se as observações de diferentes categorias se sobrepõem substancialmente ou têm tamanhos de amostra diferentes, os diagramas de dispersão tornam-se muito mais difíceis de interpretar corretamente.
library(GGally)
# Crie a matriz de dispersão aprimorada
ggpairs(data = iris,
columns = 1:4,
aes(color = Species, alpha = 0.5),
title = "Matriz de dispersão multivariada dos dados Iris (GGally)") +
theme_bw() # Aplica um tema limpo e moderno
Figura 1.1: Diagramas de dispersão aos pares dos dados
de Iris com as três espécies identificadas. 1, setosa; 2, versicolor; 3,
virginica.
Os dados da Figura 1.2 provêm de um estudo com 371 homens que sofriam de dor no peito (Scott et al. 1978): 320 apresentavam doença arterial coronariana (oclusão ou estreitamento das artérias do próprio coração), enquanto 51 não apresentavam (ver Tabela 1.3). As concentrações de colesterol e triglicerídeos no sangue são preditivas de doenças cardíacas, embora a correlação seja baixa. É difícil estimar o poder preditivo dessas variáveis neste contexto apenas com base no diagrama de dispersão. Uma análise não paramétrica revelará algumas interações não lineares interessantes (ver Capítulos 5 e 9).
Concentração de colesterol plasmático e triglicéridos plasmáticos (mg/dl) em 371 pacientes avaliados por dor no peito. Os dados estão listados sequencialmente para cada paciente \(\{x_1,y_1,x_2,y_2,\cdots,x_{51},y_{51}\}\) para o primeiro grupo e da mesma forma para o segundo grupo.
Dados relativos a 51 homens sem evidência de doença cardíaca:
nondiseased = as.data.frame(matrix(c(195,348,237,174,205,158,201,171,190,85,180,
82,193,210,170,90,150,167,200,154,228,119,169,86,178,166,251,211,
234,143,222,284,116,87,157,134,194,121,130,64,206,99,158,87,167,
177,217,114,234,116,190,132,178,157,265,73,219,98,266,486,190,108,
156,126,187,109,149,146,147,95,155,48,207,195,238,172,168,71,210,
91,208,139,160,116,243,101,209,97,221,156,178,116,289,120,201,72,
168,100,162,227,207,160), ncol = 2, byrow = TRUE))
colnames(nondiseased) <- c("chl","trg")
Dados relativos a 320 homens com estreitamento das artérias:
narrowing.arteries = as.data.frame(matrix(c(184,145,263,142,185,115,271,128,173,56,
230,304,222,151,215,168,233,340,212,171,221,140,239,97,168,131,231,
145,221,432,131,137,211,124,232,258,313,256,240,221,176,166,210,92,
251,189,175,148,185,256,184,222,198,149,198,333,208,112,284,245,231,
181,171,165,258,210,164,76,230,492,197,87,216,112,230,90,265,156,197,
158,230,146,233,142,250,118,243,50,175,489,200,68,240,196,185,116,213,
130,180,80,208,220,386,162,236,152,230,162,188,220,200,101,212,130,
193,188,230,158,169,112,181,104,189,84,180,202,297,232,232,328,150,426,
239,154,178,100,242,144,323,196,168,208,197,291,417,198,172,140,240,441,
191,115,217,327,208,262,220,75,191,115,119,84,171,170,179,126,208,149,
180,102,254,153,191,136,176,217,283,424,253,222,220,172,268,154,248,312,
245,120,171,108,239,92,196,141,247,137,219,454,159,125,200,152,233,127,
232,131,189,135,237,400,319,418,171,78,194,183,244,108,236,148,260,144,
254,170,250,161,196,130,298,143,306,408,175,153,251,117,256,271,285,930,
184,255,228,142,171,120,229,242,195,137,214,223,221,268,204,150,276,199,
165,121,211,91,264,259,245,446,227,146,197,265,196,103,193,170,211,122,
185,120,157,59,224,124,209,82,223,80,278,152,251,152,140,164,197,101,172,
106,174,117,192,101,221,179,283,199,178,109,185,168,181,119,191,233,185,
130,206,133,210,217,226,72,219,267,215,325,228,130,245,257,186,273,242,
85,201,297,239,137,179,126,218,123,279,317,234,135,264,269,237,88,162,91,
245,166,191,90,207,316,248,142,139,173,246,87,247,91,193,290,332,250,194,
116,195,363,243,112,271,89,197,347,242,179,175,246,138,91,244,177,206,
201,191,149,223,154,172,207,190,120,144,125,194,125,105,36,201,92,193,
259,262,88,211,304,178,84,331,134,235,144,267,199,227,202,243,126,261,174,
185,100,171,90,222,229,231,161,258,328,211,306,249,256,209,89,177,133,
165,151,299,93,274,323,219,163,233,101,220,153,348,154,194,400,230,137,
250,160,173,300,260,127,258,151,131,61,168,91,208,77,287,209,308,260,227,
172,168,126,178,101,164,80,151,73,165,155,249,146,258,145,194,196,140,99,
187,390,171,135,221,156,294,135,167,80,208,201,208,148,185,231,159,82,222,
108,266,164,217,227,249,200,218,207,245,322,242,180,262,169,169,158,204,
84,184,182,206,148,198,124,242,248,189,176,260,98,199,153,207,150,206,107,
210,95,229,296,232,583,267,192,228,149,187,115,304,149,140,102,209,376,
198,105,270,110,188,148,160,125,218,96,257,402,259,240,139,54,213,261,178,
125,172,146,198,103,222,348,238,156,273,146,131,96,233,141,269,84,170,284,
149,237,194,272,142,111,218,567,194,278,252,233,184,184,203,170,239,38,
232,161,225,240,280,218,185,110,163,156,216,101), ncol = 2, byrow = TRUE))
colnames(narrowing.arteries) <- c("chl","trg")
Legenda:
chl - plasma cholesterol - colesterol plasmático
trg - plasma triglycerides (mg/dl) - triglicéridos plasmático
Fonte: Scott et al. (1978).
Tabela 1.3: Conjunto de dados sobre a concentração
de gordura no sangue.
Um aspecto prático dos diagramas de dispersão, muitas vezes negligenciado, é ilustrado por estes dados, que são valores inteiros. Para evitar problemas de sobreposição, os dados foram submetidos a um processo de jittering ou suavização (Chambers et al. 1983); ou seja, um ruído uniforme \(U(-0.5, 0.5)\) foi adicionado a cada elemento dos dados originais.
Este truque deve ser empregado regularmente para dados registrados com três ou menos dígitos significativos, com uma faixa apropriada para o ruído uniforme adicionado. O jittering reduz as distorções visuais resultantes da sincronização vertical e horizontal de dados regularmente espaçados.
chest.pain = data.frame(rbind.data.frame(nondiseased,narrowing.arteries),
diseased = c(rep("Não",51),rep("Sim",320)))
library(lattice)
xyplot(trg ~ chl | diseased, data = chest.pain, pch=19, xlab = "Colesterol (ml/dl)",
ylab = "Triglicerídos (mg/dl)", scales = list(x = list(log = 10), y = list(log = TRUE)))
Figura 1.2: Diagramas de dispersão das concentrações de
lipídios no sangue de 320 homens doentes (Sim) e 51 homens não doentes
(Não). Escala logarítmica em ambos eixos.
Chernoff (1973) propôs um glifo especial que associa variáveis a características faciais, como o tamanho e a forma dos olhos, nariz, boca, cabelo, orelhas, queixo e contorno facial. Certamente, os humanos são capazes de discriminar muito bem entre rostos quase idênticos. Chernoff sugeriu que a maioria dos outros métodos pontuais multivariados “parecem ser menos valiosos na produção de uma resposta emocional” (Wang 1978). Se uma resposta emocional é desejada é discutível.
As faces de Chernoff para o conjunto de dados de séries temporais na Tabela 1.1 são exibidas na Figura 1.7. As associações variável-característica estão listadas. Ao estudar cuidadosamente uma característica facial individual, como o sorriso, ao longo da sequência de todas as faces, tendências simples podem ser reconhecidas. Mas é a impressão multivariada geral que torna as faces de Chernoff tão poderosas.
library(aplpack)
faces(us.economy)
## effect of variables:
## modified item Var
## "height of face " "GNP"
## "width of face " "WPI"
## "structure of face" "CPI"
## "height of mouth " "Incom"
## "width of mouth " "Banks"
## "smiling " "Unempl"
## "height of eyes " "Fuel"
## "width of eyes " "Hous"
## "height of hair " "Suic"
## "width of hair " "Homic"
## "style of hair " "GNP"
## "height of nose " "WPI"
## "width of nose " "CPI"
## "width of ear " "Incom"
## "height of ear " "Banks"
Figura 1.7: Rostos de Chernoff do conjunto de dados
econômicos que abrange o período de 1925 a 1940.
As variáveis devem ser cuidadosamente atribuídas às características. Por exemplo, as faces de Chernoff dos dados das faculdades na Tabela 1.2 poderiam logicamente atribuir variáveis relacionadas à biblioteca aos olhos em vez da boca (veja o Problema 1.3). Tais julgamentos subjetivos não devem prejudicar o uso deste procedimento.
Uma das primeiras aplicações fora de um periódico de estatística foi elaborada por Hiebert-Dodd (1982), que examinou o desempenho de diversos algoritmos de otimização em um conjunto de problemas de teste. Foi relatado que vários revisores consideraram esse método de apresentação excessivamente superficial.
Comparando as intermináveis tabelas presentes no artigo com os gráficos de Chernoff exibidos no relatório técnico original, pode-se facilmente concluir que os revisores foram excessivamente cautelosos. Por outro lado, quando os administradores da Universidade Rice visualizaram os gráficos de Chernoff do conjunto de dados das faculdades, mostraram-se bastante receptivos às sugestões e apreciaram o exercício. O fato prático é que a visualização repetitiva de grandes tabelas de dados é tediosa e desorganizada, representações mais abrangentes, como gráficos de Chernoff, podem melhorar significativamente a compreensão dos dados. Diversos pesquisadores observaram que os gráficos de Chernoff contêm informações redundantes devido à simetria. Flury and Riedwyl (1981) propuseram o uso de gráficos assimétricos, assim como Turner and Tidmore (1980), embora Chernoff tenha declarado acreditar que o ganho adicional não justifica números tão irrealistas.
Três propostas intrigantes exibem não os próprios pontos de dados, mas sim uma curva única determinada pelo vetor de dados \(\pmb{x}\). Andrews (1972) propôs representar dados de alta dimensão substituindo cada ponto em \(\mathbb{R}^d\) por uma curva \(s(t)\) para \(|t|<\pi\), onde \[ s(t \, | \, x_1,\cdots,x_d) = \dfrac{x_1}{\sqrt{2}}+x_2\sin(t)+x_3\cos(t)+x_4\sin(2t)+x_5\cos(2t)+\cdots, \] a chamada representação em série de Fourier.
Esse mapeamento fornece a primeira visão contínua “completa” de pontos de alta dimensão no plano, porque, em princípio, o ponto de dados multivariado original pode ser recuperado a partir dessa curva. Claramente, uma curva de Andrews é dominada pelas variáveis colocadas nos termos de baixa frequência, portanto, deve-se ter cuidado para colocar as variáveis mais interessantes no início da expansão (ver Problema 1.4).
tons_de_cinza <- gray(seq(0.4, 0.7, length.out = dim(us.economy)[1]))
stars(us.economy,col.stars = tons_de_cinza)
Figura 1.8: Diagrama em estrela para o conjunto de
dados econômicos que abrange o período de 1925 a 1940..
Um dispositivo gráfico simples que trata as \(d\) variáveis simetricamente é o diagrama em estrela, discutido por Fienberg (1979). Os \(d\) eixos são desenhados como raios de uma roda. Os valores dos dados de coordenadas são plotados nesses eixos e conectados como mostrado na Figura 1.8.
Outra abordagem multivariada inovadora que trata as variáveis de forma simétrica é o gráfico de coordenadas paralelas, introduzido por Inselberg (1985) em um contexto matemático e estendido por Wegman (1990) para a análise de dados estocásticos. As coordenadas cartesianas são abandonadas em favor de \(d\) eixos desenhados paralelos e igualmente espaçados.
Cada ponto multivariado \(\pmb{x}\in\mathbb{R}^d\) é mostrado como uma curva linear por partes que conecta os \(d\) pontos nos eixos paralelos. Por razões demonstradas por Inselberg e Wegman, há vantagens em simplesmente desenhar segmentos de reta lineares por partes, em vez de uma linha mais suave, como uma spline. A desvantagem dessa escolha é que pontos que possuem valores idênticos em qualquer dimensão de coordenada não podem ser distinguidos em coordenadas paralelas. Contudo, com essa escolha, pode-se deduzir uma dualidade entre pontos e retas em coordenadas euclidianas e paralelas.
No quadro esquerdo da Figura 1.9, seis pontos que se encontram em uma reta com inclinação negativa são mostrados. O quadro direito mostra esses mesmos pontos em coordenadas paralelas. Assim, um diagrama de dispersão de pontos normais altamente correlacionados exibe um ponto de interseção quase comum em coordenadas paralelas. Entretanto, se a correlação for positiva, esse ponto não está “entre” os eixos paralelos (veja o Problema 1.6). A localização do ponto onde todas as retas se intersectam pode ser usada para recuperar a equação da reta em coordenadas euclidianas (veja o Problema 1.8).
Figura 1.9: Exemplo de
dualidade de pontos e linhas entre coordenadas euclidianas e paralelas.
Os pontos estão numerados de 1 a 6 em ambos os sistemas de coordenadas.
Inselberg e Wegman exploram uma variedade de outras propriedades com aplicações potenciais. Um dos resultados é um método gráfico para determinar se um ponto \(\pmb{x}\in\mathbb{R}^d\) está dentro ou fora de uma hipersuperfície convexa fechada. Se todos os pontos da hipersuperfície forem mostrados em coordenadas paralelas, um contorno geométrico bem definido aparecerá no plano. Se uma porção dos segmentos de reta que definem o ponto \(\pmb{x}\) em coordenadas paralelas estiver fora do contorno, então \(\pmb{x}\) não está dentro da hipersuperfície, e vice-versa.
Uma das extensões mais fascinantes desenvolvidas por Wegman é um panorama geral de todas as variáveis exibidas em coordenadas paralelas. A vantagem das coordenadas paralelas é que todas as \(d\) variáveis rotativas são visíveis simultaneamente, enquanto que, na apresentação usual, apenas duas das variáveis do panorama geral são visíveis em um gráfico de dispersão bivariado.
ggparcoord(iris,
columns = 1:4,
groupColumn = 5,
alphaLines = 0.6)
earthquake = read.csv("earthquake.csv", header = TRUE, sep = ",")
head(earthquake)
## Longitude Latitude Depth Day Intensity
## 1 -122.1132 46.1226 -1.81 31.28763 0.6
## 2 -122.1164 46.1223 -2.52 37.68915 0.0
## 3 -122.1175 46.1210 -1.78 37.80508 -0.1
## 4 -122.1144 46.1199 -2.63 37.82028 0.1
## 5 -122.1144 46.1198 -8.32 38.91346 0.4
## 6 -122.1130 46.1194 -0.03 40.08209 0.0
ggparcoord(earthquake,
columns = 1:5,
alphaLines = 0.6)
Figura 1.10: Gráfico de coordenadas paralelas do
conjunto de dados Iris e de terremotos.
A Figura 1.10 exibe gráficos em coordenadas paralelas dos dados do Iris e do terremoto. O conjunto de dados de terremotos representa os epicentros de 473 tremores sob o vulcão Monte Santa Helena nos meses que antecederam sua erupção em março de 1982 (Weaver, Zollweg, and Malone 1983). Claramente, os tremores são em sua maioria de pequena magnitude, aumentando em frequência ao longo do tempo e agrupados perto da superfície, embora a profundidade seja claramente uma variável bimodal. As variáveis de longitude e latitude são as menos eficazes neste gráfico, porque sua estrutura espacial natural se perde.
Ferramentas como rostos ou faces de Chernoff e glifos de diagramas de dispersão tendem a ser mais valiosas com conjuntos de dados pequenos, onde pontos individuais são “identificáveis” ou interessantes. Essas ferramentas exploratórias individualistas podem facilmente gerar “tinta em excesso” (Tufte 1983) e produzir figuras com manchas pretas, que transmitem pouca informação.
Coordenadas paralelas e curvas de Andrews geram muita tinta. Uma solução óbvia é plotar apenas um subconjunto dos dados em um processo conhecido como “afinamento”. No entanto, plotar subconjuntos aleatórios deixa de ser uma utilização ideal de todos os dados e não resulta em interpretações precisamente reproduzíveis. Métodos orientados a pontos normalmente têm uma faixa de tamanhos de amostra mais apropriada: \(n < 200\) para faces; \(n < 2000\) para diagramas de dispersão.
Como nenhuma dessas representações é verdadeiramente \(d\)-dimensional, cada uma tem limitações. Todos os diagramas de dispersão aos pares podem detectar agrupamentos distintos e alguma estrutura bidimensional, mesmo que em um sistema de coordenadas rotacionado. Neste último caso, um suplemento interativo, como a seleção por pincelada, pode ser necessário para confirmar a natureza das relações entre os diagramas de dispersão, sem realmente fornecer informações de dimensões superiores.
Por outro lado, as variáveis são tratadas simetricamente na matriz de dispersão. Mas muitos conjuntos de dados de dimensões \(d\) diferentes e bastante distintos podem gerar diagramas de matriz de dispersão visualmente semelhantes; daí a necessidade da seleção por pincelada. No entanto, com o aumento do número de variáveis, os diagramas de dispersão individuais diminuem fisicamente de tamanho e se preenchem de tinta cada vez mais rapidamente. Os diagramas de dispersão fornecem uma visão altamente subjetiva dos dados, com baixa percepção de densidade e maior ênfase nas extremidades dos dados.
Como ferramentas gráficas de exploração, cada um dos procedimentos baseados em pontos possui valor significativo. No entanto, cada um sofre do problema do excesso de tinta, visto que o número de objetos e, portanto, a quantidade de tinta é linear em relação ao tamanho da amostra \(n\). Misturando metáforas, os gráficos baseados em pontos não conseguem fornecer uma representação consistente dos dados quando \(n\to\infty\).
Como escreveram Scott and Thompson (1983), “o diagrama de dispersão aponta para a função de densidade bivariada”. Em outras palavras, os pontos de dados brutos precisam ser suavizados para que se obtenha uma visualização consistente.
Um histograma é o exemplo mais simples de um suavizador de diagrama de dispersão. O grau de suavização é controlado pela largura do intervalo. Para dados univariados, o histograma com largura de intervalo menor que \(\min |x_i - x_j|\) é precisamente um diagrama de dispersão univariado plotado com glifos que são retângulos altos e finos.
Para dados bivariados, o glifo é uma barra com base quadrada. Ao aumentar a largura do intervalo, o histograma representa uma contagem por unidade de área, que é precisamente a unidade de uma função de densidade. No Capítulo 3, será demonstrado que o histograma fornece uma estimativa consistente da função de densidade em qualquer dimensão.
Os histogramas podem fornecer uma riqueza de informações para grandes conjuntos de dados, mesmo os mais conhecidos. Por exemplo, considere a tábua de vida decenal de 1979-1981 publicada pelo Departamento do Censo dos EUA (1987). Certas estatísticas resumidas relevantes são bem conhecidas: expectativa de vida, mortalidade infantil e certas expectativas de vida condicionais.
Mas que informações adicionais podem ser obtidas examinando o próprio histograma de mortalidade? Na Figura 1.11, é apresentado o histograma da idade de morte para indivíduos. Não surpreendentemente, o histograma é assimétrico, com uma cauda curta para idades mais avançadas. Talvez menos conhecida seja a observação de que a idade de morte mais comum é 85 anos! A magnitude absoluta e relativa da mortalidade no primeiro ano de vida fica surpreendentemente clara.
Uma análise cuidadosa revela duas outras características gerais de interesse. A primeira característica é a pequena, mas proeminente, protuberância na curva entre as idades de 13 e 27 anos. Essa “mortalidade excessiva” deve-se ao aumento de diversas atividades de risco, sendo a mais notável a obtenção da carteira de motorista. No quadro à direita da Figura 1.11, a comparação dos histogramas de 1959–1961 (Gross e Clark, 1975) e 1979–1981 mostra uma redução impressionante da mortalidade em todos os anos da pré-adolescência. Particularmente notável é a queda de 60% na mortalidade no primeiro ano e a diferença de três anos na localização das modas.
A geometria de dimensões superiores reserva algumas surpresas. Nesta seção, algumas figuras padrão são consideradas. Este material está disponível em referências dispersas (veja Kendall 1961, por exemplo).
Em \(d\) dimensões, um ponto \(\pmb{x}\) pode ser expresso em coordenadas polares esféricas por um raio \(r\), um ângulo da base \(\theta_{d-1}\) variando em \((0,2\pi)\) e \(d-2\) ângulos \(\theta_1,\cdots,\theta_{d-2}\) cada um variando em \((-\pi/2,\pi/2)\), veja a Figura 1.28.
Sejam \(s_k = \sin(\theta_k)\) e \(c_k = \cos(\theta_k)\). Então, a transformação de volta para coordenadas euclidianas é dada por \[ \begin{array}{rcl} x_1 & = & r c_1 c_2 \cdots c_{d-3}c_{d-2} c_{d-1} \\[0.8em] x_2 & = & r c_1 c_2 \cdots c_{d-3}c_{d-2} s_{d-1} \\[0.8em] x_3 & = & r c_1 c_2 \cdots c_{d-3}s_{d-2} \\[0.8em] \vdots & & \vdots \\[0.8em] x_j & = & r c_1 c_2 \cdots c_{d-j}s_{d-j+1} \\[0.8em] \vdots & & \vdots \\[0.8em] x_d & = & r s_1 \end{array} \]
Figura 1.28: Coordenadas
polares \((r,\theta_1,\theta_2)\) de um
ponto \(P\) em \(\mathbb{R}^3\).
Após algum trabalho (ver Exercício 1.11), pode-se demonstrar que o Jacobiano desta transformação é \[ \tag{1.2} J = r^{d-1} c_1^{d-2}c_2^{d-3} \cdots c_{d-2}\cdot \]
O volume da hiperesfera \(d\)-dimensional \(\big\{\pmb{x}\in\mathbb{R}^d \, : \, \sum_{i=1}^d x_i^2\leq a^2 \big\}\) é dado por \[ \begin{array}{rcl} V_d(a) & = & \displaystyle \int_{\sum_{i=1}^d x_i^2\leq a^2 } \;1\mbox{d}\pmb{x} \\[0.8em] & = & \displaystyle \int_0^a \mbox{d}r \int_{-\pi/2}^{\pi/2} \mbox{d}\theta_1 \int_{-\pi/2}^{\pi/2} \mbox{d}\theta_2 \cdots \int_{-\pi/2}^{\pi/2} \mbox{d}\theta_{d-1} |J|, \end{array} \] sendo o Jacobiano (J) dado em (1.2).
Isso pode ser simplificado usando a identidade \[ \int_{-\pi/2}^{\pi/2} \cos^k(\theta)\mbox{d}\theta =2\int_{0}^{\pi/2} \cos^k(\theta)\mbox{d}\theta = 2\int_{0}^{\pi/2} \cos^k(\theta) \dfrac{\mbox{d}\big( \cos^2(\theta)\big)}{-2\cos(\theta)\sin(\theta)}, \] que, usando a mudança de variáveis \(u=\cos^2(\theta)\), \[ = \int_{0}^{1} u^{k/2} \dfrac{\mbox{d}u}{u^{1/2}(1-u)^{1/2}} = B\Big(\frac{1}{2},\frac{k+1}{2}\Big) = \dfrac{\Gamma\Big(\frac{1}{2}\Big)\Gamma\Big(\frac{k+1}{2}\Big)}{\Gamma\Big(\frac{k+2}{2}\Big)}\cdot \]
Dado que \(\Gamma\Big(\frac{1}{2}\Big)=\sqrt{\pi}\), \[ \tag{1.3} \begin{array}{rcl} V_d(a) & = & 2\pi \dfrac{a^d}{d} \dfrac{\Gamma\Big(\frac{1}{2}\Big)\Gamma\Big(\frac{d-1}{2}\Big)}{\Gamma\Big(\frac{d}{2}\Big)}\dfrac{\Gamma\Big(\frac{1}{2}\Big)\Gamma\Big(\frac{d-2}{2}\Big)}{\Gamma\Big(\frac{d-1}{2}\Big)} \cdots \dfrac{\Gamma\Big(\frac{1}{2}\Big)\Gamma\big(1\big)}{\Gamma\Big(\frac{3}{2}\Big)} \\[0.8em] & = & \dfrac{a^d\pi^{d/2}}{\frac{d}{2}\Gamma\Big(\frac{d}{2}\Big)} = \dfrac{a^d \pi^{d/2}}{\Gamma\Big(\frac{d}{2}+1 \Big)}\cdot \end{array} \]
Considere o hipercubo \([-a,a]^d\) e uma hiperesfera inscrita com raio \(r = a\). Então, usando (1.3), a fração do volume do cubo contida na hiperesfera é dada por \[ f_d = \dfrac{\mbox{Volume da esfera}}{\mbox{Volume do cubo}} = \dfrac{a^d \pi^{d/2}\Big/\Gamma\Big(\frac{d}{2}+1 \Big) }{(2a)^d}=\dfrac{\pi^{d/2}}{2^d \Gamma\Big(\frac{d}{2}+1 \Big)}\cdot \]
Para dimensões menores, a fração \(f_d\) é como mostrado na Tabela 1.1. É evidente que o centro do cubo se torna menos importante. À medida que a dimensão aumenta, o volume do hipercubo se concentra em seus vértices. Essa distorção do espaço, pelo menos para nossa maneira tridimensional de pensar, tem muitas consequências potenciais para a análise de dados.
\[
\begin{array}{c|ccccccc}\hline
\mbox{Dimensão} \; (d) & 1 & 2 & 3 & 4 & 5 & 6
& 7 \\[0.8em]\hline
\mbox{Fração do volume} \; (f_d) & 1 & 0.785 & 0.524 &
0.308 & 0.164 & 0.081 & 0.037\\\hline
\end{array}
\] Tabela 1.1: Fração do volume de um hipercubo
situado na hiperesfera inscrita.
Wegman (1990) demonstra a distorção do espaço em outro contexto. Considere duas esferas centradas na origem, uma com raio \(r\) e a outra com raio ligeiramente menor \(r-\epsilon\). Considere a fração do volume da esfera maior entre as esferas.
Pela Equação (1.3), \[ \dfrac{V_d(r)-V_{d}(r-\epsilon)}{V_d(r)}=\dfrac{r^d -(r-\epsilon)^d}{r^d}=1-\Big(1-\frac{\epsilon}{r} \Big)^d \underset{d\to\infty}{\longrightarrow} 1\cdot \]
Portanto, praticamente todo o conteúdo de uma hiperesfera está concentrado próximo à sua superfície, que é apenas uma variedade de dimensão \((d-1)\). Assim, para dados distribuídos uniformemente tanto na hiperesfera quanto no hipercubo, a maior parte dos dados se encontra próxima à fronteira e às bordas do volume. A maioria das técnicas estatísticas exibe um comportamento peculiar se os dados estiverem em um subespaço de dimensão inferior. Este exemplo ilustra um aspecto importante da maldição da dimensionalidade, que é discutida no Capítulo 7.
Os exemplos anteriores deixam claro que, se estivermos tentando visualizar dados uniformes sobre o hipercubo em \(\mathbb{R}^{10}\), a maioria das vizinhanças (esféricas) estará vazia!
Vamos examinar o que acontece se os dados seguirem a distribuição normal padrão de \(d\) dimensões: \[ f_d(\pmb{x})=(2\pi)^{-d/2} e^{\pmb{x}^\top \pmb{x}/2}\cdot \]
Claramente, a origem (moda) é o ponto mais provável e os contornos equiprováveis são esferas. Considere o contorno esférico, \(S_{0.01}(\pmb{x})\), onde o valor da densidade é apenas 1% do valor na moda. Agora \[ \dfrac{f_d(\pmb{x})}{f_d(\pmb{0})}=e^{\pmb{x}^\top \pmb{x}/2} \qquad \mbox{e} \qquad -2\log\left(\dfrac{f_d(\pmb{x})}{f_d(\pmb{0})} \right) =\sum_{i=1}^d x_i^2 \sim \chi^2(d); \] portanto, a probabilidade de um ponto estar dentro do contorno esférico de 1% pode ser calulada como \[ \tag{1.4} P\left( \dfrac{f_d(\pmb{x})}{f_d(\pmb{0})}\geq \dfrac{1}{100}\right) = P\left( \chi^2(d)\leq -2\log\left(\frac{1}{100} \right)\right)\cdot \]
A equação (1.4) fornece a probabilidade de um ponto aleatório não cair nas “caudas” ou, em outras palavras, cair na região de densidade média a alta. Na Tabela 1.2, essas probabilidades são tabuladas para várias dimensões. Por volta de cinco ou seis dimensões, a massa de probabilidade de uma distribuição normal multivariada começa uma rápida migração para as caudas extremas.
De fato, mais da metade da massa de probabilidade está em uma região de densidade muito baixa para dados de 10 dimensões. Silverman (1986) dramatizou isso em 10 dimensões, observando que \(P(||\pmb{x}||\geq 1.6) = 0.99\). Em dimensões muito altas, praticamente toda a amostra estará nas caudas, em um sentido consistente com a intuição de baixa dimensão. A Tabela 1.2 também é aplicável a dados normais com uma matriz de covariância de posto completo geral, exceto que o contorno seja um hiperelipsoide.
\[ \begin{array}{c|cccccccccccc}\hline d & 1 & 2 & 3 & 4 & 5 & 6 & 7 & 8 & 9 & 10 & 15 & 20 \\[0.8em]\hline 1000p & 998 & 990 & 973 & 944 & 899 & 834 & 762 & 675 & 582 & 488 & 134 & 20 \\\hline \end{array} \] Tabela 1.2: Massa de probabilidade não presente na “cauda” de uma densidade normal multivariada.
Os diagramas de dispersão aos pares projetam essencialmente os dados multivariados em todas as faces bidimensionais. Considere o hipercubo \([-1,1]^d\) e seja qualquer um dos vetores diagonais do centro até um canto denotado por \(\pmb{v}\).
Então \(\pmb{v}\) é qualquer um dos \(2^d\) vetores bidimensionais da forma \((\pm 1, \pm 1,\cdots, \pm 1)^\top\) . O ângulo entre um vetor diagonal \(\pmb{v}\) e um eixo de coordenadas euclidianas \(\pmb{e}_j = (0,\cdots,0, 1, 0,\cdots, 0)^\top\) são dados por \[ \cos(\pmb{\theta}_d)=\dfrac{<\pmb{v},\pmb{e}_j>}{\sqrt{<\pmb{v},\pmb{v}><\pmb{e}_j,\pmb{e}_j>}}=\dfrac{\pm 1}{\sqrt{d}} \underset{d\to\infty}{\longrightarrow} 0, \] onde \(<\pmb{u},\pmb{\nu}> = \pmb{u}^\top \pmb{\nu}\), de modo que \(\theta_d\to\pi/2\) quando \(d\to\infty\).
Assim, as diagonais são quase ortogonais a todos os eixos coordenados para valores grandes de \(d\). Portanto, qualquer agrupamento de dados próximo a uma diagonal no hiperespaço será mapeado para a origem em todos os diagramas de dispersão pareados, enquanto um agrupamento ao longo de um eixo coordenado deverá ser visível em algum gráfico.
Assim, a escolha do sistema de coordenadas em altas dimensões é crucial na análise de dados e a intuição depende fortemente de uma boa escolha. Estruturas de dados reais podem passar despercebidas devido à imprecisão excessiva. A conclusão geral é que a intuição em uma ou duas dimensões é valiosa, mas não infalível ao se analisar dimensões mais elevadas.
Retornando aos dados normais multivariados independentes, a moda está na origem \(\pmb{x} = \pmb{0}_d\). Qual a distância de um ponto aleatório \(\pmb{X}\) à origem para dimensões moderadas a grandes \(d\)?
Seja \(Z\sim N(0,1)\); então \[ \begin{array}{rcl} \sqrt{\pmb{X}^\top\pmb{X}} & = & \displaystyle \sqrt{\sum_{j=1}^d \pmb{X}_j^2} = \sqrt{\chi^2(d)} \approx \sqrt{d+Z\sqrt{2d}} = \sqrt{d}\sqrt{1+Z\sqrt{2/d}} \\[0.8em] & \approx & \sqrt{d}\left(1+\dfrac{1}{2}Z\sqrt{2/d}\right) = \sqrt{d}+\dfrac{1}{\sqrt{2}}Z \sim N\left(\sqrt{d},1/2\right)\cdot \end{array} \]
Assim, embora a região de maior densidade esteja próxima da origem, praticamente todos (99.7%) os dados estão a uma distância de \(\pm 3/\sqrt{2} = \pm 2.12\) da hiperesfera de raio \(\sqrt{d}\). Esta é a versão em dados do resultado de volume na Seção 1.5.3.2.
A dedução na Seção 1.5.3.5 também aborda a questão da distribuição do par de pontos mais próximos em uma amostra aleatória. Como uma estimativa conservadora, imagine um ponto de dados na moda \(\pmb{x} = \pmb{0}_d\) e calcule a distribuição da distância da origem ao ponto mais próximo dentre os \(n\) pontos da amostra.
Seja \(D_i\) a distância do ponto da amostra \(\pmb{X}_i\) à origem, e seja \(D\) o mínimo de \(\{D_i\}\). Então \[ \begin{array}{rcl} P(D\leq c) & = & 1-P(D>c) = 1-P(D_1>c,D_2>c,\cdots,D_n>c) \\[0.8em] & = & 1-P^n(D_1>c) =1-P^n(D_1^2>c^2) = 1-P^n(\chi^2_d>c^2) \\[0.8em] & = & 1-\Big(1-P(\chi^2_d\leq c^2) \Big)^n\cdot \end{array} \]
Aplicando assim a regra de Leibniz, \[ \tag{1.5} f_D(c) = \dfrac{\mbox{d}}{\mbox{d} c} P(D\leq c) = n\Big( 1-P(\chi^2_d\leq c^2)\Big)^{n-1}\times 2c f_{\chi^2_d}(c^2)\cdot \]
Na Figura 1.29, essa densidade é exibida para uma amostra de tamanho \(n = 10^4\) e vários valores de \(d\). Quando \(d > 25\), o par de pontos mais próximos nunca está a menos de duas unidades de distância. Assim, os dados em altas dimensões são muito esparsos. Um intervalo do histograma estará quase sempre vazio ou conterá apenas um ponto. Aumentar o tamanho da amostra para \(10^6\) não altera muito a distribuição. A esparsidade dos dados em altas dimensões é conhecida como a maldição da dimensionalidade (Bellman 1961). Esse fenômeno influenciará nosso raciocínio ao analisar dados em mais de cinco ou seis dimensões.
Figura 1.29: Densidades
da distância do ponto mais próximo da origem para tamanhos de amostra
\(n = 10^4\) e \(10^6\), para várias dimensões \(9\leq d\leq 100\).
Como observação adicional, há um benefício na maldição da dimensionalidade no campo da biometria. A singularidade das impressões digitais e de outras medidas físicas (como escaneamentos de íris, por exemplo) em uma população muito grande é de grande interesse. O que esta análise sugere é que se um espaço de características puder ser transformado em um número razoável de medições independentes e os indivíduos puderem ser vistos como amostras independentes de \(N(\pmb{0}_d,\pmb{I}_d)\), então a identificação única é viável com medições suficientemente precisas das características (ver Kent and Millett 2002).