Diferenças

Aqui você vê as diferenças entre duas revisões dessa página.

Link para esta página de comparações

Ambos lados da revisão anteriorRevisão anterior
Próxima revisão
Revisão anterior
projetos:hipertensao [2007/12/14 17:36] joelprojetos:hipertensao [2007/12/17 20:27] (atual) joel
Linha 19: Linha 19:
  
 ===== Metodologia ===== ===== Metodologia =====
- 
- 
- 
- 
  
 ==== Métodos Multivariados. ==== ==== Métodos Multivariados. ====
Linha 33: Linha 29:
  
 === Análise de Cluster === === Análise de Cluster ===
-Análise de Cluster é um conjunto de técnicas utilizadas na identificação de padrões de comportamento em bancos de dados através da formação de grupos homogêneos. (SEAGRO) 
-O  objetivo da analise de cluster é agrupar as observações semelhantes de forma que cada grupo seja homogêneo internamente e sejam diferentes entre si. 
-O primeiro passo da analise de cluster é encontrar as medidas de similaridade. Em seguida deve-se decidir qual a técnica de clusterização será utilizada (hierárquica ou não hierárquica). O terceiro passo é decidir o método de clusterização para a técnica que já foi selecionada (exemplo: método do centróide  para a técnica hierárquica de clusterização). Quarto, a decisão considerando o número de clusters serão feitos. Finalmente, a solução dos clusters é interpretada. 
- 
-3.2.1 Medidas de similaridade 
- 
-Cada objeto é representado por um ponto no espaço n-dimensional e, portanto, pode ser agrupado com outros que estejam próximos e mais se assemelham a ele. Dois critérios de melhor associação podem ser utilizados. 
- 
-1. Covariância e Correlação  
- 
-Partindo da matriz de dados D (mxn), obtém-se a matriz de covariância C, onde seus elementos são dados por:  
-  
- 
-ckl é grande e positivo quando, para a maior parte das amostras, os valores das variáveis k e l desviam da média na mesma direção. Portanto, a covariância de duas variáveis é uma medida de sua associação. Para cada elemento da matriz de covariância pode ser calculado o coeficiente de correlação, consequentemente a matriz de covariância pode ser transformada numa matriz de correlação R, onde seus elementos são dados por:  
-   
-onde sk e s1 são os desvios padrões das variáveis K e 1  
-Os valores de rkl são uma covariância padronizada entre -1 e +1.  
- 
-2. Medidas de distâncias  
- 
-Na análise de agrupamentos (cluster analysis) a similaridade entre duas amostras pode ser expressa como uma função da distância entre os dois pontos representativos destas amostras no espaço n-dimensional. Existem várias formas de de calcular a distância entre dois pontos a e b no espaço n-dimensional: 
- 
- Distancia Euclidiana 
-É a maneira mais usual de calcular a distância entre dois pontos (xab). É uma medida invariante a translações, porém assume covariâncias iguais entre as classes e em geral não é invariante a transformações lineares (Costa, 1999). É dada por:  
- 
-  
- 
- Distância de Mahalanobis:  
-Considera que as superfícies de cada classe são elipsóides centradas na média. No caso especial em que a covariância é zero e a variância é a mesma para todas as variáveis, as superfícies são esferas e a distancia de Mahalanobis fica equivalente a distancia euclidiana. Pode ser utilizada para medir a distância entre classes de padrões. Isso pode ser feito através da soma ou da média da distância entre todos os padrões de duas classes diferentes. 
- 
- Distancia de Manhattan ou “city-block” 
-A distancia de manhattan é uma simplificação da distancia euclidiana, por isso é mais simples e sua emplementação é mais fácil. É mais eficiente para aplicações em tempo real devido a sua simplicidade (Kugler, 2003). 
- 
  
 +Denomina-se Análise de Cluster ou Análise de Agrupamentos o conjunto de técnicas utilizadas na identificação de padrões de comportamento em bancos de dados através da formação de grupos homogêneos. O  objetivo da analise de cluster é agrupar objetos ou variáveis semelhantes de forma que cada grupo seja homogêneo internamente e sejam diferentes entre si.
  
 === Árvores de Decisão === === Árvores de Decisão ===
Linha 84: Linha 48:
  
 Neste trabalho será realizada somente a análise linear discriminante (LDA). Outros tipos de análise discriminante são: QDA(Quadratic Discriminant Analysis), FDA(Flexible Discriminant Analysis), PDA(Penalized Discriminant Analysis) e MDA(Mixture Discriminant Analysis). A função lda() presente no  pacote MASS do  R  realiza análise linear discriminante. É importante notar que para a construção da função linear discriminante os preditores devem ser quantitativos e assume-se matrizes de covariância iguais nos grupos. Neste trabalho será realizada somente a análise linear discriminante (LDA). Outros tipos de análise discriminante são: QDA(Quadratic Discriminant Analysis), FDA(Flexible Discriminant Analysis), PDA(Penalized Discriminant Analysis) e MDA(Mixture Discriminant Analysis). A função lda() presente no  pacote MASS do  R  realiza análise linear discriminante. É importante notar que para a construção da função linear discriminante os preditores devem ser quantitativos e assume-se matrizes de covariância iguais nos grupos.
- 
  
  
 === Redes Neurais Artificiais === === Redes Neurais Artificiais ===
- 
  
 Apesar de todo mito que envolve o uso de Redes Neurais Artificiais, o que está por trás desta técnica é a utilização de modelos não-lineares. Redes Neurais Artificiais para classificação estão implementadas no pacote nnet() presente na biblioteca MASS do R. A construção de uma rede neural associa-se a definição de sua topologia que no caso das redes do tipo feed-forward envolve a definição de 3 ou mais camadas. A primeira camada, chamada de camada de entrada necessita de tantos neurônios quanto forem o número de variáveis independentes, enquanto a última camada, denominada camada de saída, apresenta tantos neurônios quantas forem as variáveis resposta. Entre estas duas camadas podem existir uma ou mais camadas intermediárias, chamadas de camadas escondidas. O Teorema de Kolmogorov garante que uma camada escondida é suficiente para aproximar qualquer relação não-linear entre a resposta e as variáveis independentes, desde que satisfeitas algumas condições. Apesar de todo mito que envolve o uso de Redes Neurais Artificiais, o que está por trás desta técnica é a utilização de modelos não-lineares. Redes Neurais Artificiais para classificação estão implementadas no pacote nnet() presente na biblioteca MASS do R. A construção de uma rede neural associa-se a definição de sua topologia que no caso das redes do tipo feed-forward envolve a definição de 3 ou mais camadas. A primeira camada, chamada de camada de entrada necessita de tantos neurônios quanto forem o número de variáveis independentes, enquanto a última camada, denominada camada de saída, apresenta tantos neurônios quantas forem as variáveis resposta. Entre estas duas camadas podem existir uma ou mais camadas intermediárias, chamadas de camadas escondidas. O Teorema de Kolmogorov garante que uma camada escondida é suficiente para aproximar qualquer relação não-linear entre a resposta e as variáveis independentes, desde que satisfeitas algumas condições.
Linha 135: Linha 97:
   * {{projetos:usingr-2.pdf|Using-R - parte 2}}   * {{projetos:usingr-2.pdf|Using-R - parte 2}}
   * {{projetos:obesidade:rnalogistichepatite.pdf|Redes Neurais e Regressão Logística para Diagnóstico de Hepatite}}   * {{projetos:obesidade:rnalogistichepatite.pdf|Redes Neurais e Regressão Logística para Diagnóstico de Hepatite}}
 +  * {{projetos:artigo.pdf|Fatores de Hipertensão usando Redes Neurais Kohonen}}
  
 ===== Funções do R ===== ===== Funções do R =====
Linha 141: Linha 104:
 [[http://cran.at.r-project.org/src/contrib/Descriptions/som.html |Pacote para Mapas Auto-Organizáveis  [[http://cran.at.r-project.org/src/contrib/Descriptions/som.html |Pacote para Mapas Auto-Organizáveis 
 (SOM) de Kohonen no R]] (SOM) de Kohonen no R]]
- 
  
 ===== Scripts do R ===== ===== Scripts do R =====
  
-<code>+<code R>
 # pacotes necessarios # pacotes necessarios
 require(MASS) require(MASS)
 +
 require(tree)# arvores de decisao require(tree)# arvores de decisao
 +
 require(rpart)# arvores de decisao require(rpart)# arvores de decisao
  
 # Leitura do conjunto de dados # Leitura do conjunto de dados
 dados<-read.csv2('http://www.leg.ufpr.br/~joel/dados/hiipertensao.csv',na.strings="") dados<-read.csv2('http://www.leg.ufpr.br/~joel/dados/hiipertensao.csv',na.strings="")
- 
-# Re-expressão das variáveis 
-dados<-transform(dados,sexo=factor(sexo,labels=c('feminino','masculino'))) 
  
 </code> </code>
Linha 319: Linha 280:
  
 ==== Criação das Bases de Desenvolvimento e de Validação ==== ==== Criação das Bases de Desenvolvimento e de Validação ====
-<code>+<code R>
 <echo=F,results=hide>>= <echo=F,results=hide>>=
 ind<-1:989 # Criacao de vetor de indices ind<-1:989 # Criacao de vetor de indices
Linha 330: Linha 291:
  
  
-<code>+<code R>
 dadostrein<-read.table("http://www.leg.ufpr.br/~joel/dados/dadostrein.txt",h=T) dadostrein<-read.table("http://www.leg.ufpr.br/~joel/dados/dadostrein.txt",h=T)
 dadostest<-read.table("http://www.leg.ufpr.br/~joel/dados/dadostest.txt",h=T) dadostest<-read.table("http://www.leg.ufpr.br/~joel/dados/dadostest.txt",h=T)
Linha 353: Linha 314:
   address =      {},   address =      {},
   year =        {2002},   year =        {2002},
 +}
 +</bibtex>
 +
 +<bibtex>
 +@Book{hair+tatham+anderson+black:2006,
 +author = {Hair, Joseph F. AND Tatham; Ronald L. AND Anderson, Rolph E. AND Black, William},
 +title = {Multivariate Data Analysis},
 +note = {Tradu\c{c}\~{a}o: Adonai Schulup Sant'Anna e Anselmo Chaves Neto},
 +pages = {},
 +publisher = {Bookman},
 +address = {Porto Alegre},
 +year = {2006},
 } }
 </bibtex> </bibtex>
Linha 360: Linha 333:
 @article{ABC2422007, @article{ABC2422007,
 author = {ABC da Saúde}, author = {ABC da Saúde},
-title = {{Hipertensão Arterial - Crise Hipertensiva}},+title = {Hipertensão Arterial - Crise Hipertensiva},
 language = {pt}, language = {pt},
 note = {http://www.abcdasaude.com.br/artigo.php?242}, note = {http://www.abcdasaude.com.br/artigo.php?242},
Linha 422: Linha 395:
 } }
  
-@Book{HAIR2006, +
-author = {Hair, Joseph F. AND Tatham; Ronald L. AND Anderson, Rolph E. AND Black, William}, +
-title = {{Multivariate Data Analysis}}, +
-note = {Tradu\c{c}\~{a}o: Adonai Schulup Sant'Anna e Anselmo Chaves Neto}, +
-pages = {}, +
-publisher = {Bookman}, +
-address = {Porto Alegre}, +
-year = {2006}, +
-}+
  
 @Book{HOFFMANN1977, @Book{HOFFMANN1977,
Linha 646: Linha 611:
 @book{COSTANETO1977, @book{COSTANETO1977,
 author = {Costa Neto, Pedro Luís de Oliveira}, author = {Costa Neto, Pedro Luís de Oliveira},
-title = {{Estatística}},+title = {Estatística},
 note = {14ª reimpressão}, note = {14ª reimpressão},
 pages = {39 - 45}, pages = {39 - 45},
Linha 678: Linha 643:
    }    }
        
-@Manual{GIOLO2006,+@unpublished{GIOLO2006,
 author = {Giolo, Suely Ruiz}, author = {Giolo, Suely Ruiz},
-title = {{Análise de Dados Categóricos}}, +title = {Análise de Dados Categóricos}, 
-note = {Apostila e Notas de Aula}, +note = {notas de aula para o Curso de Estatística da UFPR},
-pages = {}, +
-publisher = {UFPR},+
 address = {Curitiba}, address = {Curitiba},
 year = {2006}, year = {2006},
Linha 689: Linha 652:
  
  
-@Manual{GIOLO2007,+@unpublished{GIOLO2007,
 author = {Giolo, Suely Ruiz}, author = {Giolo, Suely Ruiz},
-title = {{Análise de Regressão}}, +title = {Análise de Regressão}, 
-note = {Apostila e Notas de Aula},+note = {Notas de aula para o Curso de Estatística da UFPR},
 pages = {}, pages = {},
-publisher = {UFPR}, 
 address = {Curitiba}, address = {Curitiba},
 year = {2007}, year = {2007},
Linha 713: Linha 675:
 @Manual{OGLIARI2007, @Manual{OGLIARI2007,
 author = {Ogliari, Paulo José}, author = {Ogliari, Paulo José},
-title = {{Regressão Logística}},+title = {Regressão Logística},
 note = {Curso On-Line - http://www.inf.ufsc.br/~ogliari/cursoderegressao.html}, note = {Curso On-Line - http://www.inf.ufsc.br/~ogliari/cursoderegressao.html},
 pages = {}, pages = {},
Linha 734: Linha 696:
  
  
-===== Laboratórios de Estatística ===== 
- 
-=== == ==== Flaviane Peccin ==== == === 
- 
-Artigo: {{projetos:artigo.pdf|Fatores de Hipertensão usando Redes Neurais Kohonen}} 
- 
-Apresentação: 05/09/2007 - Grupo II 
- 
-Apresentação 2: 24/10/2007 - Grupo II 
- 
- 
-=== == ==== Christine Cardozo de Araujo ==== == === 
- 
-Artigo: Projeto Bambuí-MG 
- 
-Apresentação 1: 05/09/2007 - Grupo I 
  
-Apresentação 2: 24/10/2007 - Grupo I 
  
 ===== Modelos para Redação do TCC ===== ===== Modelos para Redação do TCC =====

QR Code
QR Code projetos:hipertensao (generated for current page)