Teoria
Para melhor compreensão das análises feitas
Javascript)
Análise de Componente Principal (O PCA foi inventado em 1901 por Karl Pearson. Comumente usado como uma ferramenta de Análise Exploratória de Dados e para fazer modelos preditivos, o PCA pode ser feito por decomposição em autovalores (Valores Próprios) de uma matriz covariância, geralmente depois de centralizar (e normalizar ou usar pontuações-Z) a matriz de dados para cada atributo.
Os resultados de PCA são geralmente discutidos em termos pontuações (scores) de componentes, também chamados de pontuações de fatores (os valores de variável transformados correspondem a um ponto de dado particular), e carregamentos (loadings), i.e., o peso pelo qual cada variável normalizada original deve ser multiplicada para se obter a pontuação de componente.
O PCA é a mais simples das verdadeiras análises multivariadas por autovetores (Vetores Próprios). Com frequência, sua operação pode ser tomada como sendo reveladora da estrutura interna dos dados, de uma forma que melhor explica a variância nos dados. Se visualizarmos um conjunto de dados multivariados em um espaço de alta dimensão, com 1 eixo por variável, o PCA pode ser usado para fornecer uma visualização em dimensões mais baixas dos mesmos dados, uma verdadeira "sombra" do objeto original quando visto de seu ponto mais informativo. Isto é feito usando-se apenas os primeiros componentes principais, de forma que a dimensionalidade dos dados transformados é reduzida.
A Análise de Componentes Principais (ACP) ou Principal Component Analysis (PCA) é um procedimento matemático que utiliza uma transformação ortogonal (ortogonalização de vetores) para converter um conjunto de observações de variáveis possivelmente correlacionadas num conjunto de valores de variáveis linearmente não correlacionadas chamadas de componentes principais. O número de componentes principais é menor ou igual ao número de variáveis originais. Esta transformação é definida de forma que o primeiro componente principal tem a maior variância possível (ou seja, é responsável pelo máximo de variabilidade nos dados), e cada componente seguinte, por sua vez, tem a máxima variância sob a restrição de ser ortogonal a (i.e., não correlacionado com) os componentes anteriores.
Exemplo visual do ACP
Coeficiente de dissimilaridade - Correlação
Medidas de similaridade servem para definir o grau de semelhança entre as instâncias e realizam o agrupamento de acordo com a sua coesão. Diversas medidas de similaridade tem sido propostas, somente duas são geralmente usadas: o coeficiente de correlação de Pearson e a medida de distância euclidiana.
Se as variáveis forem padronizadas a partir da matriz inicial de dados, dando o mesmo peso a cada uma delas, qualquer um desses coeficientes poderá ser diretamente transformado no outro.
Distância Euclidiana
A Distância Euclidiana é definida como a soma da raiz quadrada da diferença entre todas as dimensões de duas instâncias.
√((x1 – x2)² + (y1 – y2)² + (z1 - z2)² ...)
A distância entre uma instância e ela mesma é zero. A maior distância possivel entre duas instâncias numa matriz de dados normalizada é dado pela raiz quadrada do numero de dimensoes das instancias.
min = 0
max = √(n_dimensoes de x)
Normalização (Padronização)
Padronização ou normalização (ou normatização) é o processo de desenvolvimento e implementação de normas técnicas. A padronização tem como objetivo definir especificações técnicas que auxiliem na maximização da compatibilidade, reprodutibilidade, segurança ou qualidade de determinado processo, produto ou serviço. Neste projeto normalizamos os dados antes de utilizar o módulo de correlação implementado pela equipe. O PCA não utiliza a normalização, pois seus dados refletem propriedades físicas (os dados são um espectrograma), logo é benéfico para o analista que o ruído natural dos dados sejam mantidos (não normalizados).