Summary: | Esta dissertação surge no contexto da avaliação de metodologias de préprocessamento de dados de microarrays através do desempenho preditivo de modelos de classificação supervisionada. As experiências de microarrays envolvem muitos passos, desde a extracção do tecido em estudo, passando pela marcação do mesmo com compostos fluorescentes, scanning, processamento de imagem, entre outras. Cada uma dessas etapas pode introduzir variabilidade nos dados recolhidos e assim afectar a qualidade dos mesmos. Os métodos de pré-processamento de correcção de background (CB) e de normalização (NM) surgem da necessidade de remover as variações não desejadas mantendo as variações biológicas intrínsecas aos dados. Para o presente trabalho foi realizado um estudo experimental onde foram aplicados aos dados vários métodos de CB e de NM, individualmente ou em conjunto, com a finalidade de avaliar o contributo destas metodologias no melhoramento da qualidade dos dados. Apresenta-se aqui uma avaliação de 36 métodos pré-processamento (resultantes de combinações de métodos de CB e de NM) com base no desempenho preditivo de dois modelos de classificação, k-Vizinhos mais Próximos (k-NN) e Maquinas de Suporte Vectorial (MSV). Estes modelos são induzidos de três bases de dados públicas de microarrays de ADNcomplementar, onde um par de métodos de pré-processamento, constituído por um de CB e outro de NM, é aplicado. A capacidade preditiva dos dois modelos de classificação é medida em termos da taxa de erro obtida pelo método de validação cruzada leave-one-out. Em virtude da grande dimensão dos dados de microarrays, resultante de um elevado número de atributos (genes) envolvidos, o presente trabalho também inclui um estudo sobre o efeito da aplicação dos métodos de CB e de NM no desempenho preditivo de classificadores de MSV quando estes são induzidos de dados constituídos apenas por subconjuntos de genes altamente discriminativos.
|