Summary: | A deteção de fraude em pagamentos de transações online é um desafio cada vez maior, principalmente com o aumento observado nos anos recentes para o consumo de produtos e serviços em e-commerce. Esta dissertação descreve o processo de modelação com técnicas de Machine Learning aplicadas a um problema de deteção de fraude, tendo como referência o desempenho das equipas participantes de uma competição promovida pela plataforma Kaggle. A atenção dirigiu-se mais especificamente às técnicas de sampling de dados para tratar o problema do desbalanceamento de classes, às técnicas de preparação dos dados para deteção de anomalias e mineração de conhecimento, e por fim, aos métodos de Ensemble Learning. A principal contribuição deste trabalho, face aos outros trabalhos que utilizaram o mesmo conjunto de dados, é demonstrar a importância do processo de criação em massa de features informativas para o desempenho do modelo. Sendo a principal técnica do processo a criação de forma iterativa de novas features através da comparação de um conjunto de variáveis de cada transação com diversas medidas estatísticas do grupo à qual cada transação pertence.
|