Resumo: | Nos dias de hoje, devido ao constante desenvolvimento tecnológico e à constante necessidade de acelerar o processo de produção, os grandes fabricantes vêem-se obrigados a implementar processos de controlo de qualidade, por forma a diminuir o número de peças defeituosas ao longo das linhas de produção e, dessa forma, aumentar a produtividade das mesmas, o que irá beneficiar, não só as organizações responsáveis por esse processo, como também os clientes, pois, ao reduzir o tempo e custo de produção de um produto, as organizações têm a possibilidade de reduzir o seu preço. Apesar de se tratar de um problema global, este documento apenas se foca nas linhas de produção da Bosch, ao analisar uma grande quantidade de dados que foram disponibilizados para a criação de modelos de machine learning, com o objetivo de prever que componentes irão falhar ao longo do processo, por forma a melhorar o controlo de qualidade nas suas fábricas. Contudo, devido ao elevado número de entradas, estes dados têm que passar por várias etapas, para garantir que se encontram no melhor estado possível para serem testados e treinados pelos algoritmos. Estas etapas englobam o pré-processamento, ou seja, a correção de dados em falta, normalização, redução do tamanho do dataset, entre outras, e a Seleção de Características dos dados, ao selecionar apenas os atributos mais relevantes para a construção do modelo. Para o problema abordado neste documento, optou-se pela utilização da técnica de aprendizagem supervisionada, pelo facto do dataset utilizado ser rotulado, pois cada coluna contém um descritivo da peça, estação e linha de produção. Após terem sido analisados vários artigos semelhantes na mesma área de estudo, e terem sido comparados os seus resultados, os algoritmos XGBoost, Random Forest e Support Vector Machine foram escolhidos como os algoritmos a utilizar no desenvolvimento do modelo. Várias métricas de avaliação foram referidas na literatura como aptas para avaliar o modelo, como é o caso da exatidão, da precisão, da métrica F1, entre outras, que foram utilizadas para esse fim. Por fim, concluiu-se que o XGBoost foi o algoritmo que apresentou os melhores resultados no contexto deste estudo. O algoritmo SVM foi o mais rápido a efetuar as previsões e o algoritmo Random Forest é um meio termo entre velocidade e qualidade dos resultados. O melhor a aplicar nas linhas de produção da Bosch irá depender de que métrica é vista como tendo um maior peso para a organização.
|