Data Mining na procura de nova informação: Market Basket Analysis aplicado a um dataset público

Hoje em dia, a população encontra-se sobrecarregada com dados, quando todas as atividades realizadas pelas organizações e pessoas, no seu dia-a-dia, geram dados. Contudo, o facto de termos acesso a um enorme volume de dados não significa que tenhamos acesso a muita informação ou conhecimento. É, por...

Full description

Bibliographic Details
Main Author: Oliveira, Joana Raquel Carias de (author)
Format: masterThesis
Language:por
Published: 2021
Subjects:
Online Access:http://hdl.handle.net/10400.26/37552
Country:Portugal
Oai:oai:comum.rcaap.pt:10400.26/37552
Description
Summary:Hoje em dia, a população encontra-se sobrecarregada com dados, quando todas as atividades realizadas pelas organizações e pessoas, no seu dia-a-dia, geram dados. Contudo, o facto de termos acesso a um enorme volume de dados não significa que tenhamos acesso a muita informação ou conhecimento. É, portanto, importante trabalhar os dados por forma a gerar informação relevante para a tomada de decisão, pois num mundo globalizado e extremamente competitivo, um minuto pode ser fulcral para fechar um negócio e, para tal, é necessário ter acesso à informação atual, correta e sumarizada. Face ao volume de dados existente e a necessidade de criar vantagens competitivas para as empresas sobreviverem nos seus mercados importa analisar os dados por forma a identificar informação que poderia estar oculta ou padrões nos comportamentos dos consumidores. É aqui que entra o data mining, cujo principal objetivo é analisar os dados e encontrar anomalias, padrões ou novas informações que auxiliem na tomada de decisão. O setor do retalho é um dos setores que mais valor monetário gera mundialmente e um dos setores onde a concorrência é mais feroz, pelo que quanto mais conhecimento e informações as empresas tiverem ao seu dispor maior será a probabilidade de conseguirem adquirir vantagens competitivas. Nesta procura de informação temos como exemplo as regras de associação, uma técnica de data mining cujo objetivo é encontrar itens que ocorrem frequentemente e em conjunto nos cestos de compras dos clientes. Um dos algoritmos concebidos para a geração de regras de associação é o algoritmo Apriori em que a sua génese foi baseada na análise de compras efetuadas num supermercado. Ao aplicar algoritmos para obter regras de associação ao setor do retalho é comum indicar- se que se usou uma técnica de market basket analysis. Este trabalho tem como principais objetivos a análise exploratória de um dataset público com um grande conjunto de compras (Instacart) e a geração de regras de associação recorrendo à utilização do algoritmo Apriori. Consoante os resultados obtidos serão sugeridas ideias para implementar novas estratégia de marketing. Este trabalho iniciou-se com a revisão da literatura, investigando os conceitos de data mining, regras de associação e market basket analysis. Como bússola orientadora para a aplicação de técnicas de data mining seguiu-se a metodologia CRISP. Para a análise exploratória dos dados foi utilizado o software Power BI e para a transformação dos dados e aplicação do algoritmo Apriori e consequentemente a geração das regras de associação recorreu-se à linguagem Python.