Summary: | Nos últimos anos, o volume de informação online tem vindo a crescer exponencialmente. Os dados pessoais de cada indivíduo são utilizados de forma contínua pelo governo, por empresas ou por indivíduos, com a finalidade de criar dados estatísticos. Estes podem depois ser utilizados em campanhas de marketing, na previsão de tendências futuras, na ajuda em investigações ao nível da ciência e da medicina e muitos outros exemplos. O maior problema com a utilização destes dados é que eles podem conter informação sensível e informação que permita identificar um indivíduo, podendo causar graves problemas a nível pessoal como, por exemplo, roubo de identidade, extração de dinheiro, etc., dependendo dos dados divulgados. Para resolver este problema existe a anonimização de dados. Esta tem como finalidade alterar os dados de modo a ocultar informação sensível e que podem permitir a identificação de um indivíduo, tornando-os menos precisos. Uma das maiores dificuldades perante a anonimização de dados é que ao mesmo tempo que se mantém a privacidade dos indivíduos, a utilidade dos dados deve permanecer e, para isto, é necessário ter em atenção as técnicas e os algoritmos que são utilizadas e a quantidade de vezes que estas são aplicadas. Neste trabalho são estudadas as técnicas de anonimização mais comuns, como a generalização, a supressão, a anatomização, a permutação e a perturbação e também alguns dos algoritmos de anonimização mais conhecidos, como o k-anonimato e o l diversidade. Para a avaliação e a aplicação destas técnicas e algoritmos foram utilizadas as ferramentas open-source, ARX Data Anonymization Tool, UTD Anonymization Toolbox e Amnesia. Utilizando a metodologia OSSpal foi também realizada a avaliação de cada uma destas ferramentas. A metodologia OSSpal tem como finalidade avaliar ferramentas open-source de forma a ajudar os utilizadores e as organizações a encontrar as melhores, recorrendo a um conjunto de categorias. No contexto desta tese, as categorias utilizadas foram a funcionalidade, as características funcionais do software, o suporte e os serviços, a documentação, os atributos da tecnologia do software, a comunidade e a adaptação e o processo de desenvolvimento. Nesta tese, o trabalho experimental realizado consistiu na avaliação das três ferramentas de anonimização utilizando dois dataset reais. O UTD Anonymization Toolbox só foi utilizado com um dos datasets, o de menor tamanho, porque esta ferramenta requer a introdução manual dos elementos do dataset num ficheiro, o que pode originar erros. Na avaliação das ferramentas é possível verificar que o ARX Data Anonymization Tool é a ferramenta que apresenta os dados de forma mais simples e que permite uma melhor visualização por parte do utilizador. O Amnesia é fácil de utilizar pois mostra ao utilizador todos os passos necessários para anonimizar um dataset, apesar de mostrar alguns erros, porém, o UTD Anonymization Toolbox foi a ferramenta que apresentou mais dificuldades na utilização devido ao facto de não ter uma interface gráfica, mas também porque a introdução dos dados tem de ser feita de forma manual. Após a avaliação experimental é possível concluir que o ARX Data Anonymization Tool é a melhor ferramenta para ser usada na anonimização de dados, seguindo-se o Amnesia e, por último o UTD Anonymization Toolbox.
|