Skip to content

Código-fonte da Tese de Doutorado da PUC Minas

Notifications You must be signed in to change notification settings

fmartinssp/MALTA

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

4 Commits
 
 
 
 

Repository files navigation

MALTA

A ausência de dados é um problema comum na área de Aprendizado de Máquina, podendo levar a estimativas tendenciosas de parâmetros, perda de informação e diminuição do poder estatístico. Existem diversas atividades aplicadas no tratamento de dados ausentes, mas a identificação do mecanismo causador da omissão e a imputação de valores podem ser desafios para os pesquisadores. Neste contexto, este trabalho propõe um método chamado MALTA (Método para Análise e Tratamento de Dados Ausentes) para análise e tratamento de dados ausentes, com o objetivo de auxiliar na identificação do mecanismo de ausência e na imputação de valores ausentes. MALTA permite desde a visualização dos dados ausentes, a geração artificial de ausências nos três mecanismos (Missing Completely at Random) (MCAR), Missing at Random (MAR) e Missing Not at Random (MNAR), a identificação do mecanismo (testes de Little, Dixon, Homocedasticidade e Regression-Based}), a imputação de dados ausentes (métodos média, k - Nearest Neighbor} (KNN), MissForest}, múltipla, clusterização K-Means}, regressão, Redes Generativas Adversárias) e Cópula Gaussiana), a predição por meio de classificadores (Árvore de Decisão, Random Forest}, Multilayer Perceptron} e Support Vector Machine}) e a avaliação da imputação utilizando-se as métricas de avaliação (Root Mean Square Error}, precisão, sensibilidade e F1 Score}). O MALTA foi validado a partir de experimentos realizados em uma base de dados privada com altas taxas de ausência produzida por meio da pesquisa intitulada Survey of Inmates in State and Federal Correctional Facilities (SISFCF), nos Estados Unidos da América, que fornece em nível nacional dados representativos sobre prisioneiros de instalações estaduais e federais. Além disso, foram utilizados 46 conjuntos da dados públicos fornecidas pelo UCI Machine Learning} com ausências geradas sob os três mecanismos existentes. Os experimentos indicaram que o teste de Little é altamente eficaz na identificação do mecanismo de ausência MCAR, com 92% de acurácia, seguido pelo método Regression-Based com 76%. Os métodos de imputação múltipla e KNN obtiveram os melhores resultados. Assim, foi definido um protocolo de tratamento de dados ausentes com base nos métodos mais eficazes. É importante lembrar que a escolha do método de tratamento adequado depende das características da base de dados e do mecanismo de ausência presente, e que a avaliação da qualidade dos resultados por parte do especialista é essencial para garantir que a imputação não introduza vieses ou distorções nos resultados da análise. A implementação do MALTA está disponível em https://github.com/fmartinssp/MALTA.

About

Código-fonte da Tese de Doutorado da PUC Minas

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published