Exportar este item: EndNote BibTex

Use este identificador para citar ou linkar para este item: http://bibliotecatede.uninove.br/handle/tede/3242
Tipo do documento: Dissertação
Título: Detecção de fraudes em transações com cartão de crédito: uma comparação do desempenho de técnicas inteligentes com base na avaliação da função de custo
Título(s) alternativo(s): Fraud detection in credit card transactions: comparing machine learning models using the cost function
Autor: Leonardis, Roger Willian Joel 
Primeiro orientador: Sassi, Renato José
Primeiro membro da banca: Sassi, Renato José
Segundo membro da banca: Kitani, Edson Caoru
Terceiro membro da banca: Pereira, Fabio Henrique
Resumo: A detecção de fraudes em cartões de crédito enfrenta um problema relativo ao número de casos de fraudes ser menor do que o de não fraudes, dificultando a detecção por parte de técnicas inteligentes. A solução passa pela aplicação de dois métodos que tratam este desbalanceamento, o Oversampling e o Undersampling. Para avaliar e comparar o desempenho das técnicas, utiliza-se a Matriz de Confusão (MC), o Coeficiente de Correlação de Matthew (MCC), a Área sob a Curva (AUC) e a Função de Custo (FC). O resultado da FC quantifica o impacto financeiro causado por uma classificação incorreta e, por se tratar de custo, quanto menor o seu valor, melhor o desempenho da técnica. O objetivo geral deste trabalho foi comparar o desempenho de técnicas inteligentes com base na avaliação da Função de Custo para detectar fraudes em transações com cartões de crédito em base de dados desbalanceada. A base de dados utilizada contém informações sobre transações realizadas com cartões de crédito europeus coletadas no ano de 2013. Foram aplicadas as seguintes técnicas: Regressão Logística (RL), Decision Trees (DT), Random Forest (RF), Support Vector Machine (SVM), Deep Learning (DL) e XGBoost (XG), sobre as bases de dados desbalanceada e balanceada com Oversampling e Undersampling. Para avaliar e comparar os resultados foram utilizadas a MC, o MCC, a AUC e a FC. O melhor desempenho para a AUC foi da RL com Oversampling, para o MCC foi da RF aplicada à base desbalanceada e para a FC, novamente a RL com Oversampling foi a melhor. A justificativa para a RL com Oversampling apresentar o melhor desempenho em duas das três métricas avaliadas pode residir no fato de ser uma técnica tradicionalmente aplicada em problemas de detecção de fraudes e, por isto, apresentou mais aderência à base de dados utilizada. No estudo do Aprendizado de Máquina, o princípio da Navalha de Occam recomenda que, diante de vários modelos, o mais simples deve ser escolhido, como ocorreu com a RL com Oversampling. Ao considerar o custo de uma predição incorreta, não basta avaliar somente os resultados obtidos com as métricas AUC e MCC, deve-se considerar também a aplicação da FC para apoiar a escolha de uma técnica inteligente.
Abstract: Credit card fraud detection faces an issue with the number of the fraud transactions being lower than non-fraud, making it difficult for machine learning models to effectively detect them. There are different types of solution to fix this imbalance, Oversampling and Undersampling can be used to deal with it. To evaluate and compare the performance of the machine learning models, metrics like the Confusion Matrix (CM), the Matthew Correlation Coefficient (MCC), the Area under the Curve (AUC) and the Cost Function (FC) can be applied. The FC result quantifies the financial impact caused by a real fraud misclassification and, because it is cost related, the lower its value the better its performance. The objective of this experiment was to compare the performance of machine learning models using the FC to detect fraud in credit card transactions in an unbalanced dataset. The dataset contains information about European credit cards transactions collected in 2013. The following models were applied: Logistic Regression (RL), Decision Trees (DT), Random Forest (RF), Support Vector Machine (SVM), Deep Learning (DL) and XGBoost (XG), over the unbalanced and balanced databases with Oversampling and Undersampling. To evaluate and compare the results, CM, MCC, AUC and FC were used. The best performance for AUC was RL with Oversampling, for MCC was for RF applied to the unbalanced base and for FC also RL with Oversampling presented the best performance. The reasons why RL with Oversampling outperformed the other models in two out of the three metrics may be connected to the common use of this model in fraud detection problems, therefore presented more adherence to the database used. As stated in the principle of Occam's Razor the recommendation for Machine Learning models use is to adopt the simplest one: RL with Oversampling. When considering the cost of an incorrect prediction, it is not enough to evaluate only the results obtained with the AUC and MCC metrics, one should also consider the results of the FC to support of a machine learning model definition.
Palavras-chave: fraudes em cartão de crédito
função de custo
custo de classificação
inteligência artificial
base de dados desbalanceada
credit card fraud
cost function
classification cost
artificial intelligence
imbalanced dataset
Área(s) do CNPq: CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAO
Idioma: por
País: Brasil
Instituição: Universidade Nove de Julho
Sigla da instituição: UNINOVE
Departamento: Informática
Programa: Programa de Pós-Graduação em Informática e Gestão do Conhecimento
Citação: Leonardis, Roger Willian Joel. Detecção de fraudes em transações com cartão de crédito: uma comparação do desempenho de técnicas inteligentes com base na avaliação da função de custo. 2023. 75 f. Dissertação( Programa de Pós-Graduação em Informática e Gestão do Conhecimento) - Universidade Nove de Julho, São Paulo.
Tipo de acesso: Acesso Aberto
URI: http://bibliotecatede.uninove.br/handle/tede/3242
Data de defesa: 26-Jun-2023
Aparece nas coleções:Programa de Pós-Graduação em Informática e Gestão do Conhecimento

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
Roger Willian Joel Leonardis.pdfRoger Willian Joel Leonardis4 MBAdobe PDFBaixar/Abrir Pré-Visualizar


Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.