Detecção de fraudes em transações com cartão de crédito: uma comparação do desempenho de técnicas inteligentes com base na avaliação da função de custo

Exportar este item:

Use este identificador para citar ou linkar para este item: http://bibliotecatede.uninove.br/handle/tede/3242

Registro completo de metadados

Campo DC	Valor	Idioma
dc.creator	Leonardis, Roger Willian Joel	-
dc.creator.Lattes	http://lattes.cnpq.br/8686118656991273	por
dc.contributor.advisor1	Sassi, Renato José	-
dc.contributor.advisor1Lattes	http://lattes.cnpq.br/8750334661789610	por
dc.contributor.referee1	Sassi, Renato José	-
dc.contributor.referee1Lattes	http://lattes.cnpq.br/8750334661789610	por
dc.contributor.referee2	Kitani, Edson Caoru	-
dc.contributor.referee2Lattes	http://lattes.cnpq.br/6731656353508097	por
dc.contributor.referee3	Pereira, Fabio Henrique	-
dc.contributor.referee3Lattes	http://lattes.cnpq.br/0382304490753424	por
dc.date.accessioned	2023-12-04T15:38:10Z	-
dc.date.issued	2023-06-26	-
dc.identifier.citation	Leonardis, Roger Willian Joel. Detecção de fraudes em transações com cartão de crédito: uma comparação do desempenho de técnicas inteligentes com base na avaliação da função de custo. 2023. 75 f. Dissertação( Programa de Pós-Graduação em Informática e Gestão do Conhecimento) - Universidade Nove de Julho, São Paulo.	por
dc.identifier.uri	http://bibliotecatede.uninove.br/handle/tede/3242	-
dc.description.resumo	A detecção de fraudes em cartões de crédito enfrenta um problema relativo ao número de casos de fraudes ser menor do que o de não fraudes, dificultando a detecção por parte de técnicas inteligentes. A solução passa pela aplicação de dois métodos que tratam este desbalanceamento, o Oversampling e o Undersampling. Para avaliar e comparar o desempenho das técnicas, utiliza-se a Matriz de Confusão (MC), o Coeficiente de Correlação de Matthew (MCC), a Área sob a Curva (AUC) e a Função de Custo (FC). O resultado da FC quantifica o impacto financeiro causado por uma classificação incorreta e, por se tratar de custo, quanto menor o seu valor, melhor o desempenho da técnica. O objetivo geral deste trabalho foi comparar o desempenho de técnicas inteligentes com base na avaliação da Função de Custo para detectar fraudes em transações com cartões de crédito em base de dados desbalanceada. A base de dados utilizada contém informações sobre transações realizadas com cartões de crédito europeus coletadas no ano de 2013. Foram aplicadas as seguintes técnicas: Regressão Logística (RL), Decision Trees (DT), Random Forest (RF), Support Vector Machine (SVM), Deep Learning (DL) e XGBoost (XG), sobre as bases de dados desbalanceada e balanceada com Oversampling e Undersampling. Para avaliar e comparar os resultados foram utilizadas a MC, o MCC, a AUC e a FC. O melhor desempenho para a AUC foi da RL com Oversampling, para o MCC foi da RF aplicada à base desbalanceada e para a FC, novamente a RL com Oversampling foi a melhor. A justificativa para a RL com Oversampling apresentar o melhor desempenho em duas das três métricas avaliadas pode residir no fato de ser uma técnica tradicionalmente aplicada em problemas de detecção de fraudes e, por isto, apresentou mais aderência à base de dados utilizada. No estudo do Aprendizado de Máquina, o princípio da Navalha de Occam recomenda que, diante de vários modelos, o mais simples deve ser escolhido, como ocorreu com a RL com Oversampling. Ao considerar o custo de uma predição incorreta, não basta avaliar somente os resultados obtidos com as métricas AUC e MCC, deve-se considerar também a aplicação da FC para apoiar a escolha de uma técnica inteligente.	por
dc.description.abstract	Credit card fraud detection faces an issue with the number of the fraud transactions being lower than non-fraud, making it difficult for machine learning models to effectively detect them. There are different types of solution to fix this imbalance, Oversampling and Undersampling can be used to deal with it. To evaluate and compare the performance of the machine learning models, metrics like the Confusion Matrix (CM), the Matthew Correlation Coefficient (MCC), the Area under the Curve (AUC) and the Cost Function (FC) can be applied. The FC result quantifies the financial impact caused by a real fraud misclassification and, because it is cost related, the lower its value the better its performance. The objective of this experiment was to compare the performance of machine learning models using the FC to detect fraud in credit card transactions in an unbalanced dataset. The dataset contains information about European credit cards transactions collected in 2013. The following models were applied: Logistic Regression (RL), Decision Trees (DT), Random Forest (RF), Support Vector Machine (SVM), Deep Learning (DL) and XGBoost (XG), over the unbalanced and balanced databases with Oversampling and Undersampling. To evaluate and compare the results, CM, MCC, AUC and FC were used. The best performance for AUC was RL with Oversampling, for MCC was for RF applied to the unbalanced base and for FC also RL with Oversampling presented the best performance. The reasons why RL with Oversampling outperformed the other models in two out of the three metrics may be connected to the common use of this model in fraud detection problems, therefore presented more adherence to the database used. As stated in the principle of Occam's Razor the recommendation for Machine Learning models use is to adopt the simplest one: RL with Oversampling. When considering the cost of an incorrect prediction, it is not enough to evaluate only the results obtained with the AUC and MCC metrics, one should also consider the results of the FC to support of a machine learning model definition.	eng
dc.description.provenance	Submitted by Nadir Basilio (nadirsb@uninove.br) on 2023-12-04T15:38:10Z No. of bitstreams: 1 Roger Willian Joel Leonardis.pdf: 4095369 bytes, checksum: 153cc45250d81ba40bb0177d2934efea (MD5)	eng
dc.description.provenance	Made available in DSpace on 2023-12-04T15:38:10Z (GMT). No. of bitstreams: 1 Roger Willian Joel Leonardis.pdf: 4095369 bytes, checksum: 153cc45250d81ba40bb0177d2934efea (MD5) Previous issue date: 2023-06-26	eng
dc.format	application/pdf	*
dc.language	por	por
dc.publisher	Universidade Nove de Julho	por
dc.publisher.department	Informática	por
dc.publisher.country	Brasil	por
dc.publisher.initials	UNINOVE	por
dc.publisher.program	Programa de Pós-Graduação em Informática e Gestão do Conhecimento	por
dc.rights	Acesso Aberto	por
dc.subject	fraudes em cartão de crédito	por
dc.subject	função de custo	por
dc.subject	custo de classificação	por
dc.subject	inteligência artificial	por
dc.subject	base de dados desbalanceada	por
dc.subject	credit card fraud	eng
dc.subject	cost function	eng
dc.subject	classification cost	eng
dc.subject	artificial intelligence	eng
dc.subject	imbalanced dataset	eng
dc.subject.cnpq	CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAO	por
dc.title	Detecção de fraudes em transações com cartão de crédito: uma comparação do desempenho de técnicas inteligentes com base na avaliação da função de custo	por
dc.title.alternative	Fraud detection in credit card transactions: comparing machine learning models using the cost function	eng
dc.type	Dissertação	por
Aparece nas coleções:	Programa de Pós-Graduação em Informática e Gestão do Conhecimento

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
Roger Willian Joel Leonardis.pdf	Roger Willian Joel Leonardis	4 MB	Adobe PDF	Baixar/Abrir Pré-Visualizar ×

Mostrar registro simples do item Recomendar este item Visualizar estatísticas

Universidade Nove de Julho

Biblioteca Digital de Teses e Dissertações