@MASTERSTHESIS{ 2023:1673890240, title = {Detecção de fraudes em transações com cartão de crédito: uma comparação do desempenho de técnicas inteligentes com base na avaliação da função de custo}, year = {2023}, url = "http://bibliotecatede.uninove.br/handle/tede/3242", abstract = "A detecção de fraudes em cartões de crédito enfrenta um problema relativo ao número de casos de fraudes ser menor do que o de não fraudes, dificultando a detecção por parte de técnicas inteligentes. A solução passa pela aplicação de dois métodos que tratam este desbalanceamento, o Oversampling e o Undersampling. Para avaliar e comparar o desempenho das técnicas, utiliza-se a Matriz de Confusão (MC), o Coeficiente de Correlação de Matthew (MCC), a Área sob a Curva (AUC) e a Função de Custo (FC). O resultado da FC quantifica o impacto financeiro causado por uma classificação incorreta e, por se tratar de custo, quanto menor o seu valor, melhor o desempenho da técnica. O objetivo geral deste trabalho foi comparar o desempenho de técnicas inteligentes com base na avaliação da Função de Custo para detectar fraudes em transações com cartões de crédito em base de dados desbalanceada. A base de dados utilizada contém informações sobre transações realizadas com cartões de crédito europeus coletadas no ano de 2013. Foram aplicadas as seguintes técnicas: Regressão Logística (RL), Decision Trees (DT), Random Forest (RF), Support Vector Machine (SVM), Deep Learning (DL) e XGBoost (XG), sobre as bases de dados desbalanceada e balanceada com Oversampling e Undersampling. Para avaliar e comparar os resultados foram utilizadas a MC, o MCC, a AUC e a FC. O melhor desempenho para a AUC foi da RL com Oversampling, para o MCC foi da RF aplicada à base desbalanceada e para a FC, novamente a RL com Oversampling foi a melhor. A justificativa para a RL com Oversampling apresentar o melhor desempenho em duas das três métricas avaliadas pode residir no fato de ser uma técnica tradicionalmente aplicada em problemas de detecção de fraudes e, por isto, apresentou mais aderência à base de dados utilizada. No estudo do Aprendizado de Máquina, o princípio da Navalha de Occam recomenda que, diante de vários modelos, o mais simples deve ser escolhido, como ocorreu com a RL com Oversampling. Ao considerar o custo de uma predição incorreta, não basta avaliar somente os resultados obtidos com as métricas AUC e MCC, deve-se considerar também a aplicação da FC para apoiar a escolha de uma técnica inteligente.", publisher = {Universidade Nove de Julho}, scholl = {Programa de Pós-Graduação em Informática e Gestão do Conhecimento}, note = {Informática} }