Video Summary and Transcription
Blue Tab Solutions se especializa en análisis avanzado y big data, y recientemente mejoró la detección de fraudes financieros utilizando Spark y la metodología CRISPM. Descubrieron ideas como la correlación entre las sesiones fraudulentas y la página de lanzamiento móvil a la que se accede desde la aplicación web. Los modelos creados utilizando árboles de decisión, clasificadores de bosques aleatorios y clasificadores de aumento de gradiente fueron validados utilizando el área bajo la curva ROC. El clasificador GVT obtuvo el mejor resultado con una puntuación de 0.94. Es necesario un entrenamiento regular para obtener modelos precisos, y los próximos pasos implican una acción en tiempo real cuando se detecta fraude.
1. Financial Fraud Detection with CRISPM Methodology
Hola, soy Javier Arcaide, un científico de datos en Blue Tab Solutions. Nos especializamos en análisis avanzado y big data. Recientemente trabajamos en mejorar la detección de fraudes financieros para un cliente en el sector financiero. Utilizando Spark y la metodología CRISPM, analizamos los conjuntos de datos y descubrimos información valiosa, como la correlación entre las sesiones fraudulentas y la página de transmisión móvil accedida desde la aplicación web. Al seleccionar las mejores características y limpiar los datos, creamos modelos más precisos para detectar transacciones fraudulentas.
Trabajo como científico de datos en Blue Tab Solutions, diseñando y desarrollando soluciones de machine learning. En Blue Tab, somos expertos en análisis avanzado y big data, lo que nos permite ayudar a nuestros clientes en este tipo de proyectos. En los últimos años, el fraude financiero ha aumentado drásticamente, y esta tendencia ha empeorado con la situación de la pandemia. A principios de año, uno de nuestros clientes en el sector financiero nos pidió que mejoráramos la forma en que detectaban fraudes financieros en sus aplicaciones bancarias en línea. Para resolver este problema, nos proporcionaron un conjunto de datos de Adobe Omniture, que contenía alrededor de 80 millones de registros de las diferentes sesiones de la aplicación bancaria en línea, cada una con 45 campos de información, junto con un conjunto de datos que contenía los fraudes detectados por su equipo de fraude en los últimos meses. Abordamos el problema utilizando la plataforma de big data de nuestro cliente, y debido al tamaño de los conjuntos de datos, decidimos utilizar Spark para el procesamiento y análisis de los datos. Nuestro enfoque utiliza una metodología de minería de datos bien conocida, CRISPM. Este proceso divide la solución en cinco fases principales. La primera es la comprensión del negocio. El objetivo de esta fase es alinear los objetivos del proyecto con los objetivos comerciales. Nos centramos en comprender las expectativas del cliente y los objetivos del proyecto. Con este conocimiento del problema, diseñamos una planificación preliminar para alcanzar los objetivos. La segunda fase es la comprensión de los datos. Consideramos que esta es la fase más importante de la metodología. En ella, el objetivo es conocer los datos. Su estructura, distribución y calidad. Comenzamos con un análisis univariado de las columnas de los conjuntos de datos en relación con el objetivo. Nuestras conclusiones de este análisis fueron cruciales para decidir qué variables se incluirían en el entrenamiento del modelo. En esta fase, descubrimos, por ejemplo, que en el 70% de las sesiones fraudulentas, se accedía a la página de transmisión móvil desde la aplicación web. El 90% de las sesiones abiertas desde este dispositivo en particular, UMI plus, eran fraudulentas. Esto cubría alrededor del 15% de los fraudes. En alrededor del 75% de las sesiones fraudulentas, el sistema operativo que utilizamos fue Windows 8.1. La extracción de estos conocimientos es el valor diferencial que un científico de datos puede ofrecer en la creación de modelos. A través de este conocimiento adquirido y seleccionando las mejores características, pudimos crear modelos mucho más precisos para la detección de transacciones fraudulentas. La tercera fase es la preparación de los datos. Cuando se seleccionan las variables, es hora de preparar el conjunto de datos para entrenar los diferentes modelos. Por lo general, es necesario limpiar los datos, asegurándose de identificar nuevos valores y valores atípicos Esto, combinado con transformaciones matemáticas como funciones exponenciales o logarítmicas puede mejorar la dispersión de la distribución, lo que ayuda a entrenar mejor el modelo. La limpieza y transformaciones completas resultan en un nuevo conjunto de datos con más de 200 características.
2. Modelado, Validación e Implementación
Utilizamos la Matriz de Correlación de Pearson para agrupar las características y seleccionar la mejor para el modelo. Se utilizaron árboles de decisión, clasificadores de bosques aleatorios y clasificadores de aumento de gradiente para crear los modelos. La fase de validación utilizó el área bajo la curva ROC como métrica. La fase de implementación involucró el uso de la plataforma de big data de los clientes basada en HDFS y Spark. El clasificador GVT obtuvo el mejor resultado con una puntuación de 0.94. El modelo identificó un grupo de sesiones que cubría el 10% del total de sesiones, incluyendo el 90% de los fraudes. Trabajar con herramientas de big data como PySpark es esencial para obtener modelos precisos. Es necesario realizar entrenamientos regulares ya que estos modelos se vuelven obsoletos rápidamente. Los próximos pasos implican trabajar con el modelo en tiempo real para una acción rápida cuando se detecte fraude.
Utilizamos la Matriz de Correlación de Pearson para agrupar las características en familias correlacionadas, donde podemos elegir la mejor para el modelo. La cuarta fase es el modelado y la validación. Una vez construido el conjunto de datos de entrenamiento, utilizamos el algoritmo contenido en las bibliotecas de SparkML. Específicamente, utilizamos árboles de decisión, clasificadores de bosques aleatorios y clasificadores de aumento de gradiente para crear nuestros modelos.
Para la validación, decidimos utilizar el área bajo la curva ROC como métrica porque el objetivo no estaba equilibrado en el conjunto de datos, lo que implica que no se pueden utilizar métricas como la precisión. En la fase de implementación, la última, utilizamos la plataforma de big data de nuestros clientes basada en HDFS y Spark para implementar el modelo. Se ejecuta una vez al día con los datos del día anterior, que tiene alrededor de seis millones de registros. Dado que el modelo está diseñado y desarrollado utilizando Spark, es posible implementarlo en cualquier plataforma, en la nube o en las instalaciones, capaz de implementar aplicaciones de Spark.
Después de la validación del modelo, encontramos que el clasificador GVT obtuvo el mejor resultado, con una puntuación de 0.94 en el área bajo la curva. El modelo creado fue capaz de identificar un grupo de sesiones que cubría el 10% del total de sesiones, donde se incluía el 90% de los fraudes. Esto permite a los analistas dedicar más tiempo a los casos de mayor riesgo. En conclusión, para tener modelos más precisos, es importante utilizar la población completa de los datos. Esto sería imposible sin trabajar con herramientas de big data como PySpark. Estos excelentes resultados se basan en el estudio previo de las variables y en las ideas obtenidas durante el análisis. Por otro lado, este tipo de modelo se vuelve obsoleto bastante rápido, por lo que es necesario entrenarlo regularmente, generalmente cada dos meses. Los próximos pasos serían trabajar con este modelo en tiempo real, para que los clientes puedan tomar medidas rápidamente cuando se detecte fraude, como solicitar una doble autenticación o bloquear las transacciones si el modelo predice acciones fraudulentas. Muchas gracias y cualquier pregunta es bienvenida.
Comments