Datos Maestros™
coincidencia y emparejamiento de datos

Fuzzy Matching definición

¿QUÉ ES FUZZY MATCHING?

El Fuzzy Matching se utiliza para establecer probabilidades y estimaciones determinando similitudes y diferencias en los registros de clientes a través de un algoritmo de coincidencia de datos. Esta técnica se hace con respecto a una correspondencia de datos determinista usando por ejemplo campos de nombre y fecha de nacimiento.

El Fuzzy Matching, le ayudará a mejorar y estandarizar la calidad de los datos a partir de las reglas de negocio. Dentro de las tendencias del 2020 para la gestión de datos indica que para muchas organizaciones aún es baja la confianza en su calidad de datos, siendo menos del 15%. Yendo en incremento la demanda de comprensión y conocimiento de los clientes para los directores de marketing.

Para el 2022, se ha establecido distintas formas de obtener la información imprescindible para el crecimiento del negocio, transformando los datos descentralizados en una vista estándar a través de herramientas de Fuzzy Matching con sus reglas de negocio.

CASOS TÍPICOS

Ahora podrá ver en marcha el Fuzzy Matching añadiendo valor a su negocio, una recesión en ventas para el 2022 debido a la economía, en búsqueda de aumentar las ventas a través del lanzamiento de una nueva iniciativa de marketing. Como punto de partida reúna toda la información de ventas para dar un toque de atención a sus clientes, comience con su sistema de CRM para luego ir con otros sistemas de marketing o de productos.

Aunque cada uno cuente con información ligeramente diferente, datos desordenados tales como: contactos, cuentas, transacciones, productos y direcciones; que pueden estar fragmentados y duplicados. El uso de algoritmos de coincidencia difusa (conforme las reglas de su organización) podrá estandarizar la información de clientes, reduciendo así errores y eliminando los datos duplicados.

A continuación encontrará a detalle:

  • ¿Qué es el Fuzzy Matching? 
  • ¿Por qué necesitan las empresas Fuzzy Matching? 
  • ¿Es el Fuzzy Matching un aprendizaje automático? 
  • ¿Cuáles son las técnicas de Fuzzy Matching? 
  • ¿A qué se refiere la búsqueda difusa? 
  • ¿Es fiable el Fuzzy Matching?  

¿POR QUÉ NECESITAN LAS EMPRESAS FUZZY MATCHING?

Contar con datos limpios y perfilados de forma eficiente es necesario para la empresas y todo esto es posible con Fuzzy Matching, ya que devela registros duplicados y enlazados, pongamos en práctica la aplicabilidad para campañas de marketing, iniciando el proceso tomando los datos desde el CRM, marketing y productos

Pasar mucho tiempo haciendo correcciones manuales buscando un enfoque diferente, en los que como área determinan finalmente contratar un especialista o entidades (terceros) que se encarguen de limpiar sus datos.

Pero existen cuestionamiento complejos por ejemplo: ¿Cómo puede un trabajador temporal discernir que “J. Chacón” es “Julio Chacón” o “Javier Chacón”, que trabajan ambos en Nacional de Chocolates? y, ¿si alguien no supiera que Éxito legalmente es “Grupo éxito”? Para abordar este tipo de problemas de limpieza, es importante tener un enfoque alternativo a través de

  • Abreviaturas y acrónimos
  • Puntuación y espacios
  • Apodos y otras variaciones del nombre
  • Errores ortográficos

El proceso de perfilado es necesario para establecer si dentro de la planificación de la limpieza de datos de clientes hay algo que se está pasando por alto. Para esto es oportuno recordar que las tareas se pueden automatizar y usar algoritmos de fuzzy matching como herramientas de ayuda.

Entidades de todo tipo, como las IIS que han reducido considerablemente el tiempo en su perfilado de datos de donantes, paciente entre otros

¿ES EL FUZZY MATCHING UN APRENDIZAJE AUTOMÁTICO?

Si ya está avanzando con procesos de búsqueda de Fuzzy Matching, puede que vea a otros optimizando sus campañas a través del aprendizaje automático, cada uno de esos utilizan patrones, sin embargo los algoritmos de Fuzzy Matching no requieren el entrenamiento de una máquina para decidir independientemente qué  y cómo limpiar los datos. Este se basa en una coincidencia de lógica difusa,  que torna valores entre 0 (falso) y 1 (verdadero). Y es su análisis de estos resultados de coincidencia difusa lo que determina la similitud entre dos conjuntos de datos y tomar decisiones sobre la limpieza de datos. 

Y es esta capacidad de perfilar y limpiar los datos lo que hace que el Fuzzy Matching sea una técnica más atractiva. Existen además diversos errores de este aprendizaje automático, como usar modelos incorrectos o datos sin limpiar lo que induce a una mala toma de decisiones. 

¿CUÁLES SON LAS TÉCNICAS DE FUZZY MATCHING?

Para tener en cuenta cuáles con las distintas necesidades del negocio y cuál es la arquitectura de los sistemas de datos, puede aplicar varios algoritmos de comparación difusa. Para casos como SQL, esta correspondencia maneja datos de ventas y marketing en su sistema SQL. Otros algoritmos difusos hacen uso de las bibliotecas de código abierto para resolver patrones específicos, es posible que encuentre diferentes técnicas, nuestro listado de técnicas de fuzzy matching más comunes son: 

  • Data Set 1 Data Set 2
    Organization Name Sales Organization Name # of Customers
    John Doe Inc $300 Sally Harper Cntr 10
    Saint Rogers $400 John Doe Incorporated 50
    Sally Harper Center $500 St. Rogers 100

    Algoritmos de coincidencia de datos (Fuzzy Logic)*

    • Levenshtein distance Algorithm Eg; Levenshtein = Levinsteihn
    • Damerau–Levenshtein distance: Eg; BKAOC = KACO
    • n-gram: Eg; This is Big = Is Big Data = Big Data AI = Data AI Book
    • Jaro–Winkler Distance: Eg; Sor Cristina López Garcias = Cristina Álvarez L. García
    • Fuzzy Wuzzy: Eg; John M. Pérez  vs. Perez Jon M

    *FUZZY LOGIC – La coincidencia aproximada es una técnica utilizada en la traducción asistida por computadora como un caso especial de vinculación de registros no exactos. Funciona con coincidencias que pueden ser menos del 100 % perfectas al encontrar correspondencias entre segmentos de un texto y entradas en una base de datos de iteraciones anteriores. Por lo general, opera en segmentos de comparaciones de registros con nuestra tecnología de fuzzy matching pueden encontrar la coincidencia a nivel de fr

A QUÉ SE REFIERE LA BÚSQUEDA DIFUSA?

En el proceso de búsqueda difusa se utilizan varias técnicas de Fuzzy Matching agrupando y filtrando los datos de los clientes según características de los usuarios, semejanzas y patrones (que se especifican desde el inicio). Y como resultado obtendrá, los posibles clientes coincidentes de interés y el la probabilidad de describe que el registro de un cliente se parezca a otro. 

A través de una interfaz el software adicional le permite interactuar con los resultados de la búsqueda difusa y, ubicar las relaciones menos obvias entre cientos de miles de registros y decidir qué hacer: vincular los registros o definir qué cliente combinar. A continuación podrá ver los resultados de la búsqueda de coincidencias difusas. 

Podrá encontrar un 95% de similitud entre “Nacional de Chocolates” y “Nacional de Chocolates S.A”, registros que puede fusionar, y a su vez escanear los otros registros de empresas similares. El profundizar cada registro (empresa y cliente) es una decisión autónoma, y de ahí perfilar y planificar la limpieza de datos, cumpliendo sus reglas de negocios para estandarizar cada entidad de cliente.

¿ES FIABLE EL FUZZY MATCHING?

Los parámetros tanto de la búsqueda difusa como el software deben ser adecuados para dar fiabilidad al Fuzzy Matching que disminuyan falsos positivos y negativos. Estos falsos positivos se dan cuando el software agrupa dos registros de clientes como coincidentes cuando no lo son y, un falso negativo es cuando a pesar de ser coincidentes el software los toma como distintos.

Los falsos positivos generan pérdida de tiempo en la búsqueda en registro irrelevantes, en tanto que los falsos generan duplicados (errores). Para evitarlos utilice un software fiable para perfilar anticipadamente los datos, establecer las reglas de negocios y los planes para la limpieza de datos y, concluir con una automatización fiable para limpiar los datos y cumplir sus objetivos. Contar con esta probabilidad baja que suceda un falso positivo o negativo, brinda la seguridad y satisfacción por parte de su software de Fuzzy Matching las necesidades de limpieza de datos.

Reflexiones finales:Las empresas de hoy en día tienen que darse cuenta que datos entran a sistemas desde diferente fuentes en tiempo real o en bloque y sin estructura universal y nada más a través de adopción herramientas que detecten coincidencias difusas se traduciran sus datos para una mejor toma de decisiones en toda la organización. Para ser relevante y competitivo, es necesario invertir en el software de coincidencia de datos adecuado.

¿Necesita ayuda con el emparejamiento de sus datos?

Comuníquese con nosotros y verá cómo podemos ayudarle a tener datos de calidad.

agendar naranja

MANUEL SUAREZ

Manuel Suarez es el Co-Fundador y CEO de Datos Maestros, una empresa líder en el campo de la gestión de datos maestros. Padre de 4 y apasionado por la tecnologia Big Data, ML, AI y mas.

Previous Limpieza de Datos definición