Por término medio, las empresas tienen unas 400 fuentes de datos diferentes. Las empresas están literalmente ahogadas en datos, especialmente en datos duplicados. Existen múltiples formas de crear datos duplicados, de las cuales algunas de las más comunes son:
Un usuario que introduce sus datos varias veces a través de diferentes canales: Alguien puede registrarse utilizando varios correos electrónicos, lo que hace que se infle el número de usuarios. Una empresa puede pensar que tiene 10 nuevas inscripciones cuando en realidad sólo tiene tres. Un usuario puede tener varios nombres y apodos. Por ejemplo, J.C. Sánchez puede ser también Juan Sánchez o Juan Camilo Sánchez. El Sr. Sánchez puede introducir su nombre como J.C. Sánchez en un formulario web, pero cuando se convierte en un cliente de pago y se requiere información de facturación, su nombre puede quedar registrado en el CRM de la empresa de forma completa.
En este ejemplo concreto, el registro de J.C. Sánchez se ha duplicado en dos fuentes de datos diferentes que también utilizan dos departamentos distintos.
Fallos técnicos o procesos en las bases de datos y fuentes de datos que pueden dar lugar a la duplicación de datos.
Duplicaciones parciales creadas por errores humanos: cuando un representante de ventas o un representante de atención al cliente introducen la información manualmente, por ejemplo.
Esto provoca un desajuste aunque los registros contengan el mismo nombre o número de teléfono. Un error ortográfico, la dificultad para registrar nombres no latinos y otros casos similares pueden crear duplicados. Los duplicados parciales son los más difíciles de superar, especialmente porque no se detectan durante un proceso normal de depuración.
La duplicación de datos se produce principalmente por la falta de gobernanza de los datos y la mala gestión de los mismos. A medida que las organizaciones crecen, se centran simplemente en recopilar datos. Más clientes potenciales, más compradores, más ventas. Se utilizan métricas de vanidad para medir el éxito.
Si las empresas ordenaran realmente sus datos, verían una diferencia drástica entre lo que creen que tienen y lo que realmente tienen.
¿En qué consisten exactamente los datos deficientes? Pues bien, si sus datos presentan:
- Errores humanos, como faltas de ortografía, errores tipográficos, problemas de mayúsculas y minúsculas, falta de coherencia en las convenciones de nomenclatura en todo el conjunto de datos.
- Formato de datos incoherente en todo el conjunto de datos, como números de teléfono con y sin código de país o números con puntuación.
- Datos de direcciones no válidos o incompletos, con falta de nombres de calles o códigos postales
- Nombres, direcciones o números de teléfono falsos
entonces se considera que son datos defectuosos, estas cuestiones se consideran superficiales y son inevitables y universales; Mientras haya seres humanos formulando e introduciendo los datos, se producirán errores.
Sin embargo, la mala calidad de los datos va más allá de los problemas superficiales. Si los datos están aislados, son de difícil acceso y están duplicados, tenemos serios problemas. De hecho, la duplicación de datos es un reto clave que la mayoría de las organizaciones encuentran difícil de abordar.