Gestion de Datos de Test

Yuri Kan

Gestion de Datos de Test

Aprende estrategias de gestion de test data: datos sinteticos, datos de produccion enmascarados, data factories y limpieza. Maneja compliance de privacidad.

Respuesta rápida

Gestion de Datos de Test cubre habilidades esenciales de QA — después de esta lección podrás disenar una estrategia de test data cubriendo creacion, almacenamiento y limpieza.

— Yuri Kan, Senior QA Lead

Lo Que Aprenderás

Disenar una estrategia de test data cubriendo creacion, almacenamiento y limpieza
Elegir entre datos sinteticos, datos de produccion enmascarados y data factories
Identificar requisitos de privacidad y riesgos de compliance en test data

Tabla de contenido

El Problema del Test Data

Cada test necesita datos — cuentas de usuario, productos, transacciones, configuraciones. De donde vienen estos datos, como se gestionan y como se limpian determina si tu testing es confiable o plagado de resultados impredecibles.

Problemas comunes:

Conflictos de datos compartidos — dos testers usan la misma cuenta simultaneamente
Datos obsoletos — test data no coincide con el schema actual
Violaciones de privacidad — datos reales de clientes en entornos no productivos
Contaminacion del entorno — datos residuales causan comportamiento inesperado
Valores hard-coded — test cases se rompen cuando registros especificos cambian

Fuentes de Test Data

1. Datos Sinteticos (Generados)

Crear datos artificiales que imitan patrones de produccion sin contener informacion real.

Herramientas: Faker (Python/JS/Ruby), Bogus (.NET), JavaFaker, Mockaroo (web)

from faker import Faker
fake = Faker('es_MX')  # Datos en español latinoamericano

usuario = {
    "nombre": fake.name(),
    "email": fake.email(),
    "telefono": fake.phone_number(),
    "direccion": fake.address(),
    "fecha_nacimiento": fake.date_of_birth(minimum_age=18, maximum_age=80)
}

Pros: Sin preocupaciones de privacidad, volumen ilimitado, reproducible con seeds Contras: Puede no reflejar patrones reales, edge cases pueden perderse

2. Datos de Produccion Enmascarados

Copiar datos de produccion y reemplazar campos sensibles con valores ficticios preservando relaciones y distribuciones.

Que enmascarar:

Nombres, emails, telefonos
Direcciones, direcciones IP
Numeros de tarjeta, cuentas bancarias
Numeros de seguro social, identificaciones nacionales
Registros de salud, datos financieros

Tecnicas de masking:

Sustitucion — reemplazar nombres reales con ficticios
Shuffling — reorganizar valores dentro de una columna
Encriptacion — encriptar campos sensibles
Nulling — reemplazar con NULL o valores default
Desplazamiento de fechas — desplazar fechas por un offset aleatorio

Pros: Distribuciones y relaciones realistas, volumenes adecuados Contras: Proceso de masking requiere mantenimiento

3. Data Factories

Patrones programaticos que crean test data bajo demanda con atributos configurables.

function createUser(overrides = {}) {
  return {
    id: generateUUID(),
    name: faker.name(),
    email: faker.email(),
    role: "user",
    status: "active",
    createdAt: new Date(),
    ...overrides
  };
}

const adminUser = createUser({ role: "admin" });
const inactiveUser = createUser({ status: "inactive" });

Pros: Consistente, auto-documentado, solo crea lo necesario Contras: Requiere esfuerzo de desarrollo, debe mantenerse con cambios de schema

4. Fixtures y Seed Data

Datasets predefinidos cargados antes de la ejecucion de tests.

Pros: Predecibles, versionados Contras: Pueden volverse obsoletos, dificiles de mantener a escala

Estrategia de Test Data

Aislamiento de Datos

Cada test debe crear sus propios datos y no depender de datos creados por otros tests.

Anti-patron: “Ejecuta Test A primero porque Test B necesita la cuenta que Test A crea.”

Mejor practica: Cada test crea los datos en setup, los usa y los limpia en teardown.

Ciclo de Vida de Datos

Crear → Usar → Verificar → Limpiar

Consideraciones por Entorno

Entorno	Fuente de Datos	Volumen	Privacidad
Unit tests	Factories/mocks	Minimo	N/A
Integracion	Factories + fixtures	Moderado	Solo sintetico
QA/Staging	Produccion enmascarada	Completo	Anonimizado
Rendimiento	Datos enmascarados escalados	Como produccion	Anonimizado

Ejercicio: Disena una Estrategia de Test Data

Eres QA Lead para una aplicacion de salud que gestiona registros de pacientes, citas, recetas y reclamos de seguro. Disena una estrategia completa:

Que datos generar y que enmascarar de produccion
Como manejar requisitos de compliance HIPAA
Patrones de data factory para escenarios mas comunes
Enfoque de limpieza para entornos de test

Solucion

1. Fuentes de Datos:

Sintetico: Demograficos de pacientes, slots de citas, catalogo de medicamentos
Produccion enmascarada: Distribuciones de enfermedades, patrones de recetas, workflows de procesamiento de claims
Generado por API: Respuestas de verificacion de seguro (mock de APIs externas)

2. Compliance HIPAA:

Nunca usar nombres reales, SSN, DOB o numeros de registro medico en entornos de test
Masking consistente: Nombres → Faker, SSN → encriptacion preservando formato, DOB → desplazamiento ±365 dias
Audit trail: Registrar quien accedio a test data y cuando
Controles de acceso: Entornos de test requieren misma autenticacion que produccion
Retencion: Auto-borrar test data mayor a 90 dias

3. Data Factories:

createPatient({ age, conditions, insuranceType })
createAppointment({ patient, doctor, type, date })
createPrescription({ patient, medication, dosage })
createClaim({ appointment, amount, status })

Factories generan datos referencialmente consistentes
Estados configurables: claims pendientes, aprobados, rechazados

4. Limpieza:

Transaction rollback para tests de BD
Endpoints de limpieza API (DELETE /test-data/{testRunId})
Reset nocturno: Restaurar de snapshot baseline conocido
Cada test etiquetado con testRunId para limpieza selectiva

Privacidad y Compliance

Derecho al olvido aplica incluso a test data si se usaron datos reales
Minimizacion de datos: Solo crear lo necesario
Documentar que datos personales existen en entornos de test

PCI DSS para Pagos

Nunca usar numeros reales de tarjeta de credito en entornos de test
Usar numeros de test proporcionados por procesadores de pago

Puntos Clave

Nunca usar datos crudos de produccion — anonimizar o generar sinteticos
Usar data factories para creacion consistente y auto-documentada
Cada test crea sus datos y limpia despues
Considerar regulaciones de privacidad (GDPR, HIPAA, PCI DSS)
Enmascarar datos de produccion por sustitucion, shuffling o encriptacion
Automatizar limpieza para prevenir contaminacion y tests flaky

Prueba de Conocimiento

1. Por que nunca se debe usar datos de produccion directamente en entornos de test?

2. Que es el patron data factory en testing?

3. Que debe pasar con el test data despues de la ejecucion del test?

Preguntas frecuentes

Que es gestion de datos de test?

Gestion de Datos de Test es un concepto clave en Documentacion de Testing. Esta leccion te ensena a disenar una estrategia de test data cubriendo creacion, almacenamiento y limpieza, proporcionando habilidades practicas aplicables inmediatamente.

Como aplico gestion de datos de test en proyectos reales?

Comienza practicando las tecnicas principales de esta leccion. Especificamente, deberias elegir entre datos sinteticos, datos de produccion enmascarados y data factories. Aplica estas habilidades en tu proyecto actual para ver resultados inmediatos.

Por que es importante gestion de datos de test para ingenieros QA?

Gestion de Datos de Test es una habilidad central que los empleadores buscan en profesionales QA. Impacta directamente en la cobertura de pruebas, deteccion de defectos y eficiencia del equipo. Dominarlo fortalece tus capacidades en Documentacion de Testing.

Que debo saber antes de aprender gestion de datos de test?

Debes tener conocimientos basicos de fundamentos de testing de software. La familiaridad con gestion test data sera util, pero la leccion incluye secciones de repaso.

Como ayuda gestion de datos de test a mi carrera en QA?

El conocimiento de gestion de datos de test se menciona frecuentemente en descripciones de puestos QA y entrevistas. Demuestra experiencia en gestion test data, estrategia test data y muestra que puedes contribuir profesionalmente al aseguramiento de calidad.

Lecturas Adicionales Test Data Management: Estrategias y Mejores Prácticas → Documentación de Datos de Prueba: Catalogación y Gestión de Activos de Testing → Gestión de Datos de Prueba en Pipelines DevOps: Sincronización, Enmascaramiento y Versionado →

Gestion de Datos de Test

Lo Que Aprenderás

El Problema del Test Data #

Fuentes de Test Data #

1. Datos Sinteticos (Generados) #

2. Datos de Produccion Enmascarados #

3. Data Factories #

4. Fixtures y Seed Data #

Estrategia de Test Data #

Aislamiento de Datos #

Ciclo de Vida de Datos #

Consideraciones por Entorno #

Ejercicio: Disena una Estrategia de Test Data #

Privacidad y Compliance #

Consideraciones GDPR #

PCI DSS para Pagos #

Puntos Clave #

Prueba de Conocimiento

Preguntas frecuentes

El Problema del Test Data

Fuentes de Test Data

1. Datos Sinteticos (Generados)

2. Datos de Produccion Enmascarados

3. Data Factories

4. Fixtures y Seed Data

Estrategia de Test Data

Aislamiento de Datos

Ciclo de Vida de Datos

Consideraciones por Entorno

Ejercicio: Disena una Estrategia de Test Data

Privacidad y Compliance

Consideraciones GDPR

PCI DSS para Pagos

Puntos Clave