Saltar al contenido principal

Metodología y trazabilidad

Calidad de Datos

Calidad de los datos

La precisión y la cobertura son nuestra obsesión. Cada acto publicado en OpenMercantil debe poder trazarse al PDF oficial del BORME y reflejar fielmente su contenido. Aquí explicamos cómo lo medimos y cuáles son los márgenes de error declarados.

Métricas declaradas

  • Cobertura: 100% de los boletines diarios desde 2020-01-01.
  • Precisión CIF (Sección I): >98% (algoritmo de letra de control validado en cada CIF extraído).
  • Precisión razón social (Sección I): >96% (auditoría sobre muestreo aleatorio).
  • Precisión tipo de acto: >92% (clasificador con reglas + heurística textual).
  • Datos personales (cargos): >94% en nombramientos y ceses.

Auditoría continua

  • Diario: conteo de actos extraídos vs. esperados según índice del XML oficial.
  • Semanal: muestreo aleatorio de 100 actos por sección y comparación manual con el PDF.
  • Mensual: dump completo y validación cruzada con el dataset oficial de datos abiertos del BOE.

Causas habituales de error

  • OCR imperfecto en PDFs antiguos con escaneados de baja calidad.
  • Variaciones tipográficas en razón social entre actos de la misma empresa (resueltas con normalización + alias).
  • Actos compuestos (varios cambios en un solo acto) clasificados por el primario.
  • Provincias en transición tras cambio de domicilio social.

Reporte de errores

Si detectas un error de extracción, repórtalo en el canal de rectificación escribiendo a [email protected] e indicando:

  • URL exacta de la ficha donde aparece el error.
  • ID del acto en formato BORME-A-YYYY-NNN-NN.
  • Campo erróneo y valor correcto.
  • Opcional: enlace o captura del PDF oficial del BOE para contraste.

Confirmación de recepción en menos de 48 h hábiles. Corrección en el siguiente ciclo (24-72 h). Si el error afecta a otros actos similares por un fallo del parser, ajustamos el código y reprocesamos los actos comprometidos sin necesidad de que cada usuario reporte por separado.

Cómo verificar la calidad por ti mismo

OpenMercantil te permite contrastar todos los datos por dos vías independientes:

  • Enlace al PDF oficial del BOE en cada acto. Click en «Ver acto BORME» y comparas directamente con la fuente.
  • Histórico inmutable: una vez publicado, un acto no se reescribe en nuestra capa. Si hay corrección, se añade una entrada nueva y se vincula a la anterior.
  • API REST sin clave: /api/v1/company/{slug} devuelve JSON con la misma información estructurada que las fichas. Puedes scraperlo y construir tu propio sistema de validación.
  • Datasets descargables en /descargas con muestras gratuitas para audit independiente.

Niveles de confianza por sección del BORME

El BORME se publica en tres secciones con distintos niveles de complejidad. Nuestra precisión varía consecuentemente:

  • Sección I (Empresarios) — máxima precisión. Estructura repetitiva y predecible. Tasas de extracción superiores al 96% en CIF, razón social y tipo de acto.
  • Sección II (Anuncios) — precisión alta. Anuncios de constituciones, modificaciones y disoluciones. ~94% en datos clave.
  • Sección III (Otros anuncios oficiales) — precisión media. Texto libre, fusiones complejas, escisiones. ~88% en datos clave; mayor probabilidad de revisión manual.

Compromiso de transparencia

Si encontramos un error sistémico que afecta a un volumen significativo de actos, lo publicamos en /status con detalle de su alcance, causa y plan de corrección. Creemos que la transparencia sobre los propios errores es la mejor forma de generar confianza en un dataset abierto.