Día 2: Fallas encontradas (data, metadata, diccionario) (E2)

Este espacio está dedicado para compartir los avances de las actividades de este día.

Sobre las actividades, te dejamos una guía a continuación:

Para compartir los avances, cuéntanos lo siguiente:

  • Cuáles son esos 3 conjuntos de datos que seleccionaste para la detección de fallos.
  • En un párrafo cuéntanos qué defectos encontraste en la metadata y/o el diccionario de datos de esos 3 conjuntos de datos.
  • Cuál de esos 3 conjuntos de datos requieren proceso de limpieza. Cuéntanos un poco sobre qué campos/columnas contienen basura, y de qué tipo. campos/columnas contienen basura, y de qué tipo.

Marca el check :white_check_mark: cuando hayas realizado la actividad.

Estimados organizadores el Equipo 2-Metadata cumple con la consigna de este día acordando lo siguiente:

Los tres conjuntos de datos seleccionados para la detección de fallos son:

-Encuesta nacional de salud y nutrición – ENSANUT 2018
-Registro estadístico de defunciones generales – 2020
-MSP Nutrición

Qué defectos encontramos en la metadata y/o el diccionario de datos:

Encuesta Nacional de Salud y Nutrición – ENSANUT 2018: En la Metada de la base de datos abiertos ENSANUT 2018 cuenta con la descripción de la base, el identificador, la institución a cargo, el nombre, la fecha de creación, el correo del responsable y su respectiva etiqueta. Mostrando que la base de datos presenta lo necesario para identificar la base. Para nuestro parecer no está incompleta. En el Diccionario de Datos Cuenta con la descripción de todas las variables, pero no cuenta con el tipo de la variable, es decir, no habla si las variables no son o no variables nominales u ordinarias. Tampoco hablan de los roles de los ficheros, aunque si menciona el factor de expansión. Al diccionario le en todas las BdD le falta las columnas de nombre, pregunta y tipo de la variable. Sin embargo, en la columna “Descripción de la variable” tiene mezcladas el nombre de la variable y la pregunta de la encuesta. En la ‘’Descripción del campo” encontramos que se redunda con algunos detalles por ejemplo encontramos “región Región”. No está definida la NO EXISTENCIA de un dato con NaN o 9990. Algunos campos no dan una descripción clara de lo información que debe contener y nuestra base de datos presenta en la columna mayoritariamente campos vacíos. El diccionario contiene variables a preguntas abiertas, por ejemplo: ¿En dónde se hizo el papa Nicolau?". En el conjunto de datos INEC_DefuncionesGenerales_2020" en la metadata los archivos no están correctamente identificados. Después de abrir los archivos se identifica que el archivo ““inec_defuncionesgenerales_pm_2020.ods”” es el de metadata, y el ““inec_defuncionesgenerales_dd_2020.ods”” corresponde al diccionario. En la metadata convendría indicar que el signo de separación es el “”;"". En Excel la separación se hizo automáticamente, pero no así en OpenOffice. Si se coloca también la “”,"" como signo de separación, la base de datos se altera.". Desde el archivo de diccionario se evidencia que, aún existiendo datos categóricos, no se encuentran descritos los valores que la variable puede adoptar. En el mismo diccionario también se deja constancia que existen datos faltantes. De acuerdo con el diccionario, el campo "“causa 4"” se refiere al código de 4 caracteres que describe la causa de muerte, sin embargo, este campo incluye también la descripción del código (convendría que este sea un campo distinto) y algunos códigos tienen 3 caracteres o, en el caso de COVID-19, 8 caracteres, esto puede dificultar extraer el código. El comentario respecto al COVID aplica para los campos causa, causa103, causa80, causa67A, causa67B. En el conjunto de datos MSP Nutrición la metada está completa y consistente la información. Aunque se pudiera complementar con otros descriptores como: peso del infante, meses de nacido y estatura. Parece que falta data en algunos cantones, por ejemplo Pichincha solo se observa data del DMQ y faltan los otros cantones de esta Provincia. No se especifica si todos los niños atendidos “Atenciones” pertenecen al grupo de DCI, qué pasa si hay niños atendidos no precisamente con desnutrición. Falta el nombre del establecimiento de salud por Cantón, así se podría desagregar el número de atenciones por establecimiento. El Diccionario está sin errores.

Conjuntos de datos que requieren proceso de limpieza

En Encuesta Nacional de Salud y Nutrición – ENSANUT 2018: 8 de las BdD contienen columnas sin valores y 1 de ellas con columnas incompletas que se pueden imputar. Falta asignar valores numéricos a las categorías. Hay datos imcomprensibles con una variable respuesta con signo de interrogación. Hay variables redundantes: Tiene No tiene y Cuántas tienes. Se podría reducirlo a solo la de cuantas incluyendo una categoría 0. Las variables de respuesta no corresponden con la pregunta. Algunos campos se encuentran vacíos y no presentan indicios de lo que representan. Los datos no están escritos de una forma estándar algunos inician con mayúsculas otros completamente en minúsculas y las tildes se usan en algunos casos. Hay columnas que no son variables, si no que se ha colocado texto cualquiera de la redacción de la encuesta. En el conjunto de datos INEC_DefuncionesGenerales_2020: Una vez abierto el archivo de base de datos, en el campo prov_insc, 1421 registros (1,12% del total) están con datos vacíos; estos mismo registros no cuentan con información en los campos cant_insc, parr_insc, anio_insc, mes_insc, dia_insc, fecha_insc. En el diccionario no se indica lo que significa "“9999"” en el campo anio_nac, ni "“99"” en los campos mes_nac y dia_nac. Cuando el anio_nac corresponde a "“9999"”, por lo común no hay valor en fecha_nac, excepto en un caso, que se indica ““9999-99-99"”. De los campos que tienen la fecha de fallecimiento, se registran 7.998 valores en los que el valor que consta en el campo ““edad”” es distinto del campo que se origina de restar ““fecha_nac”” de ““fecha_fall”” (se creó una columna auxiliar R con el siguiente cálculo: =S31-ENTERO((M31-Q31)/365). En 99 registros, a pesar de no contar con fecha de nacimiento, se registra valor en el campo edad. Llama la atención que 57 de esos registros aparecen con ““edad”” de 99. Esto dista mucho de la distribución del resto de la base de datos, donde sólo el 0,46% registra edad de 99.” En el conjunto de datos MSP Nutrición no se requiere proceso de limpieza.

Conjunto de datos: Encuesta Nacional de Salud y Nutrición – ENSANUT 2018
METADATA
En la Metada de la base de datos abiertos ENSANUT 2018 cuenta con la descripción de la base, el identificador, la institución a cargo, el nombre, la fecha de creación, el correo del responsable y su respectiva etiqueta. Mostrando que la base de datos presenta lo necesario para identificar la base.

DICCIONARIO:
Cuenta con la descripción de todas las variables, pero no cuenta con el tipo de la variable, es decir, no habla si las variables no son o no variables nominales u ordinarias. Tampoco hablan de los roles de los ficheros, aunque si menciona el factor de expansión.

Conjunto de datos INEC_DefuncionesGenerales_2020
Metadata En las primeras 5 variables, que constan de numeracion, provincia, canton, parroquia, año, mes, dia y fecha ademas de la variable etnia se hallan datos perdidos, que para no obtener alteraciones necesitan un tratamiento, algunos registros resultan con datos atipicos o mal ingresados
Diccionario No especifica todos los valores que se encuentran en la bases de datos

La encuesta de ENSANUT 2018

MetaDatos

Completo y consistente la información.

Diccionario de Datos

  • Nombre del Campo: No se conoce ¿Cuál es la codificación del campo provincia? (1=?)
  • Campo f1_s2_3_2 no tiene la información completa.
  • Campo f1_s2_8 es recomendable presentar las opciones de este campo.
  • Campo f1_s2_9 es recomendable presentar las opciones de este campo.
  • Campo f1_s3_6 no se menciona la escala de tiempo (días-semanas-meses)
  • Campo f1_s3_10_2 No se conoce el significado de 5610
  • Campo f1_s3_11_2 No se conoce el significado de 7112

Procesamiento de limpieza

  • Existe casos de que la información tiene el sigo ¿ en la respuesta y se procede a eliminar.
  • En el caso de profesiones y títulos, existe repetido las profesiones y títulos universitarios.
  • No existe una homogenización de las respuestas; f1_s2_11 las respuestas son no y no tiene discapacidad.
  • Existe casos que no poseen información de varias variables.

Adicional a lo citado en el conjunto de datos INEC_DefuncionesGenerales_2020, el orden de las columnas del archivo de datos es diferente al de diccionario de datos, a partir de la columna 9 (sexo.).

Al diccionario le en todas las BdD le falta las columnas de nombre, pregunta y tipo de la variable.

INEC_DefuncionesGenerales_2020, en varios campos su contenido es “Sin información”, lo que dificulta la limpieza en especial en variables cualitativas, el número de registros con contenido especificado “Sin información” o vacíos es significativo.