Estimados organizadores el Equipo 2-Metadata cumple con la consigna de este día acordando lo siguiente:
Los tres conjuntos de datos seleccionados para la detección de fallos son:
-Encuesta nacional de salud y nutrición – ENSANUT 2018
-Registro estadístico de defunciones generales – 2020
-MSP Nutrición
Qué defectos encontramos en la metadata y/o el diccionario de datos:
Encuesta Nacional de Salud y Nutrición – ENSANUT 2018: En la Metada de la base de datos abiertos ENSANUT 2018 cuenta con la descripción de la base, el identificador, la institución a cargo, el nombre, la fecha de creación, el correo del responsable y su respectiva etiqueta. Mostrando que la base de datos presenta lo necesario para identificar la base. Para nuestro parecer no está incompleta. En el Diccionario de Datos Cuenta con la descripción de todas las variables, pero no cuenta con el tipo de la variable, es decir, no habla si las variables no son o no variables nominales u ordinarias. Tampoco hablan de los roles de los ficheros, aunque si menciona el factor de expansión. Al diccionario le en todas las BdD le falta las columnas de nombre, pregunta y tipo de la variable. Sin embargo, en la columna “Descripción de la variable” tiene mezcladas el nombre de la variable y la pregunta de la encuesta. En la ‘’Descripción del campo” encontramos que se redunda con algunos detalles por ejemplo encontramos “región Región”. No está definida la NO EXISTENCIA de un dato con NaN o 9990. Algunos campos no dan una descripción clara de lo información que debe contener y nuestra base de datos presenta en la columna mayoritariamente campos vacíos. El diccionario contiene variables a preguntas abiertas, por ejemplo: ¿En dónde se hizo el papa Nicolau?". En el conjunto de datos INEC_DefuncionesGenerales_2020" en la metadata los archivos no están correctamente identificados. Después de abrir los archivos se identifica que el archivo ““inec_defuncionesgenerales_pm_2020.ods”” es el de metadata, y el ““inec_defuncionesgenerales_dd_2020.ods”” corresponde al diccionario. En la metadata convendría indicar que el signo de separación es el “”;"". En Excel la separación se hizo automáticamente, pero no así en OpenOffice. Si se coloca también la “”,"" como signo de separación, la base de datos se altera.". Desde el archivo de diccionario se evidencia que, aún existiendo datos categóricos, no se encuentran descritos los valores que la variable puede adoptar. En el mismo diccionario también se deja constancia que existen datos faltantes. De acuerdo con el diccionario, el campo "“causa 4"” se refiere al código de 4 caracteres que describe la causa de muerte, sin embargo, este campo incluye también la descripción del código (convendría que este sea un campo distinto) y algunos códigos tienen 3 caracteres o, en el caso de COVID-19, 8 caracteres, esto puede dificultar extraer el código. El comentario respecto al COVID aplica para los campos causa, causa103, causa80, causa67A, causa67B. En el conjunto de datos MSP Nutrición la metada está completa y consistente la información. Aunque se pudiera complementar con otros descriptores como: peso del infante, meses de nacido y estatura. Parece que falta data en algunos cantones, por ejemplo Pichincha solo se observa data del DMQ y faltan los otros cantones de esta Provincia. No se especifica si todos los niños atendidos “Atenciones” pertenecen al grupo de DCI, qué pasa si hay niños atendidos no precisamente con desnutrición. Falta el nombre del establecimiento de salud por Cantón, así se podría desagregar el número de atenciones por establecimiento. El Diccionario está sin errores.
Conjuntos de datos que requieren proceso de limpieza
En Encuesta Nacional de Salud y Nutrición – ENSANUT 2018: 8 de las BdD contienen columnas sin valores y 1 de ellas con columnas incompletas que se pueden imputar. Falta asignar valores numéricos a las categorías. Hay datos imcomprensibles con una variable respuesta con signo de interrogación. Hay variables redundantes: Tiene No tiene y Cuántas tienes. Se podría reducirlo a solo la de cuantas incluyendo una categoría 0. Las variables de respuesta no corresponden con la pregunta. Algunos campos se encuentran vacíos y no presentan indicios de lo que representan. Los datos no están escritos de una forma estándar algunos inician con mayúsculas otros completamente en minúsculas y las tildes se usan en algunos casos. Hay columnas que no son variables, si no que se ha colocado texto cualquiera de la redacción de la encuesta. En el conjunto de datos INEC_DefuncionesGenerales_2020: Una vez abierto el archivo de base de datos, en el campo prov_insc, 1421 registros (1,12% del total) están con datos vacíos; estos mismo registros no cuentan con información en los campos cant_insc, parr_insc, anio_insc, mes_insc, dia_insc, fecha_insc. En el diccionario no se indica lo que significa "“9999"” en el campo anio_nac, ni "“99"” en los campos mes_nac y dia_nac. Cuando el anio_nac corresponde a "“9999"”, por lo común no hay valor en fecha_nac, excepto en un caso, que se indica ““9999-99-99"”. De los campos que tienen la fecha de fallecimiento, se registran 7.998 valores en los que el valor que consta en el campo ““edad”” es distinto del campo que se origina de restar ““fecha_nac”” de ““fecha_fall”” (se creó una columna auxiliar R con el siguiente cálculo: =S31-ENTERO((M31-Q31)/365). En 99 registros, a pesar de no contar con fecha de nacimiento, se registra valor en el campo edad. Llama la atención que 57 de esos registros aparecen con ““edad”” de 99. Esto dista mucho de la distribución del resto de la base de datos, donde sólo el 0,46% registra edad de 99.” En el conjunto de datos MSP Nutrición no se requiere proceso de limpieza.