Este espacio está dedicado para compartir los avances de las actividades de este día.
Sobre las actividades, te dejamos una guía a continuación:
Para compartir los avances, cuéntanos lo siguiente:
-
Cuáles son esos 3 conjuntos de datos que seleccionaste para la detección de fallos.
-
En un párrafo cuéntanos qué defectos encontraste en la metadata y/o el diccionario de datos de esos 3 conjuntos de datos.
-
Cuál de esos 3 conjuntos de datos requieren proceso de limpieza. Cuéntanos un poco sobre qué campos/columnas contienen basura, y de qué tipo. campos/columnas contienen basura, y de qué tipo.
Marca el check
cuando hayas realizado la actividad.
Buenas tardes.
A mi criterio deberíamos quedarnos con los siguientes conjuntos de datos:
Ensanut 2018
Ensanut 2012
MSP_ nutrición
Creo que esto permitirá analizar una misma temática pues los 3 conjuntos de datos tienen información sobre nutrición, que es una política pública prioritaria para el país.
Muchas gracias, Xiomara.
Apoyo que trabajemos con estos 3 conjuntos.
Saludos,
Susana.
A continuación envío los defectos encontrados en la metadata.
Al analizar la data dentro del conjunto Encuesta Nacional de Salud y Nutrición – ENSANUT 2018 descargo la base de datos: INEC_1_BDD_ENS2018_f1_personas_2018
Observaciones:
- No cuenta con un diccionario de datos.
- Campos como: f1_s4_16, f1_s4_16_ 1, f1_s4_16_2, dcronica, dglobal, daguda, dcronica_2 0 => se encuentran en su mayoría en blanco. Hay que considerar que al no saber que representan estos campos, quizá es “normal” que estén vacíos.
Otro análisis: en el conjunto Encuesta Nacional de Salud, Salud Reproductiva y Nutrición ENSANUT-2012. => Analizó INEC_ensanut_f1_personas.csv_2012.
Al igual que la anterior no tiene diccionario de datos, en esta base existe más campos en blanco a partir de la columna BU (nombre en Excel) a la columna IH.
A diferencia del análisis anterior los nombres de los campos no dan indicios de que información contienen, comienza la denominación desde pd00 a pps13.
Proceso de limpieza: He solicitado el diccionario de datos para ambos conjuntos, con ello se puede omitir las columnas que no sean relevantes para el estudio. Un punto a favor en ambos análisis, es que no tiene datos basura. Si existen filas con campos vacíos y se puede omitir.
1 me gusta
Y respecto a la base de MSP_Nutrición, al parecer no existen errores ni correcciones por hacer, la metadata, tanto como el diccionario y la propia base de datos están bien armadas, la metadata está detallada y el diccionario explica bien las variables que no se explican dentro de la base de datos