Este espacio está dedicado para compartir los avances de las actividades de este día.
Sobre las actividades, te dejamos una guía a continuación:
Para compartir los avances, cuéntanos lo siguiente:
Cuáles son esos 3 conjuntos de datos que seleccionaste para la detección de fallos.
En un párrafo cuéntanos qué defectos encontraste en la metadata y/o el diccionario de datos de esos 3 conjuntos de datos.
Cuál de esos 3 conjuntos de datos requieren proceso de limpieza. Cuéntanos un poco sobre qué campos/columnas contienen basura, y de qué tipo. campos/columnas contienen basura, y de qué tipo.
Marca el check cuando hayas realizado la actividad.
Buenas tardes, con base en lo indicado se seleccionó de los 10 conjuntos de datos seleccionados en el día 1 los siguientes 3 conjuntos de datos:
Registro Estadístico de Defunciones Generales-2020
MSP_Vacuna Covid 19
Registro Nacional de Discapacidades
Para los grupos de datos denominados: MSP_Vacuna Covid 19 y Registro Nacional de Discapacidades no se encuentra defectos ni en la metadata ni en el diccionario de datos, mientras que para el grupo de datos llamado Registro Estadístico de Defunciones Generales-2020 se detalla lo siguiente:
Del total de registros 117030 se encuentra:
registros sin provincia1421
campo etnia existen 1666 registros en blanco en el campo etnia y también registran 8105 registros con la etiqueta sin informacion, estos dos grupos se deberían juntar?
campo niv_inst existen 3246 registros en blanco en el campo nivel de instrucción y también registran 9248 registros con la etiqueta sin informacion, estos dos grupos se deberían juntar?
campo sabe_leer existen 3446 registros en blanco en el campo sabe_leer y también registran 10133 registros con la etiqueta sin informacion, estos dos grupos se deberían juntar?
camp autopsia existen 4761 registros en blanco en el campo autopsia y también registran 49368 registros con la etiqueta sin informacion, estos dos grupos se deberían juntar?
campo causa4 existen algunos códigos sin descripción tales como C799
campo lug_violexisten 108884 registros en blanco y también registran 3632 registros con la etiqueta sin informacion
También llama la atención que en el anio_fall hay años en los cuales no resistran defunciones por ejemplo en el año 1984.
Respecto del diccionario de datos existe campo muj_fertil, sin embargo el mismo no existe en la data