Dia 2: Fallas encontradas (data, metadata, diccionario) (E1)

Este espacio está dedicado para compartir los avances de las actividades de este día.

Sobre las actividades, te dejamos una guía a continuación:

Para compartir los avances, cuéntanos lo siguiente:

  • Cuáles son esos 3 conjuntos de datos que seleccionaste para la detección de fallos.
  • En un párrafo cuéntanos qué defectos encontraste en la metadata y/o el diccionario de datos de esos 3 conjuntos de datos.
  • Cuál de esos 3 conjuntos de datos requieren proceso de limpieza. Cuéntanos un poco sobre qué campos/columnas contienen basura, y de qué tipo. campos/columnas contienen basura, y de qué tipo.

Marca el check :white_check_mark: cuando hayas realizado la actividad.

Los conjuntos de datos utilizados para el análisis son:
1. Registro Nacional de Discapacidades:
La base es proporcionada por la CONADIS y la última actualización fue el 10 de diciembre de 2021. Si cuenta con los 3 archivos la base que esta en formato CSV, el archivo Metadatos y el Diccionario de Datos.
El Diccionario de datos solo cuenta con 6 variables y su respectiva descripción, la descripción si es entendible. El archivo Metadatos si cuenta con la descripción de la organización responsable de crear la base.
La Data no se necesita depurarse por el motivo que tiene pocas variables. No cuenta con datos perdidos, carece de una Kay para identificar, la edad es un rango general y no especifica la edad de la persona. Aunque en la columna que dice discapacidad existe un registro vacío.

2. MSP Vacunas Covid 19:
La base es proporcionada por el MSP y la última actualización fue el 19 de noviembre del 2021. Si cuenta con los 3 archivos la base que esta en formato CSV, el archivo Metadatos y el Diccionario de Datos.
El archivo de Metadatos cuenta con la información del MSP y una breve descripción de la base. El Diccionario de datos solo cuenta con 8 variables es entendible la descripción de cada campo. Aunque, en la primera y segunda, pues se refiere en singular a la primera y segunda dosis aplicada por tipo de vacunas, sin especificar que estos indicadores se refieren al numero de dosis aplicadas a diferentes personas en determinadas fechas.

La Data nos parece que carece de variables cómo conocer los lugares de vacunación, a parte parece como que estuviera depurada, porque al ponerte la vacuna tomaban los datos personales, otro punto es que esta realizado un conteo por grupo de edades, zona y el nombre de la vacuna.

3. Registro Estadístico de Defunciones Generales
La base es proporcionada por la INEC y la última actualización fue el 29 de septiembre de 2021. Si cuenta con los 3 archivos la base que esta en formato CSV, el archivo Metadatos y el Diccionario de Datos.

El archivo de Metadatos cuenta con la información del INEC y una breve descripción de la base. El Diccionario de datos indica que contiene 45 variables y es entendible la descripción de cada campo. Sin embargo, en el casillero 14 de la columna de descripciones se acuña el termino de nac_fall para describir nacionalidad pero columnas abajo se usa estos mismo términos para definir nacimiento o fallecimiento siendo una descripción incoherente pata describir la abreviatura de la descripción,
igual el casillero 43 lc1 La abreviatura puede causar que el dato sea complicado de entender, ubicar y retener.

La Data nos parece la más completa de las otras dos bases, cuenta con la zona ya sea urbana o rural, la causa de la muerte también considera al covid19, si tiene unas cuantas celdas vacías, pero es precisa con los datos.

El conjunto de datos que requiere limpieza es:
3. Registro Estadístico de Defunciones Generales -2020
En esta base si es necesario un proceso de limpieza y tratamiento de los datos en los campos de: anio_nac, mes_nac, dia_nac, fecha_nac ya que, presentan campos vacíos o donde se registran 99 o 999 que significa que no respondieron. En el campo de autopsia existen datos que se encuentran con las palabras “sin información”. También existen columnas como prov_insc,cant_insc,parr_insc,anio_insc,mes_insc,dia_insc y fecha_insc que se encuentran vacíos pero poseen información en las columnas restantes.

En el resto de bases no es necesario ya que son pocos campos y están completos.