Día 3: Conjunto de datos seleccionado y motivaciones (E1)

Este espacio está dedicado para compartir los avances de las actividades de este día.

Sobre las actividades, te dejamos una guía a continuación:

Para compartir los avances, cuéntanos lo siguiente:

  • Cuáles son esos conjuntos de datos afortunadas que seleccionaste para trabajar.
  • Los conjuntos de datos seleccionados ¿necesitaron del proceso de limpieza? Cuéntanos cómo realizaste el proceso de limpieza, si conocías una herramienta para ello, o si utilizaste alguna recomendada en la mentoría. Comparte esa experiencia en un párrafo.

Marca el check :white_check_mark: cuando hayas realizado la actividad.

Vamos a utilizar las bases que seleccionamos en la actividad anterior y son las siguientes:

  1. MSP Vacunas Covid19
  2. Registro Nacional de Discapacidades
  3. Registro Estadístico de Defunciones Generales 2020

De las bases mencionadas las que no necesitaron ningún proceso de limpieza son la de MSP Vacunas Covid19 y Registro Nacional de Discapacidad es ya que cuentan con muy pocas variables y los registros están completos.

En el caso del Registro Estadístico de Defunciones Generales 2020, algunos campos si necesitaban un proceso de limpieza por lo que se realizó lo siguiente:

  • Para los campos o columnas de anio_nac,mes_nac,dia_nac, fecha_nac presentan valores 99 o 999 o coinciden con datos en blanco, en este caso se procedió a omitir estos registros para que a futuro no afecte nuestros análisis. En el caso de los campos prov_insc,cant_insc,parr_insc,anio_insc,mes_insc, dia_insc y fecha_insc, también se los omitió ya que los registros se encontraban vacíos en todos los campos.
  • No se utilizó ninguna técnica de imputación ya que existen campos vacíos y sin información, y cuando realicemos el análisis de las variables procederemos a omitir esos datos. Las herramientas que se usaron se encuentra Excel donde se reemplazo los datos vacíos con la denominación “Sin información” en campos categóricos y en los numéricos correspondientes se remplazo con “99” los campos de día y mes, año se remplazó con “9999” y finalmente para las fechas con “99-99-9999”, lo que índica que son campos que no fueron contestados. Las personas que sabían R lo hicieron en ese programa pero en general se usó Excel.