Este espacio está dedicado para compartir los avances de las actividades de este día.
Sobre las actividades, te dejamos una guía a continuación:
Para compartir los avances, cuéntanos lo siguiente:
-
Cuáles son esos conjuntos de datos afortunadas que seleccionaste para trabajar.
-
Los conjuntos de datos seleccionados ¿necesitaron del proceso de limpieza? Cuéntanos cómo realizaste el proceso de limpieza, si conocías una herramienta para ello, o si utilizaste alguna recomendada en la mentoría. Comparte esa experiencia en un párrafo.
Marca el check
cuando hayas realizado la actividad.
Vamos a utilizar las bases que seleccionamos en la actividad anterior y son las siguientes:
- MSP Vacunas Covid19
- Registro Nacional de Discapacidades
- Registro Estadístico de Defunciones Generales 2020
De las bases mencionadas las que no necesitaron ningún proceso de limpieza son la de MSP Vacunas Covid19 y Registro Nacional de Discapacidad es ya que cuentan con muy pocas variables y los registros están completos.
En el caso del Registro Estadístico de Defunciones Generales 2020, algunos campos si necesitaban un proceso de limpieza por lo que se realizó lo siguiente:
- Para los campos o columnas de anio_nac,mes_nac,dia_nac, fecha_nac presentan valores 99 o 999 o coinciden con datos en blanco, en este caso se procedió a omitir estos registros para que a futuro no afecte nuestros análisis. En el caso de los campos prov_insc,cant_insc,parr_insc,anio_insc,mes_insc, dia_insc y fecha_insc, también se los omitió ya que los registros se encontraban vacíos en todos los campos.
- No se utilizó ninguna técnica de imputación ya que existen campos vacíos y sin información, y cuando realicemos el análisis de las variables procederemos a omitir esos datos. Las herramientas que se usaron se encuentra Excel donde se reemplazo los datos vacíos con la denominación “Sin información” en campos categóricos y en los numéricos correspondientes se remplazo con “99” los campos de día y mes, año se remplazó con “9999” y finalmente para las fechas con “99-99-9999”, lo que índica que son campos que no fueron contestados. Las personas que sabían R lo hicieron en ese programa pero en general se usó Excel.