Este espacio está dedicado para compartir los avances de las actividades de este día.
Sobre las actividades, te dejamos una guía a continuación:
Para compartir los avances, cuéntanos lo siguiente:
-
Cuáles son esos conjuntos de datos afortunadas que seleccionaste para trabajar.
-
Los conjuntos de datos seleccionados ¿necesitaron del proceso de limpieza? Cuéntanos cómo realizaste el proceso de limpieza, si conocías una herramienta para ello, o si utilizaste alguna recomendada en la mentoría. Comparte esa experiencia en un párrafo.
Marca el check
cuando hayas realizado la actividad.
El equipo de trabajo decidió trabajar la siguientes bases de datos:
- Teletrabajo.
Base del año 2021
- se va realizar un trabajo de identificar la importancia de la participación de la mujer en el teletrabajo por provincia.
- del mismo modo se va a identificar la distribución por genero del teletrabajo por sector de actividad económica.
- Impuestos
- impactos del COVID-19 en la recaudación de los impuestos a la renta e IVA a nivel provincial. Para el efecto se va a trabajar en las bases del año 2019 y 2021
- Registro de Estadística
- se realizará un análisis de la dotación de médicos epidemiólogos pre-pandemia.
Con estos objetivos cada integrante va a realizar la tarea de la “limpieza” y preparación de sus respectivas bases con el objeto de tenerlas preparadas para proceder con la siguiente etapa. En un primer momento se observó que posiblemente la base que más “limpieza” requiere es la del Registro estadístico, en especial por las complicaciones identificadas en el análisis de correspondencia entre el diccionario y la base.
El trabajo será realizado por cada uno de los integrantes del equipo que ha participado en las reuniones.
2 Me gusta
El archivo Teletrabajo cuenta con una FichaMetodologicaTeletrabajo en formato PDF actualizada al 12 de abril de 2022. Esta ficha es informativa respecto a la metodología utilizada.
Hay un archivo CSV llamado MDT_Teletrabajo_2022Mayo actualizado el 7 de junio de 2022 el cual cuenta con 46064 observaciones y 15 variables. La base de datos contiene 6856 valores perdidos.
Podemos detectar esos valores en R con el código sum(is.na(teletrabajo))
Contamos con 39208 observaciones (filas) completas que no presentan valores NA, podemos utilizar la siguiente línea de código en R: sum(complete.cases(teletrabajo))
Los valores perdidos se los puede someter a un proceso de análisis e imputación.
Saludos cordiales,