Día 3: Conjunto de datos seleccionado y razones (E8)

Este espacio está dedicado para compartir los avances de las actividades de este día.

Sobre las actividades, te dejamos una guía a continuación:

Para compartir los avances, cuéntanos lo siguiente:

  • Cuáles son esos conjuntos de datos afortunadas que seleccionaste para trabajar.
  • Los conjuntos de datos seleccionados ¿necesitaron del proceso de limpieza? Cuéntanos cómo realizaste el proceso de limpieza, si conocías una herramienta para ello, o si utilizaste alguna recomendada en la mentoría. Comparte esa experiencia en un párrafo.

Marca el check :white_check_mark: cuando hayas realizado la actividad.

1 me gusta

En la temática EDUCACIÓN se determinó fallas en el siguiente conjunto de datos y consecuente limpieza:

  • Primer conjunto de datos: Becas (Educación), senescyt_becas_2022febrero:

Se analizó anteriormente los datos, se tiene una idea general de su estructura (número de variables, observaciones, tipo de dato, etc). Se procedió a analizar las variables cuantitativas y cuanlitativas:

-En la variable “ID ÚNICO” se encontraron varios códigos repetidos, que correspondían a diferentes individuos porque los géneros, fechas y lugar de nacimiento eran diferentes para todos estos códigos únicos repetidos.

-Se reemplazaron las categorías que hacen alusión a la misma información, por ejemplo “NO”=No, “9”=“9%”. Hay una variable que posee intervalos como 51-70, y valores discretos como 40, así que se reemplaza los valores discretos por los intervalos correspondientes.

-Se contaron los valores perdidos. Se eliminaron las observaciones perdidas de 2 variables (10 obs. de 42116 obs.) y los valores perdidos restantes (1072) de las variables “TIPO DISCAPACIDAD” y “PORCENTAJE DISCAPACIDAD” fueron reemplazados por “0” puesto que estos datos perdidos coincidían con observaciones que no tenían discapacidad.

-Se descartaron las variables: ID UNICO, CANTON NACIMIENTO, CANTÓN RESIDENCIA, puesto no aportarán al análisis que se prevé generar (nota: se utilizó phyton para el análisis).

Adicional en la base senescyt_becas_2022febrero como senescyt_becas_dd_2021septiembre, del tema becas. Se determinaron las siguiente observaciones para limpieza de base y omisión de sus filas correspondiente según caracter:

-TIPO DISCAPACIDAD: caracter “-” y “(vacío)”.

-PORCENTAJE DISCAPACIDAD con caracter “ningún valor”.

-CONVOCATORIA con caracter “-”.

-Celdas vacías reemplazados por dígito 0.

1 me gusta