En la temática EDUCACIÓN se determinó fallas en el siguiente conjunto de datos y consecuente limpieza:
- Primer conjunto de datos: Becas (Educación), senescyt_becas_2022febrero:
Se analizó anteriormente los datos, se tiene una idea general de su estructura (número de variables, observaciones, tipo de dato, etc). Se procedió a analizar las variables cuantitativas y cuanlitativas:
-En la variable “ID ÚNICO” se encontraron varios códigos repetidos, que correspondían a diferentes individuos porque los géneros, fechas y lugar de nacimiento eran diferentes para todos estos códigos únicos repetidos.
-Se reemplazaron las categorías que hacen alusión a la misma información, por ejemplo “NO”=No, “9”=“9%”. Hay una variable que posee intervalos como 51-70, y valores discretos como 40, así que se reemplaza los valores discretos por los intervalos correspondientes.
-Se contaron los valores perdidos. Se eliminaron las observaciones perdidas de 2 variables (10 obs. de 42116 obs.) y los valores perdidos restantes (1072) de las variables “TIPO DISCAPACIDAD” y “PORCENTAJE DISCAPACIDAD” fueron reemplazados por “0” puesto que estos datos perdidos coincidían con observaciones que no tenían discapacidad.
-Se descartaron las variables: ID UNICO, CANTON NACIMIENTO, CANTÓN RESIDENCIA, puesto no aportarán al análisis que se prevé generar (nota: se utilizó phyton para el análisis).
Adicional en la base senescyt_becas_2022febrero como senescyt_becas_dd_2021septiembre, del tema becas. Se determinaron las siguiente observaciones para limpieza de base y omisión de sus filas correspondiente según caracter:
-TIPO DISCAPACIDAD: caracter “-” y “(vacío)”.
-PORCENTAJE DISCAPACIDAD con caracter “ningún valor”.
-CONVOCATORIA con caracter “-”.
-Celdas vacías reemplazados por dígito 0.