Dia 2: Fallas encontradas (data, metadata, diccionario) (E5)

Este espacio está dedicado para compartir los avances de las actividades de este día.

Sobre las actividades, te dejamos una guía a continuación:

Para compartir los avances, cuéntanos lo siguiente:

  • Cuáles son esos 3 conjuntos de datos que seleccionaste para la detección de fallos.
  • En un párrafo cuéntanos qué defectos encontraste en la metadata y/o el diccionario de datos de esos 3 conjuntos de datos.
  • Cuál de esos 3 conjuntos de datos requieren proceso de limpieza. Cuéntanos un poco sobre qué campos/columnas contienen basura, y de qué tipo. campos/columnas contienen basura, y de qué tipo.

Marca el check :white_check_mark: cuando hayas realizado la actividad.

Estimados compañeros a continuación presento una propuesta sobre la actividad del día 2, tomando como base que para estudiar los datos,
primero se debe establecer el objetivo de estudio o que es lo que se desea analizar:

Antecedente

En todo el mundo, sólo el 33 % del personal de investigación está compuesto por mujeres.
Además, reciben menos fondos de investigación que los hombres, y tienen menos probabilidades de lograr un ascenso.
En el sector privado se observa una situación similar, las mujeres ocupan menos cargos directivos
en las empresas y puestos técnicos en las industrias tecnológicas. Las mujeres representan tan sólo
el 22 % de las y los profesionales que trabajan en el campo de la inteligencia artificial y el 28 %
de las personas graduadas en ingeniería. Esta evidente subrepresentación de las mujeres limita nuestra
capacidad para encontrar soluciones sostenibles e inclusivas a los problemas modernos y construir
una mejor sociedad para todas las personas. (https://ecuador.unwomen.org/es/en-la-mira-dia-internacional-de-las-mujeres-y-las-ninas-en-la-ciencia-2022)

En referencia a este antecedente deseo conocer como se encuentra la población femenina del país
con respecto a la ciencia y la tecnología, especificamente cual es la incidencia de las mujeres en el
país en el ambiente de la ciencia y la tecnología.

Para que?
CREAR POLITICAS DE GENERO PARA QUE LAS MUJERES TENGAN MAYOR ACCESIBILIDAD A LOS AMBITOS LABORAL Y DE EDUCACION

Cuáles son esos 3 conjuntos de datos que seleccionaste para la detección de fallos.

Para el analisis se ha buscado información dentro del portal de datos abiertos del país y el Sistema Nacional de Información de Educación Superior del Ecuador,
no se encuentra mucha información pero se ha escogido los siguientes datos del portal de datos abiertos que nos puede ayudar:

Registro de Títulos - Octubre 2021
INEVAL_serbachiller20_2021Noviembre
MINEDUC_RegistroAdministrativoHistorico_2009-2021Inicio
SENESCYT_Becas_2021Septiembe

En un párrafo cuéntanos qué defectos encontraste en la metadata y/o el diccionario de datos de esos 3 conjuntos de datos.
Metadata

MINEDUC_RegistroAdministrativoHistorico_2009-2021Inicio
Dentro de los metadatos existe un itém de la DESCRIPCIÓN , en donde no se específica en forma clara cuales son los datos que
se encuentran dentro de los datasets presentados por la institución.
SENESCYT_Becas_2021Septiembe
Se encuentra mal ingresado la información en los itéms, en el item codigo de la institución esta la URL en cambio en la URL no se encuentra información

FORMA GENERAL
Los metadatas que se encuentren dentro del portal deben tener estandarizados los items , en base a que algunos presentan 24 items y otros
tan solo 15

Diccionario de datos
FORMA GENERAL
Dentro del Diccionario de datos se requiere mayor explicación en la descripción de cada campos

Cuál de esos 3 conjuntos de datos requieren proceso de limpieza. Cuéntanos un poco sobre qué campos/columnas contienen basura, y de qué tipo.
campos/columnas contienen basura, y de qué tipo

Registro de Títulos - Octubre 2021
ProfesiOn/Especialidad → Datos incorrectos, falta estandarizar las profesiones
Nivel del TItulo —> Dato incorrectos, existe un caracter especial en los datos
SEXO–>Datos vacíos

SENESCYT_Becas_2021Septiembe
TIPO DISCAPACIDAD y PORCENTAJE DISCAPACIDAD—>Falta Estandarizar los datos en base al CAMPO DE DISCAPACIDAD
TIPO DISCAPACIDAD y PORCENTAJE DISCAPACIDAD—>Existe como dato un caracter especial “-” , que puede entenderse como vacío
CONVOCATORIA —>Existe como dato un caracter especial “-” , que puede entenderse como vacío, aunque no puede estar vacío ya que debe existir una convocatoria
AÑO SUSCRIPCIÓN —> Existe como dato el valor NO REGISTRADO, el mismo que no indica el AÑO

INEVAL_serbachiller20_2021Noviembre
quintil,fac_exp,isec,inev,imat,ilyl,icn,ies,nl_inev,nl_imat,nl_ilyl,nl_icn,nl_ies —> tiene el valor 999999