Este espacio está dedicado para compartir los avances de las actividades de este día.
Sobre las actividades, te dejamos una guía a continuación:
Para compartir los avances, cuéntanos lo siguiente:
Cuáles son esos 3 conjuntos de datos que seleccionaste para la detección de fallos.
En un párrafo cuéntanos qué defectos encontraste en la metadata y/o el diccionario de datos de esos 3 conjuntos de datos.
Cuál de esos 3 conjuntos de datos requieren proceso de limpieza. Cuéntanos un poco sobre qué campos/columnas contienen basura, y de qué tipo. campos/columnas contienen basura, y de qué tipo.
Marca el check cuando hayas realizado la actividad.
Comparto el trabajo realizado por el Equipo 11 - Sincronía A) Temática
Salud B) Conjunto de Datos Seleccionados
Vivienda de Interés Social
Registro Nacional de Discapacidades
Bono Joaquín Gallegos Lara
C) Defectos encontrados en la metadata y/o el diccionario de datos
En el caso del diccionario de datos se encuentra coherente, pero puede mejorar al agregar la descripción de las categorías utilizadas en cada campo por ejemplo se podrían incluir los rangos de edad que en este caso son 8 categorías. También la descripción del Tipo de beneficio se puede aclarar ya que dice Tipo de vivienda de interés social, parecería que nos vamos a encontrar con algunas categorías, pero en los datos solo encontramos una (Vivienda Casa Para Todos). El metadato considero es coherente y completo.
En este caso los datos indicados no especifican la edad con exactitud más que con rangos de edad de igual forma no indica la condición socio económica en la que se encuentran las personas con dichas discapacidades.
En el diccionario de datos la descripción que existe en el campo recuento no es clara, porque se refiere a la cantidad de personas que reciben el Bono Joaquín Gallegos Lara y en la base de datos en todos los campos se registra 1.
D) Requerimiento de procesos de limpieza
La base de datos no tiene campos vacíos, la única columna que me parecería redundante es -Tipo de beneficio- que tiene una sola categoría (Vivienda Casa Para Todos).
La base de datos esta completa, me parece que lo que falta en la base para tener una información completa es a la etnia que pertenece y sector especifico de cada provincia ya que la información redunda mucho.
La base de datos no está completa ya que se coloca la provincia, pero no se identifica cantón y parroquia.
A) Temática
Salud B) Conjunto de Datos Seleccionados
Vivienda de Interés Social
Registro de Discapacidades
Bono Joaquín Gallegos Lara
C) Defectos encontrados en la metadata y/o el diccionario de datos
En el caso del diccionario de datos se encuentra coherente, pero puede mejorar al agregar la descripción de las categorías utilizadas en cada campo por ejemplo se podrían incluir los rangos de edad que en este caso son 8 categorías. También la descripción del Tipo de beneficio se puede aclarar ya que dice Tipo de vivienda de interés social, parecería que nos vamos a encontrar con algunas categorías, pero en los datos solo encontramos una (Vivienda Casa Para Todos). El metadato considero es coherente y completo.
En este caso los datos indicados no especifican la edad con exactitud mas que con rangos de edad de igual forma no indica la condición socio económica en la que se encuentran las personas con dichas discapacidades.
En el diccionario de datos se tiene una característica o campo denominado recuento, el cual se describe como el conjunto de personas, a sabiendas de que una fila hace referencia a una persona como tal, entonces existe una confunción, o tal vez falta mas detalle. D) Requerimiento de procesos de limpieza
1.La base de datos no tiene campos vacíos, la única columna que me parecería redundante es -Tipo de beneficio- que tiene una sola categoría (Vivienda Casa Para Todos).
2.La base de datos esta completa, me parece que lo que falta en la base para tener una información completa es a la etnia que pertenece y sector especifico de cada provincia ya que la información redunda mucho.
3.A la base le falta codificación de los valores de cada campo, pues están denominados con texto, cuando evidentemente podría estar solo números, o la inicial como en el caso de sexo, ya sea la f para femenino, o m para masculino. La columna de recuento podría ser eliminada, por que siempre tiene un valor de 1. No existen campos vacíos.
C) Defectos encontrados en la metadata y/o el diccionario de datos
En la base de interés de vivienda, se debería especificar el tipo de vivienda pues se sabe que es de interés social, se debería más bien especificar si es de un piso, dos pisos, inclusive se podría indicar el sector donde se encuentra ubicada la misma.
En la base de discapacidades, es importante especificar la edad para generar mejores estudios; sería interesante adicionar una variable donde se comente cuanto es el gasto que realiza debido a su discapacidad,
Igualmente en la base de vacunas covid sería importante especificar la edad, etnia, cantón para focalizar mejor l información.
En la encuesta de discapacidades y vivienda de interes social se debería realizar una corrección en lugar de género debería ser sexo pues solo se muestra la opción hombre y mujer. D) Requerimiento de procesos de limpieza
De mi parte también considero que a los conjuntos de datos de vivienda de interés social y registro nacional de discapacidades sería importante y necesario especificar el área, si es rural o urbano, lo que permitiría realizar análisis económicos, sería importante si se puede adicionar la fecha o al menos el año desde que recibe el bono, recibió la vivienda, y cuando se le otorgó la calificación de discapacidad.