Dia 2: Fallas encontradas (data, metadata, diccionario) (E12)

Este espacio está dedicado para compartir los avances de las actividades de este día.

Sobre las actividades, te dejamos una guía a continuación:

Para compartir los avances, cuéntanos lo siguiente:

  • Cuáles son esos 3 conjuntos de datos que seleccionaste para la detección de fallos.
  • En un párrafo cuéntanos qué defectos encontraste en la metadata y/o el diccionario de datos de esos 3 conjuntos de datos.
  • Cuál de esos 3 conjuntos de datos requieren proceso de limpieza. Cuéntanos un poco sobre qué campos/columnas contienen basura, y de qué tipo. campos/columnas contienen basura, y de qué tipo.

Marca el check :white_check_mark: cuando hayas realizado la actividad.

Hola, equipo. Buenas noches

Bueno, por mi parte para el día de hoy encontré algunas novedades en la base “Registro estadístico de recursos y actividades de salud-2019”.

En primer lugar, observe que el diccionario es demasiado incompleto debido a que solo muestra el código asignado a cada variable y el nombre del mismo. Hace falta, en contraste, el detalle de las categorías en las variables cualitativas y las unidades en las que están medidas las variables numéricas. Supongo que al principio puede ser muy obvio deducir esto último, pero se vuelve confuso cuando se utilizan variables numéricas-continuas para detallar por ejemplo el número de médicos generales de una institución de salud.

Además, existen variables que -supongo- representan el total o la suma de otras relacionadas, pero es muy difícil encontrarles lógica. En ese caso creo es necesario también el detalle de como se formulas las mismas.

Por último, creo que tener una coherencia o paridad en el orden de como se disponen las variables tanto en el diccionario como en la base de datos es importante. Esto debido a que por la cantidad de variables que contiene la misma es muy difícil encontrar una en particular cuando todas están revueltas.

Pese a lo descrito, también es justo comentar que en casi todas las variables no existen valores perdidos y los datos describen muy bien el significado de cada una de ellas.

Es todo en cuanto puedo comentarles.
Gracias!

1 me gusta

Buenas noches con todos.
La base de datos que yo he utilizado es la de “Recursos y Actividades de Salud 2013”.
Bueno en esta base de datos lo primero que he notado es que para poder entender cada variable es necesario el uso del diccionario, en cuanto a este, tiene detallada cada variable lo cual ayuda a una mejor comprensión de la persona que vaya a hacer uso de esta base de datos.
Al tener muchas variables y muchos datos es un poco tedioso trabajar en un análisis estadístico por lo que he decidido utilizar las variables de provincia ,cantón, clase, entidad, total consultas de Morb.Mujeres Edad no especificada Psicólogo y total de primeras consultas Morb.hombres Psicólogo.
Estas variables serán filtradas por la provincia de Pichincha cantón Quito para poder reducir un poco los datos

La base de datos en este caso es teletrabajo proporcionada por el Ministerio de Trabajo 2022.
Los defectos encontrados en esta base de datos: No se cuenta con un diccionario completo con todas las variables contenidas en la base, los datos no se encuentran conglomerados en esta sola base un complemento en es SUT, algunas variables como contrato no se especifica a que se refiere siendo de difícil comprensión para los usuarios.
Al ser una base de creación actual los datos no se encuentran mayor problema con los datos , puesto que no son extensos, además no se encuentran valores perdidos o sin contestar , el único inconveniente es con el RUC puesto que no se encuentran en la misma dimensión que los otros datos para poder realizar una comparación. Sin embargo, se podría tomar este como identificador.

Nos pareció interesante hacer un análisis pre y pos pandemia del teletrabajo principalmente en la provincia de Pichincha enfocado en el género.

La siguiente es la propuesta de Estefanie Gabriela Chicaiza

Buenas noches, envío mi observación sobre la base de datos que seleccioné.
Encuesta Nacional de Salud y Nutrición – ENSANUT 2018 (INEC_5_BDD_ENS2018_f2_lactancia_2018)
Observaciones:
Según la metadata la fecha de creación es el 12-08-2021 me llama la atención que el tiempo de construir la base de datos, pero reviso las 9 segmentaciones de la encuesta y es razonable por la magnitud de preguntas y variables que tiene la encuesta.
A la vista vi la base en algunos campos vacíos, sin embargo con los filtros se esclarece las preguntas que no tienen respuesta. En la descripción del campo de provincia, upm y el orden de cada hijo no tienen descripción de su clasificación, en cuanto a la los campos que considero se necesitan una limpieza es a las preguntas que determinan el tipo de alimento que consumen los niños recién nacidos’, porque hay una columna que responde a si come huevos y tal vés se podría establecer en el tipo de alimentos según la cadena alimenticia.

  1. La base de datos seleccionada es la recaudación de impuestos del SRI
  2. La Metadata es bastante clara
  3. El Diccionario de Datos presenta algunas dificultades para dejarse entender. Por ejemplo, G-IMP habla de un Nivel 1 que no se entiende a que hace referencia
  4. la Base es amplia, bastante completa.
    La idea es tratar de calcular el impacto de la reforma tributaria del presidente Lasso en la recaudación del impuesto a la renta

Entre los conjuntos seleccionados en el Día 1 se encuentra: Encuesta Nacional de Salud, Salud Reproductiva y Nutrición ENSANUT-2012
Me gustaría comentar al respecto.
1.- Para los metadatos se revisa el archivo en excel (xml) INEC_ENSANUT_PM_2012. Se encuentra especificado de qué se trata la base de datos, hay un nombre, descripción, fecha de creación, nombre del responsable entre otros. me parece que cumple con proporcionar información general de la base de datos.

2.- El diccionario se encuentra el archivo xml, lleva por nombre INEC_ENSANUT_DD_2012. Nos indica una breve descripción de la base de datos, el nombre del campo y la descripción del campo.

3.- El conjunto de datos revisado es INEC_ensanut_f12_bioquimica_2012 el cual se encuentra en formato CSV. Para el proceso de limpieza de los datos se requiere aplicar una imputación de algunos datos ya que existen casilleros sin información.

Saludos cordiales,

Roberto Alcívar

Hola, equipo. Buenas noches

Bueno, por mi parte para el día de hoy encontré algunas novedades en la base “Registro estadístico de recursos y actividades de salud-2019”.

En primer lugar, observe que el diccionario es demasiado incompleto debido a que solo muestra el código asignado a cada variable y el nombre del mismo. Hace falta, en contraste, el detalle de las categorías en las variables cualitativas y las unidades en las que están medidas las variables numéricas. Supongo que al principio puede ser muy obvio deducir esto último, pero se vuelve confuso cuando se utilizan variables numéricas-continuas para detallar por ejemplo el número de médicos generales de una institución de salud.

Además, existen variables que -supongo- representan el total o la suma de otras relacionadas, pero es muy difícil encontrarles lógica. En ese caso creo es necesario también el detalle de como se formulas las mismas.

Por último, creo que tener una coherencia o paridad en el orden de como se disponen las variables tanto en el diccionario como en la base de datos es importante. Esto debido a que por la cantidad de variables que contiene la misma es muy difícil encontrar una en particular cuando todas están revueltas.

Pese a lo descrito, también es justo comentar que en casi todas las variables no existen valores perdidos y los datos describen muy bien el significado de cada una de ellas.

Es todo en cuanto puedo comentarles.

Buenas noches con todos.
La base de datos que yo he utilizado es la de “Recursos y Actividades de Salud 2013”.
Bueno en esta base de datos lo primero que he notado es que para poder entender cada variable es necesario el uso del diccionario, en cuanto a este, tiene detallada cada variable lo cual ayuda a una mejor comprensión de la persona que vaya a hacer uso de esta base de datos.
Al tener muchas variables y muchos datos es un poco tedioso trabajar en un análisis estadístico por lo que he decidido utilizar las variables de provincia ,cantón, clase, entidad, total consultas de Morb.Mujeres Edad no especificada Psicólogo y total de primeras consultas Morb.hombres Psicólogo.
Estas variables serán filtradas por la provincia de Pichincha cantón Quito para poder reducir un poco los datos

La base de datos en este caso es teletrabajo proporcionada por el Ministerio de Trabajo 2022.
Los defectos encontrados en esta base de datos: No se cuenta con un diccionario completo con todas las variables contenidas en la base, los datos no se encuentran conglomerados en esta sola base un complemento en es SUT, algunas variables como contrato no se especifica a que se refiere siendo de difícil comprensión para los usuarios.
Al ser una base de creación actual los datos no se encuentran mayor problema con los datos , puesto que no son extensos, además no se encuentran valores perdidos o sin contestar , el único inconveniente es con el RUC puesto que no se encuentran en la misma dimensión que los otros datos para poder realizar una comparación. Sin embargo, se podría tomar este como identificador.

Nos pareció interesante hacer un análisis pre y pos pandemia del teletrabajo principalmente en la provincia de Pichincha enfocado en el género.

La siguiente es la propuesta de Estefanie Gabriela Chicaiza

Buenas noches, envío mi observación sobre la base de datos que seleccioné.
Encuesta Nacional de Salud y Nutrición – ENSANUT 2018 (INEC_5_BDD_ENS2018_f2_lactancia_2018)
Observaciones:
Según la metadata la fecha de creación es el 12-08-2021 me llama la atención que el tiempo de construir la base de datos, pero reviso las 9 segmentaciones de la encuesta y es razonable por la magnitud de preguntas y variables que tiene la encuesta.
A la vista vi la base en algunos campos vacíos, sin embargo con los filtros se esclarece las preguntas que no tienen respuesta. En la descripción del campo de provincia, upm y el orden de cada hijo no tienen descripción de su clasificación, en cuanto a la los campos que considero se necesitan una limpieza es a las preguntas que determinan el tipo de alimento que consumen los niños recién nacidos’, porque hay una columna que responde a si come huevos y tal vés se podría establecer en el tipo de alimentos según la cadena alimenticia.

  1. La base de datos seleccionada es la recaudación de impuestos del SRI
  2. La Metadata es bastante clara
  3. El Diccionario de Datos presenta algunas dificultades para dejarse entender. Por ejemplo, G-IMP habla de un Nivel 1 que no se entiende a que hace referencia
  4. la Base es amplia, bastante completa.
    La idea es tratar de calcular el impacto de la reforma tributaria del presidente Lasso en la recaudación del impuesto a la renta

Entre los conjuntos seleccionados en el Día 1 se encuentra: Encuesta Nacional de Salud, Salud Reproductiva y Nutrición ENSANUT-2012
Me gustaría comentar al respecto.
1.- Para los metadatos se revisa el archivo en excel (xml) INEC_ENSANUT_PM_2012. Se encuentra especificado de qué se trata la base de datos, hay un nombre, descripción, fecha de creación, nombre del responsable entre otros. me parece que cumple con proporcionar información general de la base de datos.

2.- El diccionario se encuentra el archivo xml, lleva por nombre INEC_ENSANUT_DD_2012. Nos indica una breve descripción de la base de datos, el nombre del campo y la descripción del campo.

3.- El conjunto de datos revisado es INEC_ensanut_f12_bioquimica_2012 el cual se encuentra en formato CSV. Para el proceso de limpieza de los datos se requiere aplicar una imputación de algunos datos ya que existen casilleros sin información.

Saludos cordiales,

Roberto Alcívar