Día 3: Conjunto de datos seleccionado y razones (E7)

Este espacio está dedicado para compartir los avances de las actividades de este día.

Sobre las actividades, te dejamos una guía a continuación:

Para compartir los avances, cuéntanos lo siguiente:

  • Cuáles son esos conjuntos de datos afortunadas que seleccionaste para trabajar.
  • Los conjuntos de datos seleccionados ¿necesitaron del proceso de limpieza? Cuéntanos cómo realizaste el proceso de limpieza, si conocías una herramienta para ello, o si utilizaste alguna recomendada en la mentoría. Comparte esa experiencia en un párrafo.

Marca el check :white_check_mark: cuando hayas realizado la actividad.

Los tres conjuntos de datos seleccionados son:

  1. Registro Nacional de Discapacidades.

  2. Registro Estadístico de Egresos Hospitalarios – 2020.

  3. Registro Estadístico de Defunciones Generales.

Para la revisión de dichas bases de datos, fue necesario realizar un proceso de limpieza de datos. Para ello, primero, analicé los metadatos y diccionario de datos para contextualizar la información que analizaría posteriormente e identificar qué variables no se encontraban lo suficientemente descritas o claras. Luego, procedí a analizar la data; variable por variable, a través de la opción filtrar datos a efectos de determinar más fácilmente qué columnas tenían valores o datos inconsistentes con la variable. En el caso del primer conjunto de datos, esta técnica me permitió atisbar algunas inconsistencias; en el segundo conjunto de datos, por la complejidad del mismo, me tomó más tiempo comprender directamente cada variable y poder pensar formas en las cuales podría limpiarse los valores perdidos; y, en el tercer caso, al ser más clara la descripción del diccionario, me permitió hallar valores perdidos pero ello será más fácil de imputar por la mayor parte de claridad en las secciones del diccionario. Ahora bien, en el segundo y tercer conjunto de datos, los valores perdidos son nominales y las variables tienen muchas categorías y muy distintas entre sí (por ejemplo, las causas de muerte que contiene un gran listado de enfermedades), por lo cual es difícil emplear algún método de imputación en dichos casos.

Para realizar la limpieza se utiizó Google Colaboratory.

1. Registro Nacional de Discapacidades

eliminar el recuento de las personas con discapacidades específicas

2. Registro Estadístico de Egresos Hospitalarios-2020

Se eliminó la variable de causa3 y sólo quedarnos con cau_cie10 ya que los 3 primeros dígitos son exactamente iguales y el dígito extra de la variable cau_cie10 nos proporciona información adicional sobre la subcategoría de la enfermedad

No se pudo hacer mucho más por falta de informacion sobre los datos

3. Registro Estadístico de Defunciones Generales-2020

Eliminar la fecha compuesta y trabajar con su segmentación en mes, día y año (pero para ello habría que codificar los meses a números)

Codificar las variables de sexo, provincias, parroquia, área,nacionalidad, código país, etnia estado civil, sabe leer, autopsia.

Quedarse sólo con una de las definiciones de causa de muerte la causa4

Hola con todos!
Escogí los 3 grupos de datos con los que hemos estado trabajando:

  1. Registro Nacional de Discapacidades.
  2. Registro Estadístico de Defunciones Generales.

Lo primero que hice fue revisar los diccionarios de datos de los 3 grupos, en el primer grupo el diccionario era bastante claro, se podía entender los datos con excepción de la primera columna, en el segundo grupo el diccionario no explicaba bajo que método o como era que se codificaban las causas de defuncion, en los codigos de 6 y 4 dígitos.

En cuestión de limpieza de datos, en el primer grupo de datos lo único que hice fue dar órden numérico a los datos de la primera columna, ya que todos estaban con el número 1, la otra opción que también estuve pensando fue eliminar la columna ya que no aportaba a los datos, en todo caso considera que cualquiera de las dos soluciones era viable.
En el segundo grupo, elimine las columnas: autopsia, mor_viol, lug_viol, Ic1, causa103, causa80, causa67A y causa67B. Las primeras 3 columnas las elimine ya que no aportaban a las estadísticas o la manera en que hacia subgrupos era deficiente, el resto que hace referencia a causas las elimine debido a que en la mayoria de casos repetía lo que mencionaba la columna “causa”. También elimine los datos que no tenían registros en las columnas de inscripción, esto después de analizar que eran alrededor del 1% de los datos totales y no afectarían de gran manera. Por último, me toco recalcular algunas edades de muerte que no coincidian con las fechas de nacimientos, así tambien corregir la columna “cod_edad” para estandarizar todos los datos

No trabaje con el Registro estadístico de Egresos Hospitalarios ya que el diccionario no brindaba información para entender los datos.

Saludos a tod@s l@s compañer@s.
Mis respuestas frente a los tres conjuntos de datos seleccionados:

  1. Registro Nacional de discapacidades.- La primera columna la marqué y seleccioné opción “serie de relleno”.
  2. Registro estadístico de Egresos Hospitalarios - 2020.- Revisé el diccionario de datos para entender las variables consideradas. Entiendo que ciertas disciplinas comprenderán el significado de algunas de las “descripciones de campo” por ejemplo “Capítulo lista 221”, pero. al no ser mi caso, eliminarías los “Nombres de campo”: cau_cie10, causa3, cap221rx, cau221rx y cau298rx.
  3. Registro estadístico de defunciones generales 2020.- Revisé el diccionario de datos para comprender el significado de las etiquetas de las columnas. Entiendo que dependiendo del objetivo que se persiga en un estudio, toda la información contenida en la matriz de datos es importante, es decir, no quitaría nada. Además, al igual que en los casos anteriores, empleando programas como el SPSS podría seleccionarse ciertas variables, cruzarlas y los campos en blanco no representarían dificultad para el análisis ya que en el diccionario de datos se da una explicación-justificación de su presencia, que debería ser considerada en la interpretación de resultados.

Los conjuntos de datos seleccionados con los que se está trabajando son:

  1. Registro Nacional de Discapacidades
  2. Registro Estadístico de Egresos Hospitalarios – 2020
  3. Registro Estadístico de Defunciones Generales - 2020

Posterior a la revisión de los diccionarios de datos, así como de los metadatos se procedió con el proceso de limpieza necesario de datos.

• Primer grupo: El recuento de las personas con discapacidades no aporta información útil, por lo cual se podría corregir esta columna con la opción “serie de relleno” o eliminarla.

• Segundo grupo: Entre las variables “cau_cie10” y “causa3”, debido a que proporcionan información que puede ser considerada repetida puesto que los tres primeros dígitos son exactamente iguales, de modo que la variable “cau_cie10” se puede conservar por suministrar la causa detallada a 4 dígitos.

• Tercer grupo: Las variables “mor_viol” y “lug_viol” se podrían eliminar puesto que en varios casos no presentan información completa que realmente ayude a las estadísticas. Se podría elegir entre las variables “ causa103” y “causa80” aquella que brinde información mas especifica o más útil, del mismo modo con las variables “ causa67A” y “causa67B”.

Los tres conjuntos de datos seleccionados son:

  1. Registro Nacional de Discapacidades.
  2. Registro Estadístico de Egresos Hospitalarios – 2020.
  3. Registro Estadístico de Defunciones Generales.

Primero se revisó el diccionario de datos y los metadatos; cabe señalar que el segundo conjunto de datos no contaba con un adecuado diccionario de datos, por lo que fue complicado su análisis y, en el caso de un miembro, no fue posible realizar la limpieza de datos. Luego, para el proceso de limpieza de datos, uno de los miembros empleó Google Colaboratory, y, otro, la opción de filtrado de datos de Excel. En cuanto a la limpieza de valores perdidos, se observaron algunas alternativas según la naturaleza de la variable en cuestión (media, moda).