Dia 2: Fallas encontradas (data, metadata, diccionario) (E6)

Este espacio está dedicado para compartir los avances de las actividades de este día.

Sobre las actividades, te dejamos una guía a continuación:

Para compartir los avances, cuéntanos lo siguiente:

  • Cuáles son esos 3 conjuntos de datos que seleccionaste para la detección de fallos.
  • En un párrafo cuéntanos qué defectos encontraste en la metadata y/o el diccionario de datos de esos 3 conjuntos de datos.
  • Cuál de esos 3 conjuntos de datos requieren proceso de limpieza. Cuéntanos un poco sobre qué campos/columnas contienen basura, y de qué tipo. campos/columnas contienen basura, y de qué tipo.

Marca el check :white_check_mark: cuando hayas realizado la actividad.

En nuestro grupo cada integrante seleccionó 1 de los 10 grupos de datos seleccionados del tema Salud. En mi caso analicé los datos sobre “Donantes de tejidos ablacionados, procesados, almacenados y distribuidos”. El diccionario de datos está completo con 7 variables. 4 nominales y 2 ordinales, la última seria mixta pues es un código alfanumérico. En primer lugar el código de la varible CODIGO DE DONACIÓN no está homologado según el diccionario y no detalla la composición de ese código para la posibilidad de descomponerlo y filtrar los datos de mejor manera. En cuanto a la varibale N° el diccionario señalla que son los donantes por año pero la secuencia numérica es continua. Ejemplo última fila del dato del año 2015 es el N° 334, y el siguiente que sería el primer dato del 2016 continua la secuencia 335 y no 1 para que sea conteo de donantes por año como señala el diccionario. Los datos de la variable edad presentan 2 problemas, la edad está en años y no está desagregada por lo que el análisis de niños menores a un año no sería específico, adicional a ello hay 44 datos en blanco por lo que los datos están incompletos. Por otra parte encontramos que dos variables se encuentran relacionadas y son tipo de donación y tipo de donante. Por ejemplo en la misma fila de datos no podría encontrarse tipo de donación: alogénica y en tipo de donante: parada cardíaca en ese caso los datos serían inconsistentes. Finalmente de acuerdo al nombre de conjunto de datos no se desprende esa información en la base de datos. No existe una desagregación del tipo de tejido al que hace alusión el nombre.

2 Me gusta

La base analizada es Encuesta Nacional de Salud y Nutrición – ENSANUT 2018, Contiene lo siguiente: “Datos de 43.311 hogares donde se investigó la ENSANUT, encuesta que recopila información sobre salud sexual y reproductiva, salud en la niñez, estado nutricional, acceso a programas de primera infancia, además de datos sobre acceso a los servicios de salud*”.*

La base de datos es muy amplia, pero tiene problemas ya que no se conecta al servidor, dificulta identificar las variables, hay problemas en el interior debido a que los datos no son claros y hay dificultades para comprender las preguntas.

1 me gusta

Como parte del análisis preliminar para la selección de las 3 bases a trabajar, he analizado el tema Egresos Hospitalarios 2020.
En cuanto al diccionario de la base, es bastante claro en la mayoría de las variables. Sin embargo, las variables con respecto a las causas no son muy claras. Se maneja por medio de códigos, que se especifican en la metadata (Tabulado de la serie) pero no todos son específicados o entendibles.
La base como tal, es bastante completa. Debido a que se especifican aspectos como edad, sexo y área; entre otros. Por lo que se presta a análisis más complejos a cerca de los egresos hospitalarios.
En la columna clase, se encuentra un error en los datos que se refiere a Hospital básico (1) y Hospital general (2). Ya que también hay registros de 11 y 32.

2 Me gusta

Buenas noches, el trabajo de mi grupo fue muy interesante seleccionamos: 1. Registro Nacional de Discapacidades
2. Registro Estadístico de Egresos Hospitalarios – 2020:
3. Registro Estadístico de Defunciones Generales.
Lxs compañerxs que las revisaron explicaron cuáles eran sus bondades y dificultades.

1 me gusta

La base de registro estadistico de defunciones generales contiene variables descriptivas donde se identifica la información geográfica de la inscripción de la defunción y del fallecimiento de la persona, fecha de nacimiento, sexo, nacionalidad, estado civil, nivel de instrucción, analfabetismo, lugar de defunción, y las diferentes causas de la muerte agrupada en 6 niveles de acuerdo a sus las diferentes causas. En cuanto a la calidad de los datos, aunque existen registros faltantes y unos pocos errores en el cálculo de la edad de la persona, el nivel de error de ninguno de los campos supera el 5% de un total de 117030 registros lo que permite trabajar con los datos sin preocuparse por el la cantidad de faltantes.

2 Me gusta

La base analizada por mi parte fue Registro Estadistico de Defunciones Generales 2020 considero que es una base completa ya que tiene variables importantes que se pueden analizar en conjunto como individualmente y el margen de error de dicha base es minimo, contiene gran cantidad de datos por lo cual al momento de realizar nuestro trabajo general nos será muy útil.

2 Me gusta

En cuanto al análisis de la data, metada y diccionario de la base de datos sobre el Registro Estadístico de Camas Hospitalarias-2020 que ha sido publicada y elaborada por el Instituto Nacional de Estadística y Censos podemos mencionar que está compuesta de 625 registros, que correspode a la utilización de camas de dotación normal y camas disponibles reportadas por los establecimientos de salud en el año de estudio, contiene 64 variables de las cuales 8 son variables nominales y 56 las variables numéricas. El diccionario de la base de datos está completo en el cual se detalla el nombre del campo o código y también el nombre específico de cada una de las variables. Podemos mencionar que la base de datos esá bastante actualizada ya que se ha desarrollado en base a datos del 2020 y finalmente publicada en 2021. En la variable nominal “TIPO” existe una categoría denominada “sin tipo hospitales básicos” de la cual se tiene 260 establecimientos catalogados de esta manera.

2 Me gusta

Al analizar la data dentro del conjunto Listado de Registros Sanitarios Suspendidos o Cancelados de Medicamentos de Agencia Nacional de Regulación, Control y Vigilancia Sanitaria - ARCSA, Doctor Leopoldo Izquieta Pérez en esta base existe más campos en blanco y el proceso de limpieza tendría que ser muy exhaustivo ya que los datos no están correctamente ordenados, con ello se puede perder datos que sean relevantes para el estudio. Un punto a favor en el análisis, es que contiene la información acerca de las tecnologías sanitarias, particularmente los medicamentos, es un elemento clave para brindar una efectiva atención de la salud.

2 Me gusta

En los personal y de acuerdo a lo conversado en el grupo de trabajo, mi tarea fue revisar la base de datos referente a las atenciones por emergencias del Ministerio de Salud Pública, la misma que solo presenta cuatro variables, que son dos geográficas, como provincia y cantón y otras dos numéricas que son cantidad de atendidos en menos de 24 horas y personas con atención hospitalaria. Además las observaciones que se tiene es un total de 185 observaciones, en lo que se puede concluir que es una base de datos de muy poca relevancia y que carece de información para investigar o generar una conclusión, incluso es una base que al no tener ni sexo, ni edad ( variables que se consideran básicas para los análisis) generará unos resultados ambiguos y paupérrimos.

2 Me gusta

Como integrante del grupo 6 analice los datos expuestos en el ‘‘MSP_Vacuna Covid 19’’. El diccionario se compone de datos en vacunas covid el cual expone el número de dosis aplicadas según tipo de vacuna, la misma contiene información del periodo 21 de enero al 30 de junio de 2021. Se compone de 8 variables las cuales son 4 variables cuantitativas siendo estas la fecha de vacunación, la zona (1-9), cantidad de individuos con una vacuna de primera dosis y la cantidad de individuos vacunados con la segunda dosis. Las demás 4 variables siendo cualitativas donde encontramos una variable nominal con intervalo de edades de estos individuos otras variables ordinales como la provincia, sexo, tipo de vacuna contra covid 19. Teniendo 233764 como total de observaciones. En la metadata es reciente y actualizable pero es insuficiente en la data debido a que solo tiene observaciones de los 6 meses del año 2021 y se podría hacer un estudio de datos algo básico en cantidad de vacunados comparandolos por sexo, provincia o tipo de vacuna pero nada mas allá.
Esta base se encuentra completa y podria funcionar para estudios no tan complejos.

1 me gusta

Analizando la base de Registro Nacional de Discapacidades, se concluyó que pese a que es una base sin datos perdidos, y con datos actualizados al año 2021, no existe información que nos permita realizar un análisis en profundidad, es decir, que nos permita crear problemáticas de investigación, existen apenas cinco variables muy generales, donde dos son variables agrupadas que muy difícilmente se podrían desagregar. Sin embargo es muy útil para realizar análisis descriptivos de manera general.

1 me gusta

Como equipo analizamos la data, meta data y diccionario de datos de cada uno de los diez conjuntos de datos seleccionados en el día 1, encontramos que todos los conjuntos de datos presentaron diversas fallas, sin embargo, seleccionamos los siguientes 3 conjuntos de datos que requieren de un proceso de limpieza significativo:
1.- Registro estadístico de egresos hospitalarios 2020.
Este conjunto de datos presenta variables complejas, pues aquellas que indican las causas de egresos hospitalarios no son muy claras, el manejo de códigos que utiliza y que se especifican en la meta data (Tabulado de la serie) no son muy entendibles, lo que requiere de un trabajo mas exhaustivo para un análisis, pero al especificar variables como edad, sexo y área, permite que se puedan realizar análisis en mayor profundidad acerca de los egresos hospitalarios que existen en el país, pues nos permite generar problemas de investigación actuales.
2.- Listado de registros sanitarios suspendidos o cancelados de medicamentos.
Analizando este conjunto de datos se encontró que en la data existen más campos en blanco, por ello, el proceso de limpieza tendría que ser muy exhaustivo, pues los datos no están correctamente ordenados, lo que posiblemente durante el proceso de análisis se perderán datos relevantes para algún estudio a realizar. Por otro lado, dicho conjunto contiene información acerca de las tecnologías sanitarias, particularmente los medicamentos, elemento clave para brindar una efectiva atención de la salud, permitiendo dar soluciones a problemáticas existentes en el país actualmente.
3.- Registro estadístico de defunciones generales 2020.
Este conjunto de datos, contiene una base completa ya que tiene variables importantes que se pueden analizar en conjunto como individualmente, el margen de error de dicha base es mínimo, inferior al 5% del total de las observaciones, contiene gran cantidad de datos por lo permite generar grandes problemáticas de investigación.

3 Me gusta