Este espacio está dedicado para compartir los avances de las actividades de este día.
Sobre las actividades, te dejamos una guía a continuación:
Para compartir los avances, cuéntanos lo siguiente:
Cuáles son esos 3 conjuntos de datos que seleccionaste para la detección de fallos.
En un párrafo cuéntanos qué defectos encontraste en la metadata y/o el diccionario de datos de esos 3 conjuntos de datos.
Cuál de esos 3 conjuntos de datos requieren proceso de limpieza. Cuéntanos un poco sobre qué campos/columnas contienen basura, y de qué tipo. campos/columnas contienen basura, y de qué tipo.
Marca el check cuando hayas realizado la actividad.
Hola con todos!
De los 3 conjuntos de datos seleccionados, adjunto mis observaciones
Registro Nacional de Discapacidades:
-La columna de recuento presenta el mismo valor para todas las filas, sin embargo esto no corresponde con lo que se menciona en el diccionario, debería seguir un orden secuencial
-El resto de los datos son entendibles
Registro Estadístico de Egresos Hospitalarios – 2020:
-En general, los datos no se pueden entender ya que el diccionario no muestra las subcategorias y no se las puede deducir solo revisando los datos o filtrando las columnas.
Registro Estadístico de Defunciones Generales:
-Existen 2651 datos cuya edad y la codificación de edad no corresponden a la edad de fallecimiento, si se lo compara con la fecha de nacimiento.
-Se podría mejorar el diccionario si se explica que significa cada letra en las causas de fallecimiento, o bajo que parámetros están categorizadas las causas.
-Las muertes que no son accidentales o violentas ocupan casi el 92% de los datos, sin embargo no tienen un tipo presuntivo de muerte.
Diccionario de datos, incompleto, ausente, incoherente, etc. y¿La Data requiere algún proceso de limpieza.?
Si cada fila representan los datos de una persona, entonces la variable recuento es innecesaria y puede ser desechada ya que siemrpe será 1. En el diccionario dice que esta variable es la cantidad de personas con discapacidad, pero hay varias filas con los datos exactamente iguales, entonces no está agrupado por características y por tanto la descripción de estqa variable sería incorrecta.
Metada incompleta, ausente, etc
En la metadata no nos dicen cuántos registros posee la base de datos
2. Registro Estadístico de Egresos Hospitalarios-2020
Diccionario de datos, incompleto, ausente, incoherente, etc.
Muchas variables setán correctamente codificadas pero en el diccionario falta detallar la codificación y no se sabe a qué categoría pertenecen.
¿La Data requiere algún proceso de limpieza.?
tal vez podría eliminase la variable de causa3 y sólo quedarnos con cau_cie10 ya que los 3 primeros dígitos son exactamente iguales y el dígito extra de la variable cau_cie10 nos proporciona información adicional sobre la subcategoría de la enfermedad
3. Registro Estadístico de Defunciones Generales-2020
Diccionario de datos, incompleto, ausente, incoherente, etc.
Tal vez en las causas especificar que se trata del manua de la CIE-10 y dejar sólo los 4 caracteres que conforman el código.
¿La Data requiere algún proceso de limpieza.?
hay campos como la fecha de inscripción y fecha de fallecimiento que estpan segmentados en varios campos más. Entonces se podía trabajar con la fecha compuesta y eliminar los otros campos o bien eliminar la fecha compuesta y trabajar con su segmentación en mes, día y año (pero para ello habría que codigficar los meses a números)
También se podrían codificar las variables de sexo, provincias, parroquia, área,nacionalidad, código país, etnia estado civil, sabe leer, autopsia.
También podría ser útil quedarse sólo ucon una de las definiciiones de causa de muerte (tal vez causa4) , ya que en general se repiten.
Hola a todos!! A continuación copio mis observaciones a los tres conjuntos:
Registro de datos de discapacidad:
Se podría añadir otras categorías atendiendo una situación adicional de vulnerabilidad conforme el art. 35 de la Constitución de la República (embarazada, persona privada de la libertad, con enfermedad catastrófica, entre otras).
También se podría agregar otra categoría respecto a: i) si la persona con discapacidad trabaja, a efectos de conocer el desempleo de ese grupo social y su condición social; ii) el nivel de educación formal (escuela, secundaria, educación superior, postgrado); c) si reciben atención médica especializada, gratuita y de calidad; y, d) la zona a la cual pertenecen (urbana o rural). Este punto y el anterior, así como otros que en ese mismo sentido puedan añadirse, nos permitirían conocer de forma integral la situación de las personas con discapacidad conforme a la normativa vigente y verificar en qué medida se está están respetando y garantizando sus derechos fundamentales; no obstante, aclaro que estas dos sugerencias están enfocadas para la próxima actualización de la información por parte de la CONADIS.
Existen 4 encuestados respecto de los cuales en la columna provincia aparece como valor perdido: “Zona no delimitada”
Se encuentra por error “etareo” en la columna correspondiente, en lugar de “etario”.
Registro Estadístico de Egresos Hospitalarios - 2020
Al clasificar las provincias por números, pero sin definir en el Diccionario a qué provincia corresponde cada uno o la forma de organización que se empleó (ej. orden alfabético), no se puede identificar la provincia en cada fila. Lo mismo sucede con otras columnas que utilizan números (cantón del establecimiento, parroquia del establecimiento, nacionalidad, condición del paciente, entre otros)
En la columna de país, hay dos “Guyana” sin especificar cuál de ellas es la Guyana Francesa. En esta misma columna hay como valores perdidos “Otras N” y también “SIN ESP”. Otras casillas dicen “Provinc” “Republic” y no se puede identificar a qué país se refiere; aunque la segunda puede referirse a República Dominicana, hay varios países que empiezan con la denominación “República”, por lo que podría haber confusión (Ej. República Popular China)
En la categoría de edad, hay una cantidad considerable de personas que tienen más de 100, inclusive una de 118. Por lo cual, recomendaría revisar ello.
Sobre le Diccionario de datos, tengo algunas observaciones:
a) Con respecto a la clase, tipo y entidad a la que pertenece el establecimiento no es posible conocer a qué se refiere salvo que tengas un conocimiento técnico en dicho sentido, lo que impide el acceso a la información pública que es ejercida por todos los ciudadanos/as. En este mismo sentido, tampoco es comprensible las columnas relativas a: Causa de lista internacional detallada a 4 dígitos de la CIE-10, Causa de lista internacional detallada a 3 dígitos de la CIE-10, Capitulo lista 221, Lista especial de 221 grupos, y Lista de causas 298. En tal virtud, recomiendo especificar qué debe entenderse por todas estas columnas de manera que cualquier ciudadano pueda comprenderlo y utilizar los datos.
b) En cuanto al Mes de registro/investigación, no queda claro a qué fecha exactamente se refiere ya que, por ejemplo, podría confundirse con el mes de ingreso o de egreso del paciente.
c) Se sugiere verificar si es necesario incluir el código del país, tomando en cuenta que ya existe una columna que coloca expresamente el nombre del país. Si se refiere a un código técnico del país respecto de servicios hospitalarios que, de ser el caso, debe especificarse para mayor claridad en su interpretación.
d) En la columna sexo del paciente, recomiendo reemplazar por género.
e) Si existe una columna específica que detalla la fecha de ingreso y otra de egreso, no se estima necesario que existan columnas específicas del día, mes y año de ingreso y egreso, pues solo bastarían las dos primeras. Además, posiblemente por error de tipeo, en la columna fecha_ingr se describe en el Diccionario que se refiere a la fecha de egreso, cuando lo correcto es que sea la fecha de ingreso.
f) En la descripción de la columna día_estad no queda clara la descripción en el Diccionario porque se encuentra cortada una palabra (dice “Días estad”)
Registro Estadístico de Defunciones generales
En la base de datos la primera columna (“Numeración”) no se sabe qué se refiere porque no está definido en el Diccionario.
En la columna de cantón, está por error la provincia de Pichincha.
En año de nacimiento hay un valor perdido de 9999, en mes de nacimiento 999 y en día de nacimiento también hay 999.
En la edad, verificar si es correcto que existe una cantidad considerable de personas mayores de 100 años.
Existen valores perdidos que dicen “Zonas sin especificar” en la columna de código del país.
En la columna etnia hay valores perdidos como: “otras”, “sin información” y “vacías”, por lo cual se recomienda emplear en todo caso un mismo texto para aquellos casos en los que no aplique.
En nivel de instrucción se coloca, por un lado, “primaria”, y, por otro, “básica”, que equivaldría a lo mismo. Igualmente, hay una opción “secundaria” y otra “educación media/bachillerato”, cuando equivale a lo mismo.
En las columnas “sabe leer”, “autopsia”, lugar de muerte y muerte violenta hay casillas vacías.
En la columna “causa4”, las casillas que dicen C847, C799, C968, D893, O970 y P917 no especifican el tipo de enfermedad o la causa. En la columna “causa”, en la casilla K64 no se especifica la causa o enfermedad como el resto. En las columnas causa67A y causa67B existen casillas con “No aplica”.
En nivel de instrucción hay casillas con “Sin información” o casillas vacías, cuando podría completarse con la primera o “No aplica” en aquellos casos que corresponda.
Sobre el Diccionario de datos, tengo las siguientes observaciones:
a) Se sugiere verificar si es necesario incluir el código del país, tomando en cuenta que ya existe una columna que coloca expresamente el nombre del país. Si se refiere a un código técnico del país respecto de servicios hospitalarios que, de ser el caso, debe especificarse para mayor claridad en su interpretación.
b) Al existir columnas que especifican las fechas de nacimiento y de fallecimiento, no se considera necesario que existen columnas adicionales para detallar el año, mes y día de ambas fechas.
c) En las columnas relativas a: Causa básica de defunción (categorías - 4 caracteres), Se realizó autopsia/necropsia?, Causa básica de defunción (categorías - 3 caracteres), Lista corta de causas de defunción, Lista condensada (103 causas), Lista de tabulación 2 para la mortalidad subcategorías (80 causas), Lista condensada (67 causas)A (Existen registros en blanco cuando la pregunta no aplica), Lista condensada desagregada (67 causas)B (Existen registros en blanco cuando la pregunta no aplica); no queda claro a qué se refiere cada una o cómo se distinguen, posiblemente al ser una clasificación técnica. Por ello, no resulta posible distinguir entre ellas para un ciudada
El Equipo 7 – Data Group, con base en los aportes realizados por varios miembros, ha recopilado la siguiente respuesta como avance del Día 2:
Registro de datos de discapacidad:
La columna “Recuento” presenta el mismo valor para todas las filas, sin embargo, esto no corresponde con lo que se menciona en el diccionario, debería seguir un orden secuencial o, de lo contrario, al colocarse siempre el valor “1” esta variable resulta innecesaria y podría desecharse.
Como sugerencias para próximas actualizaciones de datos:
a) Se podría añadir otras categorías atendiendo una situación adicional de vulnerabilidad conforme el art. 35 de la Constitución de la República (embarazada, persona privada de la libertad, con enfermedad catastrófica, entre otras).
b) También se podría agregar otra categoría respecto a: i) si la persona con discapacidad trabaja, a efectos de conocer el desempleo de ese grupo social y su condición social; ii) el nivel de educación formal (escuela, secundaria, educación superior, postgrado); c) si reciben atención médica especializada, gratuita y de calidad; y, d) la zona a la cual pertenecen (urbana o rural).
Estos dos literales, así como otros aspectos que en ese mismo sentido puedan añadirse a futuro, nos permitirían conocer de forma integral la situación de las personas con discapacidad conforme a la normativa vigente y verificar en qué medida se está están respetando y garantizando sus derechos fundamentales; no obstante, aclaro que estas dos sugerencias están enfocadas para la próxima actualización de la información por parte de la CONADIS.
Existen 4 encuestados respecto de los cuales en la columna “Provincia” aparece como valor perdido: “Zona no delimitada”
Se encuentra por error “etareo” en la columna correspondiente, en lugar de “etario”.
Registro Estadístico de Egresos Hospitalarios - 2020
En cuanto a la data, podría eliminase la variable de causa3 y sólo quedarnos con cau_cie10 ya que los 3 primeros dígitos son exactamente iguales y el dígito extra de la variable cau_cie10 nos proporciona información adicional sobre la subcategoría de la enfermedad.
En la columna de país, hay dos “Guyana” sin especificar cuál de ellas es la Guyana Francesa pues de lo contrario se entienden como países repetidos. En esta misma columna hay como valores perdidos “Otras N” y también “SIN ESP”. Otras casillas dicen “Provinc” “Republic” y no se puede identificar a qué país se refiere; aunque la segunda puede referirse a República Dominicana, hay varios países que empiezan con la denominación “República”, por lo que podría haber confusión (Ej. República Popular China)
En la categoría “edad”, hay una cantidad considerable de personas que tienen más de 100, inclusive una de 118. Por lo cual, recomendaría revisar ello.
Sobre el Diccionario de datos, tengo algunas observaciones:
a) En general, los datos no son comprensibles ya que el Diccionario de datos no muestra las subcategorías o qué significa cada código, y ello no puede deducirse solo revisando los datos o filtrando las columnas. Por ejemplo, al clasificar las provincias por números, pero sin definir en el Diccionario a qué provincia corresponde cada uno o la forma de organización que se empleó (ej. orden alfabético), no se puede identificar la provincia en cada fila. Lo mismo sucede con otras columnas que utilizan números (cantón del establecimiento, parroquia del establecimiento, nacionalidad, condición del paciente, entre otros).
b) Con respecto a la clase, tipo y entidad a la que pertenece el establecimiento no es posible conocer a qué se refiere salvo que tengas un conocimiento técnico en dicho sentido, lo que impide el acceso a la información pública que es ejercida por todos los ciudadanos/as. En este mismo sentido, tampoco es comprensible las columnas relativas a: Causa de lista internacional detallada a 4 dígitos de la CIE-10, Causa de lista internacional detallada a 3 dígitos de la CIE-10, Capitulo lista 221, Lista especial de 221 grupos, y Lista de causas 298. En tal virtud, recomiendo especificar qué debe entenderse por todas estas columnas de manera que cualquier ciudadano pueda comprenderlo y utilizar los datos.
c) En cuanto a la columna “Mes de registro/investigación”, no queda claro a qué fecha exactamente se refiere ya que, por ejemplo, podría confundirse con el mes de ingreso o de egreso del paciente.
d) Se sugiere verificar si es necesario incluir el código del país, tomando en cuenta que ya existe una columna que coloca expresamente el nombre del país. Si se refiere a un código técnico del país respecto de servicios hospitalarios, se debe especificar para mayor claridad en su interpretación.
e) En la columna “sexo” del paciente, recomiendo reemplazar por género.
f) Si existe una columna específica que detalla la fecha de ingreso y otra de egreso, no se estima necesario que existan columnas con el día, el mes y el año de ingreso y egreso, pues solo bastarían las dos primeras. Además, posiblemente por error de tipeo, en la columna “fecha_ingr” se describe en el Diccionario que se refiere a la fecha de egreso, cuando lo correcto es que sea la fecha de ingreso.
g) En la descripción de la columna “día_estad” no queda clara la descripción en el Diccionario porque se encuentra cortada una palabra (dice “Días estad”)
Registro Estadístico de Defunciones generales
En cuanto a la data, existen 2651 datos cuya edad y la codificación de edad no corresponden a la edad de fallecimiento, si se lo compara con la fecha de nacimiento.
Las muertes que no son accidentales o violentas ocupan casi el 92% de los datos, sin embargo, no tienen un tipo presuntivo de muerte.
Se podrían codificar las variables de sexo, provincias, parroquia, área, nacionalidad, código país, etnia estado civil, sabe leer, autopsia, siempre y cuando exista una descripción de forma de codificación en el Diccionario de datos.
En la base de datos la primera columna (“Numeración”) no se sabe qué se refiere porque no está definido en el Diccionario.
En la columna de cantón, está por error la provincia de Pichincha.
En año de nacimiento hay un valor perdido de 9999, en mes de nacimiento 999 y en día de nacimiento también hay 999.
En la edad, verificar si es correcto que existe una cantidad considerable de personas mayores de 100 años.
Existen valores perdidos que dicen “Zonas sin especificar” en la columna de código del país.
En la columna etnia hay valores perdidos como: “otras”, “sin información” y “vacías”, por lo cual se recomienda emplear en todo caso un mismo texto para aquellos casos en los que no aplique.
En nivel de instrucción se coloca, por un lado, “primaria”, y, por otro, “básica”, que equivaldría a lo mismo. Igualmente, hay una opción “secundaria” y otra “educación media/bachillerato”, cuando equivale a lo mismo.
En las columnas “sabe leer”, “autopsia”, lugar de muerte y muerte violenta hay casillas vacías.
En la columna “causa4”, las casillas que dicen C847, C799, C968, D893, O970 y P917 no especifican el tipo de enfermedad o la causa. En la columna “causa”, en la casilla K64 no se especifica la causa o enfermedad como el resto. En las columnas causa67A y causa67B existen casillas con “No aplica”.
En “nivel de instrucción” hay casillas con “Sin información” o casillas vacías, cuando podría completarse con la primera o “No aplica” en aquellos casos que corresponda.
Sobre el Diccionario de datos, tengo las siguientes observaciones:
a) Es necesario especificar en el Diccionario que las causas se basan en el manual de la CIE-10 y dejar sólo los 4 caracteres que conforman el código.
b) Se sugiere verificar si es necesario incluir el código del país, tomando en cuenta que ya existe una columna que coloca expresamente el nombre del país. Si se refiere a un código técnico del país respecto de servicios hospitalarios que, de ser el caso, debe especificarse para mayor claridad en su interpretación.
c) Al existir columnas que especifican las fechas de nacimiento y de fallecimiento, no se considera necesario que existen columnas adicionales para detallar el año, mes y día de ambas fechas.
d) En las columnas relativas a: Causa básica de defunción (categorías - 4 caracteres), Se realizó autopsia/necropsia?, Causa básica de defunción (categorías - 3 caracteres), Lista corta de causas de defunción, Lista condensada (103 causas), Lista de tabulación 2 para la mortalidad subcategorías (80 causas), Lista condensada (67 causas)A (Existen registros en blanco cuando la pregunta no aplica), Lista condensada desagregada (67 causas)B (Existen registros en blanco cuando la pregunta no aplica); no queda claro a qué se refiere cada una o cómo se distinguen, posiblemente al ser una clasificación técnica. Por ello, no resulta posible distinguir entre ellas para un ciudadano común.