Este espacio está dedicado para compartir los avances de las actividades de este día.
Sobre las actividades, te dejamos una guía a continuación:
Para compartir los avances, cuéntanos lo siguiente:
Cuáles son esos conjuntos de datos afortunadas que seleccionaste para trabajar.
Los conjuntos de datos seleccionados ¿necesitaron del proceso de limpieza? Cuéntanos cómo realizaste el proceso de limpieza, si conocías una herramienta para ello, o si utilizaste alguna recomendada en la mentoría. Comparte esa experiencia en un párrafo.
Marca el check cuando hayas realizado la actividad.
La metadata que seleccione es INEC_DefuncionesGenerales_2020 en el cual pude identificar varios datos perdidos.
hay que considerar los siguientes puntos:
Son variables cualitativas, por ende los metodos de imputacion de datos, es decir reemplazar su valor por otro modificarian los resultados del analisis
La metadata tiene varios valores vacios, por ende dificulta el analisis de dichas variables
Tomando a consideracion los puntos antes mencionados la mejor opcion para el proceso de limpieza es simplemente eliminar dichas variables (parroquia, año, mes) y no tomarlas en cuenta para el analisis.
Conjunto de datos: Registro Estadístico de Defunciones Generales-2020
De las observaciones realizadas ayer, la mayor novedad era la falta de datos en los campos prov_insc, cant_insc, parr_insc, anio_insc, mes_insc, dia_insc, fecha_insc. Corresponden a 1,12% del total de registros.
Opté por convertir esos registros en una base de datos aparte (creé otra hoja de cálculo dentro del mismo libro, con nombre “SN_prov_insc”). Aún así quedan 121 registros que tiene el dato “9999” en el campo “anio_nac”.
Dentro de los datos de la hoja SN_prov_insc, se encuentra el registro 24348, en el que consta como fecha_nac el dato 9999-99-99. Se opta por borrar este dato, de tal forma que queda ese campo en blanco, de forma similar a lo que sucede con todos los registros en los que “anio_nac” es 9999.
Por lo pronto, se considera que con esa base da datos (bueno, con las dos bases de datos) se podrá trabajar el próximo día.
El mayor problema que se prevé es que los campos relacionados con “causa” generen inconvenientes de visualización (tienen categorías entre 3 y 120 caracteres).
Conjunto de datos: Encuesta Nacional de Salud y Nutrición – ENSANUT 2018
Para cada base.
Se necesito proceso de limpieza que fue el siguiente:
Se elimino signos innecesarios.
Se procedió a la codificación de algunas variables como Provincia.
Se imputo algunas observaciones por no tener información como el caso de f1_s2_3_2.
Se homogenizo las respuestas como en el caso de la variable f1_s2_11 con las respuesta no tiene discapacidad a no.
En las variables títulos obtenidos y profesión se uso una respuesta puesto que existía la misma, pero con otros caracteres que al momento de procesar arrojaba como si existieran dos ejemplo el caso del titulo de economista, es la misma profesión, pero está escrita una respuesta con la primera letra en mayúscula, otra en minúscula y por último con espacio al final.
Para realizar esta limpieza utilice el programa de Excel con las distintas funciones porque es la herramienta que más domino.
Trabajare con la base de datos: “INEC_DefuncionesGenerales_2020” convirtiendo el csv del archivo de la base de datos a xlsx que ya es el formato que se usa en “Exel”
Con los datos tenemos en nuestra base voy a tomar de ejemplo, que queremos conocer principalmente el porcentaje de muertes en el Ecuador por provincia, la causa y otras circunstancias que nos presentan será en segundo plano para posteriores objetivos.
En nuestro diccionario encontramos que algunas variables cuentan con un mensaje que resumido nos dice que se presentan datos vacíos por que no existe aún registro del echo, para nuestro ejemplo limpiaremos los datos vacíos que estén presentes en la columna prov_insc ya que no nos servirán en nuestro estudio y no podemos solo intuir el lugar. Estos datos vacíos representan el 1,21% de la información por lo que prescindiremos de ellos.
En cuanto a columnas algunas no presentan información importante o simplemente no presentan información como por ejemplo cod_edad donde solo nos dice “AÑOS” por lo que eliminaremos esta variable, así mismo tenemos 4 variables que presentan causas de la muerte, pero una de estas contiene una lista condensada con 107 principales causas que abarcan todos nuestros casos y las demás son subclases de estas, para nuestro ejemplo sería suficiente así que borraremos las otras 3 columnas.
Las columnas lug_viol, mor_viol no presentan demasiada información y mayoritariamente están vacías, un 91,85% de las filas están vacías por lo que considero poco importante la información que brindan así que también las considero basura y las elimino
Tomando en cuenta estas recomendaciones tendríamos ya una base de datos manejable y lista para plantearnos otras preguntas para resolver.
En los conjuntos de datos cuyas columnas tenían una cantidad mínima de celdas vacías se realizó un promedio entre las celdas llenas, de esta manera completarlas. Mientras que las variables que no contaban con varios valores, en un conjunto de bastantes variables, se decidió eliminarlas para poder hacer su respectivo análisis en el futuro.
El conjunto de datos analizado, Registro Estadístico de Defunciones Generales-2020, requiere limpieza:
Se identifico varios datos perdidos, son
mínimos, por columna (Ej. fecha_nac:122), se reemplazo con un valor que nos permita identificarlos.
A los campos en blanco se coloco un valor tipo, a fin de generar reportes adecuados
-Información con diferente formato (se estandarizo formato)
Se realizo limpieza en excel.
Estimados organizadores, cumpliendo la consigna de este día comunico que el Equipo 2 Metadata acuerda lo siguiente:
Los conjuntos de datos afortunados que seleccionamos para trabajar son:
Encuesta Nacional de Salud y Nutrición – ENSANUT 2018
INEC_DefuncionesGenerales_2020
MSP Nutrición
Conjuntos de datos que necesitaron limpieza. Proceso de limpieza:
Los dos primeros conjuntos de datos necesitaron limpieza mientras que MSP no necesitó ya que la base se encontró limpia y sencilla. En los conjuntos de datos que demandaron limpieza fueron en algunos campos con variables cualitativas que al reemplazarlos (imputarlos) se modificarían los resultados del análisis, se procedió a la eliminación de dichas variables (parroquia, año, mes). Dentro de los datos de la hoja SN_prov_insc, se encuentra el registro 24348, en el que consta como fecha_nac el dato 9999-99-99. Se opta por borrar este dato, de tal forma que queda ese campo en blanco, de forma similar a lo que sucede con todos los registros en los que “anio_nac” es 9999.
Por lo pronto, se considera que con las dos bases de datos se puede continuar con el trabajo. En las variables “títulos obtenidos” y “profesión” se usó una respuesta puesto que existía la misma, pero con otros caracteres que al momento de procesar arrojaba como si existieran dos. Para realizar esta limpieza se utilizó el programa de Excel con las distintas funciones. En el diccionario de defunciones encontramos que algunas variables cuentan con un mensaje que dice que se presentan datos vacíos porque no existe aún registro del hecho, para nuestro ejemplo limpiaremos los datos vacíos que estén presentes en la columna prov_insc ya que no nos servirán en nuestro estudio y no podemos solo intuir el lugar. Estos datos vacíos representan el 1,21% de la información por lo que prescindiremos de ellos. En los conjuntos de datos cuyas columnas tenían una cantidad mínima de celdas vacías se realizó un promedio entre las celdas llenas, de esta manera completarlas. Mientras que las variables que no contaban con varios valores, en un conjunto de bastantes variables, se decidió eliminarlas para poder hacer su respectivo análisis en el futuro. A los campos en blanco se colocó un valor tipo, a fin de generar reportes adecuados. Información con diferente formato se estandarizó. Se realizó limpieza en excel. Los sustentos de esta redacción se pueden observar en las interacciones de los miembros de este Equipo.
De igual forma he evaluado el conjunto de datos * INEC_DefuncionesGenerales_2020.
He realizado este proceso de limpieza:
Clasifiqué por colores las columnas con:
Información redundante o innecesaria
Aquellas donde se puede aumentar la categoría: sin información
Aquellas donde se puede completar infieriendo en base a otra columna
En una copia eliminar las columnas que no sirven.
En las vacías aumentar la categoría sin información porque no es una respuesta numérica sino textual.
Unificar categorías de respuesta redundantes “negro” =“afrodescendiente”
No he eliminado ninguna de las observaciones. Simplemente se observará la categoría “falta de información” al momento de contar e interpretar la variable de interés.