Día 3: Conjunto de datos seleccionado y razones (E11)

Este espacio está dedicado para compartir los avances de las actividades de este día.

Sobre las actividades, te dejamos una guía a continuación:

Para compartir los avances, cuéntanos lo siguiente:

  • Cuáles son esos conjuntos de datos afortunadas que seleccionaste para trabajar.
  • Los conjuntos de datos seleccionados ¿necesitaron del proceso de limpieza? Cuéntanos cómo realizaste el proceso de limpieza, si conocías una herramienta para ello, o si utilizaste alguna recomendada en la mentoría. Comparte esa experiencia en un párrafo.

Marca el check :white_check_mark: cuando hayas realizado la actividad.

Adjunto las actividades realizadas por el Equipo 11 Sincronía

Limpieza de datos

BONO JOAQUIN GALLEGOS LARA
A partir de los problemas detectados se realizó principalmente una reducción dimensional, pues la columna de recuento podría ser eliminada, porque siempre tiene un valor de 1.
Como no existía valores vacíos, no se pudo aplicar ninguna imputación, pero se aprovechó para codificar los valores de cada campo, pues están denominados con texto, cuando evidentemente podría estar solo números, o la inicial como en el caso de sexo, ya sea la f para femenino, o m para masculino.

VIVIENDA DE INTERÉS SOCIAL

Para la limpieza del conjunto de datos, se realiza lo recomendado en la charla

  1. En la primera fila se coloca el filtro para facilitar el análisis
  2. Se encuentra información redundante, en este caso la columna tipo de beneficio, que tiene una sola categoría Vivienda Casa Para Todos
  3. Se prescinde de esta columna
  4. Al igual que en la base de datos anterior, se codifica Masculino y Femenino (M, F) y también el tipo de discapacidad: Auditiva, Intelectual, Física, Visual, Psicosocial, (A, I, F, V, P)
    Codificación
    Imagen Vivienda Casa Para todos
  • Cuáles son esos conjuntos de datos afortunadas que seleccionaste para trabajar.
  1. Vivienda de Interés Social
  2. Registro Nacional de Discapacidades
  3. Vacuna Covid19
  • Los conjuntos de datos seleccionados ¿necesitaron del proceso de limpieza?

Vacunas Covid19, necesito de limpieza en cuanto al tipo de vacuna, para facilitar el entendimiento y análisis de esta columna seria mejor acortar el nombre de las mismas a las ya conocidas "PFIZER, AZTRASENECA y SINOVAC, en lugar del nombre científico.
Además para facilitar el manejo si se lo realiza en R, Stata u otro programa estadístico sería mejor especificar el sexo mediante los códigos 1 y 2 o M y F, y especificarlo en el diccionario de datos.

Cuéntanos cómo realizaste el proceso de limpieza, si conocías una herramienta para ello, o si utilizaste alguna recomendada en la mentoría. Comparte esa experiencia en un párrafo
Para el proceso de limpieza lo realice en excel a través de la formula Si, en este base no existian espacios vacíos

TIPO DE VACUNA
=SI(F2=“BNT162b2 PFIZER”,“PFIZER”,SI(F2=“CoronaVac SINOVAC”,“Sinovac”,SI(F2=“CHADOX1S RECOMBINANTE ASTRAZENECA”,“AZTRASENECA”,“NA”)))
SEXO
=SI(D2=“Mujer”,1,2)
image