Este espacio está dedicado para compartir los avances de las actividades de este día.
Sobre las actividades, te dejamos una guía a continuación:
Para compartir los avances, cuéntanos lo siguiente:
Cuáles son esos conjuntos de datos afortunadas que seleccionaste para trabajar.
Los conjuntos de datos seleccionados ¿necesitaron del proceso de limpieza? Cuéntanos cómo realizaste el proceso de limpieza, si conocías una herramienta para ello, o si utilizaste alguna recomendada en la mentoría. Comparte esa experiencia en un párrafo.
Marca el check cuando hayas realizado la actividad.
Adjunto las actividades realizadas por el Equipo 11 Sincronía
Limpieza de datos
BONO JOAQUIN GALLEGOS LARA
A partir de los problemas detectados se realizó principalmente una reducción dimensional, pues la columna de recuento podría ser eliminada, porque siempre tiene un valor de 1.
Como no existía valores vacíos, no se pudo aplicar ninguna imputación, pero se aprovechó para codificar los valores de cada campo, pues están denominados con texto, cuando evidentemente podría estar solo números, o la inicial como en el caso de sexo, ya sea la f para femenino, o m para masculino.
VIVIENDA DE INTERÉS SOCIAL
Para la limpieza del conjunto de datos, se realiza lo recomendado en la charla
En la primera fila se coloca el filtro para facilitar el análisis
Se encuentra información redundante, en este caso la columna tipo de beneficio, que tiene una sola categoría Vivienda Casa Para Todos
Se prescinde de esta columna
Al igual que en la base de datos anterior, se codifica Masculino y Femenino (M, F) y también el tipo de discapacidad: Auditiva, Intelectual, Física, Visual, Psicosocial, (A, I, F, V, P)
Cuáles son esos conjuntos de datos afortunadas que seleccionaste para trabajar.
Vivienda de Interés Social
Registro Nacional de Discapacidades
Vacuna Covid19
Los conjuntos de datos seleccionados ¿necesitaron del proceso de limpieza?
Vacunas Covid19, necesito de limpieza en cuanto al tipo de vacuna, para facilitar el entendimiento y análisis de esta columna seria mejor acortar el nombre de las mismas a las ya conocidas "PFIZER, AZTRASENECA y SINOVAC, en lugar del nombre científico.
Además para facilitar el manejo si se lo realiza en R, Stata u otro programa estadístico sería mejor especificar el sexo mediante los códigos 1 y 2 o M y F, y especificarlo en el diccionario de datos.
Cuéntanos cómo realizaste el proceso de limpieza, si conocías una herramienta para ello, o si utilizaste alguna recomendada en la mentoría. Comparte esa experiencia en un párrafo
Para el proceso de limpieza lo realice en excel a través de la formula Si, en este base no existian espacios vacíos
TIPO DE VACUNA
=SI(F2=“BNT162b2 PFIZER”,“PFIZER”,SI(F2=“CoronaVac SINOVAC”,“Sinovac”,SI(F2=“CHADOX1S RECOMBINANTE ASTRAZENECA”,“AZTRASENECA”,“NA”)))
SEXO
=SI(D2=“Mujer”,1,2)