Día 2: Fallas encontradas (data, metadata, diccionario)

Actividades del Día 2 | 22/junio

Este día tendremos las siguientes actividades:

  1. Entrar en los conjuntos de datos pre-seleccionados, y revisar su contenido.
  2. Detectar fallas en los conjuntos de datos (metadata, diccionario de datos, datos).
  3. Publicar los avances de este día.

1. Entrar en los conjuntos de datos pre-seleccionados y revisar su contenido.

Ahora es cuando entraremos a mirar dentro los conjuntos de datos pre-seleccionados. El objetivo es familiarizarnos con los datos, sus estructuras, y echar una primera mirada. En este punto no importa tanto los datos, sino la estructura (metada, diccionario de datos).

2. Detectar fallas en los conjuntos de datos.

Usaremos las técnicas aprendidas en el taller M4: Pre-procesamiento de datos para poner atención en las posibles fallas que podamos encontrar.

Debemos poner atención particularmente en lo siguiente:

  • Metada incompleta, ausente, etc.
  • Diccionario de datos, incompleto, ausente, incoherente, etc.
  • ¿La Data requiere algún proceso de limpieza.?

3. Publicar los avances de este día

Una vez terminada las dos primeras actividades lo siguiente será compartir, en el espacio creado para tu equipo, los avances logrados. Esto puedes hacerlo con el botón azul Responder al final del espacio de trabajo de tu equipo.
image

Recomendaciones

Navegar por los datos puede ser apasionante, y también abrumador. Para que podamos aprovechar al máximo la experiencia, te recomendamos lo siguiente:

  • Empieza con la metadata y el diccionario de datos. Deja los datos para el final.
  • Entre los 10 (o más) conjuntos de datos que pre-seleccionaste, elige al menos 3 para detectar fallas. Si te alcanza el tiempo puedes seguir con más.

Para compartir los avances, cuéntanos lo siguiente:

  • :ballot_box_with_check: Cuáles son esos 3 conjuntos de datos que seleccionaste para la detección de fallos.
  • :ballot_box_with_check: En un párrafo cuéntanos qué defectos encontraste en la metadata y/o el diccionario de datos de esos 3 conjuntos de datos.
  • :ballot_box_with_check: Cuál de esos 3 conjuntos de datos requieren proceso de limpieza. Cuéntanos un poco sobre qué campos/columnas contienen basura, y de qué tipo.

Si aún te queda tiempo, te recomendamos hacer el mismo ejercicio con el resto de conjuntos de datos pre-seleccionados. Este es un buen ejercicio para familiarizarte con los datos.

Recuerda que el equipo técnico del HUB-UIO y las/os mentores estamos atentos a resolver tus dudas.

Recursos