Dia 2: Fallas encontradas (data, metadata, diccionario) (E10)

Este espacio está dedicado para compartir los avances de las actividades de este día.

Sobre las actividades, te dejamos una guía a continuación:

Para compartir los avances, cuéntanos lo siguiente:

  • Cuáles son esos 3 conjuntos de datos que seleccionaste para la detección de fallos.
  • En un párrafo cuéntanos qué defectos encontraste en la metadata y/o el diccionario de datos de esos 3 conjuntos de datos.
  • Cuál de esos 3 conjuntos de datos requieren proceso de limpieza. Cuéntanos un poco sobre qué campos/columnas contienen basura, y de qué tipo. campos/columnas contienen basura, y de qué tipo.

Marca el check :white_check_mark: cuando hayas realizado la actividad.

1 me gusta

1.-Cuáles son esos 3 conjuntos de datos que seleccionaste para la detección de fallos.

  1. MEF_BoletinDeuda_SaldosYMovimientosEx2020_Junio2021
  2. MEF_DistributivoRemuneraciones_2022abril
  3. MEF_BoletinDeuda_VentasAnticipadas_Junio2021

2.-En un párrafo cuéntanos qué defectos encontraste en la metadata y/o el diccionario de datos de esos 3 conjuntos de datos.

Mediante un análisis de los 3 conjuntos de datos en un conjunto su base de datos es pequeña, en los otros 2 conjuntos contienen mucha información en cuanto a los datos, los nombres de la columna permite filtrar y poder manejar la base de datos para un análisis en dos conjuntos de datos se puede diferenciar a cierta vista que no están los datos completos que puede ser que no hubo la información o no quisieron responder y lo digitaron con “-“

3.-Cuál de esos 3 conjuntos de datos requieren proceso de limpieza. Cuéntanos un poco sobre qué campos/columnas contienen basura, y de qué tipo.

  1. MEF_BoletinDeuda_VentasAnticipadas_Junio2021

En esta base se puede diferenciar de mejor manera ya que no contiene muchos datos ya que es una matriz de 8 columnas y 5 filas que de igual manera en los datos no registrados tiene el símbolo “-“.

  1. MEF_BoletinDeuda_SaldosYMovimientosEx2020_Junio2021

Se puede observar el símbolo “-“ en las columnas de saldo al mes anterior , desembolsos, amortizaciones, interés y comisiones, ajustes cambiarios, saldo del mes, condonaciones de intereses que son las que más contienen este símbolo que puede ser que los datos no son faltantes si no que no se registran.

1.-Cuáles son esos 3 conjuntos de datos que seleccionaste para la detección de fallos.

1)mef_distributivoremuneraciones_2022abril

2)mef_distributivoremuneraciones_2021octubre

3)mef_boletindeuda_saldoporpais_junio2021

2.-En un párrafo cuéntanos qué defectos encontraste en la metadata y/o el diccionario de datos de esos 3 conjuntos de datos.

Para comenzar el nivel de apertura de datos en todos los casos eran de 3 estrellas, igualmente no hay una descripción clara de la metadata y los tipos de campos que se encuentran en estos datasets, algunos nombres de las columnas son descriptivos pero también hay casos donde se encuentran códigos que no me permite entender la relevancia de estos datos para el posible análisis y desarrollo de un modelo de datos. Hay casos como en kaggle que es más sencillo acceder a los datos anuales ya que se encuentran todos dentro de un mismo repositorio, así mantienen el mismo formato y ayudan a tener un mayor contexto.

3.-Cuál de esos 3 conjuntos de datos requieren proceso de limpieza. Cuéntanos un poco sobre qué campos/columnas contienen basura, y de qué tipo.

1)mef_distributivoremuneraciones_2022abril,

2)mef_distributivoremuneraciones_2021octubre

En ambos casos se evidencia un error de formato en la misma columna, lo que no permite avanzar con el proceso de visualización ni limpieza de datos generales.

3)mef_boletindeuda_saldoporpais_junio2021

Se evidencia que hay muchos datos faltantes que han sido remplazados por el simbolo “-” lo que dificulta hacer un barrido real de datos nulos o faltantes.

Mi aporte es la revisión de una de las bases de datos seleccionadas en el Día 1. Utilice esta matriz para trasmitir lo que encontré.

image

Conforme a la revisión realizada de las bases de datos y de acuerdo a lo que yo seleccioné fue la base de Datos relacionada con Remuneraciones , cuya motivación fue por que me inetesaba nalizar cúal es el comportamiento de la Renumeneraciones en el Sector Público y como y cúanto el Gobierno destina para ello.

En cuanto a las fallas encontradas de la base de datos antes mencionada no pude identificar de forma clara y precisa ya que a mi juicio yo recequería de un software que me permita poder realizar la presente actividad.