Comparto la tarea del Grupo 10 del día 3 23 de junio, de acuerdo a las indicaciones dadas:
Primer dataset
Dataset seleccionado mef_distributivoremuneraciones_2021agosto_v3
Después de un análisis de los datasets más a fondo llegue a la conclusión que en el portal de datos abiertos se pueden encontrar 3 tipos de datasets distintos, el primero es el que es relativamente nuevo y no tiene más de 500 registros y/o más de la mitad de datos son inexistentes, el segundo tipo de dataset es en el que puedes encontrar muchos datos pero dentro de estos hay fallos de formato lo cual hace imposible un mapeo inicial de datos en herramientas de análisis y limpieza, por lo que toca hacer una primera limpieza manual y el tercer tipo de dato es el mas optimo donde no se encuentran variables faltantes y parecen ya haber pasado por un proceso de limpieza.
De todos los tipos elegí el último ya que se puede apreciar más un entorno semi real de limpieza de datos.
- Realizar proceso de limpieza a los conjuntos de datos seleccionados
Para el proceso de análisis y limpieza de datos utilice el Programa rapidMiner ya que posee muchas funciones que facilitan este proceso. Después de ver que este dataset no tenía data faltante, seguí con el proceso de análisis individual por columna y su validez para entrenar un posible modelo.Para estas columnas especificadas arriba se puede apreciar un patrón no cambiante por lo que se puede prescindir de estas columnas ya que todos los registros poseen el mismo o un valor parecido



Segundo daset
MEF: Ejecución del Presupuesto General del Estado (PGE) en gastos de personal 2022/abril

Primeramente se revisó el diccionario de esta base con el fin de comprender e identificar si cada uno de los campos estaba descrito.
- Realizar proceso de limpieza a los conjuntos de datos seleccionados
Seguido se exploró los valores de los datos por intermedio de la opción de filtros de Excel. Sin embargo, dado que es una base de datos de 154329 rows × 18 columns, se consideró explorar y analizarla en Python por intermedio de la librería Pandas.
Aquí exploramos la coherencia de las variables (cabeceras de las columnas) para determinar si correspondían a sus valores (tipo de dato)

La exploración anterior permite observar que algunos campos que se ven como datos numéricos (int64) en realidad son códigos o etiquetas. Por ejemplo: SECTOR, GRUPO_GASTO, CODIGO_EOD, entre otras. Por lo tanto, si se tuviera interés de trabajar con estas variables, necesariamente se las debe de transformar a tipo de variable correspondiente.
Se realizó el proceso necesario y se obtuvo lo siguiente:

Luego se planteó la pregunta, ¿Hay valores NaN (Not a Number) (no es número) en la DataFrame?
Se aplicó el análisis y se obtuvó:

De esta manera, consideramos que la base contiene valores consistentes.
Tercer dataset
Dataset seleccionado: mef_ejecuciónnóminas_2021diciembre
- Seleccionar los conjuntos de datos definitivos que podrían tener respuestas a nuestras inquietudes.
Luego de seleccionar este dataset observamos que tienen un total de datos 200.000 aproximadamente donde existen varias columnas que no aportan datos relevantes, es decir hay datos repetitivos en sus respectivas columnas, por ejemplo el dato de fecha registrado como periodo fiscal.
Según los resultados no hay ningún valor faltante, pero tenemos datos con valor 0 en el caso de las variables numéricas. Según las gráficas existen valores raros o defectuosos, en otros casos tenemos un mínimo de 0 y montó de 20 millones en una variable con una desviación de casi 399 mil.
El diccionario de datos correspondiente inicia con una buena descripción de las variables pero luego tenemos variables numéricas asociadas a resoluciones las cuales no son entendibles para una persona que no conoce sobre el tema o por lo menos informado con las actividades de la resolución, se debería mejorar esas descripciones con el fin de ser interpretados de una mejor manera.
- Realizar proceso de limpieza a los conjuntos de datos seleccionados.
Para una mejor aplicación igualmente utilizamos el Programa RapidMiner que facilita este proceso. Iniciamos analizando cada variable recorriendo columna por columna e identificando datos repetitivos, en este caso teníamos columnas con un valor repetitivo de 0 y otras dos variables con la misma fecha para todos los datos con un total de 15 variables eliminadas y procedimos a eliminarlos ya que más bien al conservarlos pueden afectar el análisis.
Dentro de la variable monto_sueldo, partida individual y cant_nominas gráficamente observamos que tenemos datos muy extremos y se observaron muy pocos datos atípicos los cuales podríamos quitarlos sin que nos afecte el análisis.
