Pre-procesamiento de datos

Descripción

Es importante desarrollar habilidades básicas para trabajar con datos, independientemente de la carrera o área de especialización. Los datos, y las habilidades para trabajar con ellos, son transversales a cualquier especialidad. Hoy en día, denota una importante diferencia competitiva en nuestro desarrollo profesional.

Hector Guacapiña, nos enseñará cómo trabajar con los datos, en esta primera etapa de pre-procesamiento, y qué consideraciones técnica debemos tener al trabajar con datos.

CONTENIDO:
1. Colección e integración de los datos
2. Limpieza de los datos
3. Transformación de los datos
4. Reducción de los datos

El propósito fundamental de la preparación de datos es manipular y transformar los datos sin procesar para que el contenido de información incluido en el conjunto de datos pueda exponerse más fácilmente. Los datos reales pueden ser impuros, pueden conducir a la extracción de patrones o reglas pocos útiles, debido a datos incompletos, datos con ruido y datos inconsistentes.

La preparación de datos puede generar un conjunto de datos más pequeño que el original, lo cual puede mejorar la eficiencia del proceso de minería de datos, entre esto incluye: la selección relevante de datos (eliminación de registros dobles, eliminación de anomalías), reducción de datos (selección de características, muestreo o selección de instancias, discretización)

La preparación de datos genera datos de calidad, los cuales pueden conducir a patrones o reglas de calidad, por ejemplo, se puede: recuperar información incompleta, eliminar outliers y resolver conflictos.


Hector Gastón Guacapiña

Usuario: @Hector_Guacapina

image


Egresado de la carrera de Ingeniería Matemática, Escuela Politécnica Nacional
Pasante y Analista de datos en el proyecto FORECCSA- Ministerio del Ambiente del Ecuador
Consultor independiente en formulación y gestión de proyectos, analista de datos, levantamiento de encuestas y visualización de datos.


Confirma tu asistencia a la transmisión en vivo del taller

Mira la charla grabada

Agenda tus sesiones de ayuda con Hector Guacapiña:

Marca los horarios que solicitas la mentoría: (sólo puedes marcar dos opciones):

Modalidad virtual:

0 participantes

Modalidad presencial:

  • Sat 25 June 2022 || 02:30 a 10:00
  • Sat 25 June 2022 || 03:00 a 10:30
  • Sat 25 June 2022 || 03:30 a 11:00

0 participantes

Saludos, para la charla les comparto bases de datos descargadas de educación, salud y nutrición del conjunto de datos abiertos, que lo iremos trabajando mediante se desarrollan los temas del taller.
Bases de datos - taller

Hola. Hasta que porcentaje de los datos recomedarías o es aceptable hacer imputación ? Igual o menos del 1%? 5% es aceptable?

si por favor precisar cuales son las condiciones que se debe tomar en cuenta para quitar un segmento de datos que no tiene data depurada, es cuando la cantidad de registros es menor al 1% de la cantidad total de registros ? favor su ayuda

Un porcentaje recomendable seria un 5%, y esto va de la mano de que tan grande es la base de datos porque el porcentaje puede variar, es decir un 5% de mil datos no es lo mismo que un 5% de 20 datos, entonces ahi pueden o aumentar el porcentaje de imputacion o disminuir respectivamente.

2 Me gusta

Un dato o un bloque de datos lo sacariamos si no tiene mucha información como el ejemplo que hice donde una fila casi todos sus valores eran valores perdidos, y en cambio imputamos un valor en una fila porque solo nos faltabs ese dato para completar el registro, es decir si hay muchos valores perdidos en una fila mejor le sacamos y si hay pocos valores perdidos en una fila imputamos con algun valor estadístico (media, mediana, moda, etc)

Hola!! Tengo dos consultas:
a) Con los valores perdidos, no me queda clara la diferencia entre la opción “Ignorar casos con valores perdidos” y la de “Tratar el valor perdido como un valor aparte”. De igual manera, no me queda clara la diferencia entre “Imputación” y “Posibilidad de hacer la imputación condicionando al valor de la clase del caso concreto”.
b)¿La limpieza de datos solo se relaciona con el tema de valores perdidos?

Gracias :slight_smile:

Buenas noches, “Ignorar casos con valores perdidos” hace referencia a eliminar la fila que contenga el valor perdido y “tratar un valor perdido como un valor aparte” en este caso lo sacamos de la base de datos pero no lo borramos sino que lo almacenamos para analizar con mas valores perdidos que se encuentren en la base de datos.
Ahora “Imputación” es llenar o reemplazar el valor perdido por alguna medida estadística (media, mediana o moda) y “Posibilidad de hacer la imputación condicionando al valor de la clase del caso concreto”, hace referencia cuando en grupo de datos (no toda la base de datos) que tienen una característica en común ,puede ser color, edad u otras, hay un valor perdido entonces solo trabajamos con los datos que tengan la característica en común para poder realizar la imputación.
Cabe mencionar que para imputar datos o rellenar datos vacíos existe un amplio campo de estudio dependiendo de que tan robusto quiere que sea el análisis de datos que este realizando

Gracias por la aclaración!!

1 me gusta

El cáculo del margen de error no es un tma aleatorio como indicaba el profesor sino que va a depender de algunos criterios, uno de los cuales es el tamaño de la muestra. Sin embargo, el rango que existe para la fijación de dicho porcentaje fluctúa entre 1 a 5%, lo cual evidencia un alto grado de confianza.

2 Me gusta