Preparación de datos

¿Qué es ETL?

  • Extract (extraer): Desde prácticamente cualquier fuente de datos, desde archivos planos hasta complejos, bases de datos o servicios cloud

  • Transform (transformar): Permite modificar o enriquecer la información extraída sin modificar la fuente

  • Load(cargar): Una vez realizada la transformación, se encarga de cargar el resultado en el modelo de datos

Transformar datos con Power Query

Power Query

Es una tecnología de conexión de datos que permite detectar, conectar, combinar y refinar distintas fuentes de datos para satisfacer las necesidades de análisis

¿Qué hace Power Query?

  • Extrae: Desde prácticamente cualquier fuente de datos

  • Transforma: Fusiona, combina, limpia o enriquece los datos

  • Carga: Los datos para su posterior análisis en Power BI

Puntos a considerar

  • El objetivo del Power Query es obtener datos de una variedad de fuentes y prepararlos para su posterior análisis

  • El objetivo de esta herramienta no es analizar los datos

  • Magia: Es la colección de pasos que se realizan para llegar a un resultado, además permite retroceder o avanzar estos, sin modificar el origen de datos. Es similar al proceso que realiza un macro en Excel

Tipos de datos

  • A diferencia de otros programas como Excel, donde los tipos de datos son muy flexibles, en Power BI necesitamos definirlos bien, antes de poder utilizarlos

  • Como en las bases de datos relacionales, cada columna debe tener bien definido su tipo para evitar errores

  • Clases:

    • Decimal fijo: También conocido como tipo de moneda, este tipo de datos tiene una ubicación fija para el separador decimal. El separador decimal siempre tiene cuatro dígitos a la derecha y permite 19 dígitos de importancia. El valor más grande que puede representar es 922.337.203.685.477,5807 (positivo o negativo). A diferencia del número decimal, el tipo número decimal fijo siempre es preciso y, por tanto, es útil en casos en los que la imprecisión de la notación de punto flotante podría introducir errores

    • Texto: Cadena de datos de carácter Unicode. Pueden ser cadenas, números o fechas representadas en un formato de texto. La longitud máxima de cadena es de 268.435.456 caracteres Unicode (donde cada carácter Unicode es de 2 bytes) o 536.870.912 bytes

    • Fecha/tiempo: Representa un valor de fecha y hora. El valor de fecha y hora se almacenan como un tipo de número decimal, por lo que puede convertir de uno a otro. La parte de hora de una fecha se almacena como una fracción en múltiplos enteros de 1/300 segundos (3,33 ms). Se admiten las fechas entre los años 1900 y 9999

    • Tiempo: Representa solo la hora (sin fecha). Cuando se convierte en el modelo, el valor de hora es el mismo que el valor de fecha y hora sin dígitos a la izquierda de la posición decimal

    • Fecha/hora/zona horaria: Representa una fecha y hora UTC con un desplazamiento de zona horaria. Se convierte en fecha y hora cuando se carga en el modelo

    • Duración: Representa un período de tiempo, que se convierte en un tipo de número decimal cuando se carga en el modelo. Como tipo de número decimal, se puede agregar o restar de un campo Fecha y hora con los resultados correctos. Dado que es un tipo de número decimal, puede usarlo fácilmente en visualizaciones que muestran magnitud

    • Booleano: Valor booleano de True o False

    • Binario: El tipo de datos binario se puede usar para representar cualquier otro dato con un formato binario

    • Cualquiera: El tipo de datos Any es el estado dado a una columna que no tiene una definición de tipo de datos explícita. Any es el tipo de datos que clasifica todos los valores. Se recomienda definir siempre explícitamente los tipos de datos de columna para las consultas de orígenes no estructurados y evitar tener columnas con el tipo de datos Any como salida de la consulta

Transformaciones

Transformar: Dar forma a los datos

Transformaciones comunes:

  • Cambiar el nombre de las columnas o las tablas

  • Cambiar el tipo de dato (convertir texto en números, por ejemplo)

  • Quitar filas

  • Configurar la primera fila como encabezado

  • Agregar columnas

  • Dividir columnas

  • Reemplazar valores

  • Filtrar datos

Combinaciones

Combinar: Conectarse a dos o más orígenes de datos, darles la forma necesaria y consolidarlos después en una consulta útil

Combinaciones comunes:

  • Anexar consultas

  • Combinar consultas

  • Combinar binarios

Anexar

  • Permite unir dos o más tablas

  • Se recomienda que ambas tengan la misma estructura, si no, el sistema añade al conjunto final los campos no coincidentes con valores nulos

  • Es similar a una operación UNION del estándar SQL

  • Los resultados pueden ser una nueva consulta o agregarse a un paso existente

  • Pasos:

    • En Transformar datos (Power Query)

    • Menú Combinar/Anexar consultas

Combinar

  • Nos permite tomar dos tablas y cruzarlas mediante uno o más campos en común

  • Suele usarse para complementar información de una tabla

  • Es el equivalente más cercano a la función JOIN del estándar SQL

  • Pasos:

    • Se cargan las tablas normalmente

    • En Transformar datos (Power Query)

    • Elegimos la tabla (de las dos), que queremos combinar con la otra

    • Menú Combinar/Combinar consultas para crear una nueva

    • Elegimos el/los campo/s de combinación

    • Elegimos el tipo de combinación

    • Elegimos los campos de la segunda tabla que queremos obtener

Combinar binarios

  • Esta funcionalidad nos permite extraer las tablas de los archivos a través de un proceso automatizado

  • Suele usarse a través del conector de carpeta

  • Es especialmente útil cuando la fuente de información está demasiado fragmentada para la operación de anexar, en lugar de cargar tabla a tabla de cada archivo los cargamos todos de forma automática

  • Pasos:

    • Nos proporcionan un fichero Excel de ventas de manera semanal o mensual (por ejemplo)

    • Los campos dentro de los ficheros deben tener la misma estructura y además, llamarse igual

    • Elegiremos un campo para combinar los ficheros en la operación

    • Ir a: Obtener datos/Más/Carpeta y conectarnos

    • Botón Combinar

    • Opción Combinar y Cargar

    • En la pantalla Combinar archivos elegimos el parámetro de combinación (una de las tablas)

    • Extraer y anexar

Last updated