Data Engineering 1 - Introducción

DataEngineering

¿Qué es Data Engineering? ¿Qué hace un/a Data Engineer? ¿Qué conocimientos técnicos se necesitan? ¿Dónde capacitarse?


¿Qué es Data Engineering?

Para comprender de qué se trata este campo dentro del ecosistema de Data, primero tenemos que hablar del ciclo de vida de los datos. Existen cuatro pasos generales por los cuales los datos fluyen en una organización.

  1. Primero, se recolectan e ingieren datos de distintas fuentes, como lo puede ser una encuesta, tráfico web, etc. Todos estos datos se almacenan en estado “crudo”, sin ninguna clase de procesamiento o modificación.
  2. El próximo paso es preparar estos datos, lo que incluye la “limpieza de datos”, es decir, encontrar valores perdidos o duplicados y convertir toda esta información a un formato más organizado, entre otras cosas.
  3. Una vez que los datos están limpios y organizados, pueden ser explotados. Por ejemplo, pueden ser explorados, visualizados mediante dashboards para seguir cambios, o también para realizar comparaciones entre distintos conjuntos de datos (datasets).
  4. Finalmente, una vez se tiene un buen entendimiento de los datos, estamos listos para realizar experimentos, como por ejemplo evaluar qué artículo tuvo la mayor cantidad de clicks, o cuál fue la canción más escuchada. También podemos construir modelos predictivos para, por ejemplo, predecir los valores de ciertas acciones en la bolsa.

Data Engineering, y quien la ejerce, el/la Data Engineer, se encargan del primer paso de este ciclo.


El perfil de Ingeniería de Datos

Como dijimos, los Ingenieros de Datos son responsables del primer paso del proceso descrito anteriormente: ingerir y almacenar datos. Estos profesionales tienen una gran responsabilidad ya que establecen los fundamentos sobre los cuales los Analistas de Datos, Científicos de Datos e Ingenieros de Machine Learning realizan su trabajo. Si los datos se hallan dispersos o desorganizados, corrompidos o no es fácil acceder a ellos, no hay mucho que preparar, explorar y por lo tanto, no hay mucho (o nada) con lo que experimentar adecuadamente.

Un Ingeniero de Datos se encarga de entregar:

Entre sus distintas responsabilidades se encuentran:


Las herramientas del Data Engineer

Ahora que sabemos básicamente qué es lo que hace un/a Data Engineer, hablemos sobre los conocimientos técnicos y habilidades blandas que es importante adquirir para desempeñarse con éxito en este campo.

Dentro de los conocimientos técnicos indispensables, podemos destacar los siguientes:


No todo es tecnología

Ahora bien, existen ciertas habilidades que, junto a las técnicas, son importantes que desarrollemos para ser un Data Engineer competente, entre las que se pueden destacar:


Conclusión

La Ingeniería de Datos es la columna vertebral en el ecosistema de datos, responsable de transformar datos en bruto en información accesible y confiable para los equipos de Análisis, Ciencia de Datos y Machine Learning. Desde la ingesta y almacenamiento de datos hasta la creación de arquitecturas robustas y pipelines eficientes, los Ingenieros de Datos establecen la base para extraer valor de grandes volúmenes de información.

Este artículo es un resumen de un artículo más grande y detallado. Si te interesa saber más y encontrar recursos para capacitarte, te invito a leer el post completo en mi blog.

Elias Velazquez

Elias Velazquez

Data Engineer

En algún punto decidí que pelearme con archivos Excel y CSV sería mi pan de cada día. Intento aprender y capacitarme constantemente para pelearme menos.