Presto SQL, ahora Trino, lleva el poder de las ventajas de los motores de consulta de Big Data Analytics a los lagos de datos

Publicado: 2021-05-27

El procesamiento de big data es uno de los aspectos críticos de esta era digital. Las empresas utilizan más inteligencia artificial, aprendizaje automático y análisis de datos, que producen y recopilan más datos. Por lo tanto, da como resultado cantidades masivas de datos que deben consultarse y analizarse de manera eficiente.

Aquí es donde la computación en la nube y Presto pueden ayudar.

Mostrar tabla de contenido

¿Qué es Presto?

Conceptos clave

Tipos de servidor

¿Cómo procesa Presto las consultas?

Ventajas de usar Presto

1. Fácil integración

2. Rendimiento más rápido

3. Diseñado para la nube

4. Interfaz SQL unificada

¿Para qué puedes usar Presto?

Análisis de lago de datos

Consultas ad hoc

ETL por lotes

¿Qué es Presto?

Según la definición de Amazon AWS: Presto es un motor de consulta SQL distribuido, creado para realizar consultas analíticas rápidas en conjuntos de datos de cualquier tamaño. Se renombró a fines de 2020 como Trino para separar el proyecto de Prestodb.

Presto tiene la ventaja de ser de código abierto, lo que significa que se actualiza regularmente y los desarrolladores contribuyen con frecuencia.

La plataforma Presto funciona con fuentes de datos no relacionales como:

Amazonas S3
Hadoop
HDFS
MongoDB
HBase

Y bases de datos relacionales como:

Mi espacio
PostgreSQL y
Servidor MS SQL

Con Presto, puede consultar datos dondequiera que estén almacenados. Eso significa que no necesita transferir los datos a una base de datos relacional o un almacén de datos. Presto se creó para SQL y es compatible con la semántica de SQL estándar. Esto incluye subconsultas, consultas complejas, combinaciones externas, recuentos distintos y percentiles aproximados.

La ejecución de consultas también es más rápida, ya que se ejecuta en paralelo a una arquitectura basada en memoria. Por lo tanto, ya no tiene que preocuparse por cuánto tiempo podría llevar consultar una base de datos masiva. Los resultados regresan en segundos.

Aprenda a implementar Presto y su arquitectura en su documentación.

Lea también: ¿Cómo actualizar los controladores de dispositivos en Windows 10? {Guía sencilla}

Conceptos clave

Los conceptos clave de SQL son ampliamente conocidos. Para comprender cómo funciona Presto, primero debemos comprender sus conceptos básicos.

Tipos de servidor

Presto utiliza dos tipos de servidores: el servidor coordinador y el servidor trabajador . Los nodos trabajadores procesan las consultas y obtienen datos de los conectores. El coordinador obtiene los resultados y los envía al cliente. Los servidores coordinadores también analizan declaraciones y administran nodos.

Funciona de forma similar a los sistemas de gestión de bases de datos Massive Parallel Processing.

Massive Parallel Processing database management systems Fuente de la imagen: tutorialspoint

Presto utiliza conectores para vincular el sistema distribuido y el origen, por ejemplo, Amazon S3. Los numerosos conectores de Presto, a fuentes relacionales y no relacionales, hacen que el sistema sea extensible a casi cualquier fuente de datos.

Lea también: Cómo actualizar controladores en Windows 10,8,7 - Actualizar controladores de dispositivos

¿Cómo procesa Presto las consultas?

Cuando presto recibe una consulta, la ejecuta dividiéndola en varias etapas. Normalmente, el sistema crea una etapa raíz y etapas relacionadas. Luego, las etapas se distribuyen en tareas en los nodos trabajadores.

Ventajas de usar Presto

Presto se está volviendo muy popular entre grandes empresas como Netflix, Facebook, Atlassian y Airbnb. Por ejemplo, Facebook usa Presto para procesar un petabyte de datos todos los días, ejecutando más de 30 000 consultas.

Presto incluye dos proyectos separados de código abierto: PrestoSQL (ahora llamado Trino) y PrestoDB. Es muy popular para una amplia gama de casos de uso, en diferentes tipos de lagos de datos y almacenes de datos. Veamos algunas de las ventajas que hacen que Presto sea tan popular.

1. Fácil integración

Una de las principales ventajas de Presto es que se integra con su sistema de datos existente sin necesidad de modificaciones. Por lo tanto, al agregar Presto, agrega capacidades de análisis rápido sin necesidad de modificar su sistema existente.

2. Rendimiento más rápido

Una de las razones por las que se desarrolló Presto fue porque el Apache Hive existente no funcionaba bien con las consultas interactivas. Presto está diseñado para manejar consultas de BI interactivas. Además, sigue el modelo push, procesando una consulta SQL utilizando varias etapas al mismo tiempo, lo que significa que todas las etapas se canalizan sin esperar entre etapas.

Presto también tiene transferencia de datos de memoria a memoria, sin necesidad de escribir datos en el disco, lo que mejora el rendimiento.

3. Diseñado para la nube

Presto ejecuta el almacenamiento y los cálculos por separado, lo que lo hace muy adecuado para entornos de nube. Las empresas que utilizan PrestoSQL pueden escalar hacia arriba o hacia abajo fácilmente según la carga sin causar pérdida de datos. Esto puede suceder porque el clúster de Presto no almacena ningún dato.

4. Interfaz SQL unificada

SQL es el lenguaje más popular para el análisis de datos. Los científicos, analistas e ingenieros de datos utilizan SQL para procesar, analizar y probar datos, integrándolos con herramientas de inteligencia empresarial.

Presto tiene la capacidad no solo de consultar datos de fuentes SQL, sino también de bases de datos NoSQL como Elasticsearch y Cassandra. Soporta conectividad ANSI-SQL y Postgres. Esto le da a Presto una versatilidad que otros sistemas distribuidos no tienen.

La interfaz es ideal para datos de tamaño mediano porque tiene las mismas funciones de Windows que tiene PostgreSQL.

Lea también: Cómo actualizar los controladores de gráficos en Windows 10 {Guía simple}

¿Para qué puedes usar Presto?

Presto se utiliza en todas las industrias para una amplia variedad de casos de uso. Es especialmente adecuado para consultas ad-hoc e interactivas. Exploremos algunos casos de uso comunes:

Análisis de lago de datos

Puede usar PrestoSQL para consultar datos en un lago de datos sin necesidad de transformar los datos. Presto le permite consultar los datos donde se encuentran. Por lo tanto, puede usarlo para potenciar el análisis de su lago de datos consultando datos estructurados y no estructurados.

Consultas ad hoc

Presto le permite ejecutar consultas en cualquier momento, independientemente de dónde residan sus datos. Aún mejor, con los conectores de Presto, sus equipos pueden acceder a conjuntos de datos en una amplia gama de fuentes de datos y, dado que las consultas se ejecutan en segundos en lugar de horas, su sistema funciona más rápido.

ETL por lotes

En lugar de usar sistemas de procesamiento por lotes heredados, puede usar Presto para ejecutar consultas que son eficientes en recursos. Puede agregar datos de varias fuentes de datos y realizar consultas de alto rendimiento.

En resumen, Presto tiene varias ventajas para las empresas que necesitan procesar grandes cantidades de datos, realizar consultas interactivas ad hoc y ejecutar análisis de fuentes de datos dispares.