Presto SQL, agora Trino, traz o poder das vantagens dos mecanismos de consulta do Big Data Analytics para os data lakes

Publicados: 2021-05-27

O processamento de big data é um dos aspectos críticos desta era digital. As empresas usam mais inteligência artificial, aprendizado de máquina e análise de dados, que produzem e coletam mais dados. Portanto, resulta em grandes quantidades de dados que precisam ser consultados e analisados de forma eficiente.

É aqui que a computação em nuvem e o Presto podem ajudar.

Índice mostrar

O que é Presto?

Conceitos chave

Tipos de servidor

Como o Presto processa as consultas?

Vantagens de usar Presto

1. Fácil integração

2. Desempenho mais rápido

3. Projetado para a nuvem

4. Interface SQL unificada

Para que você pode usar o Presto?

Análise do lago de dados

Consulta ad hoc

Lote ETL

O que é Presto?

De acordo com a definição da Amazon AWS: Presto é um mecanismo de consulta SQL distribuído, criado para realizar consultas analíticas rápidas em conjuntos de dados de qualquer tamanho. Foi renomeado no final de 2020 como Trino para separar o projeto do Prestodb.

O Presto tem a vantagem de ser de código aberto, o que significa que é atualizado regularmente e os desenvolvedores contribuem com frequência.

A plataforma Presto trabalha com fontes de dados não relacionais como:

Amazon S3
Hadoop
HDFS
MongoDB
HBase

E bancos de dados relacionais como:

Meu espaço
PostgresSQL e
Servidor MS SQL

Com o Presto, você pode consultar dados onde quer que estejam armazenados. Isso significa que você não precisa transferir os dados para um banco de dados relacional ou data warehouse. O Presto foi criado para SQL e suporta semântica SQL padrão. Isso inclui subconsultas, consultas complexas, associações externas, contagens distintas e percentis aproximados.

A execução de consultas também é mais rápida, pois é executada paralelamente a uma arquitetura baseada em memória. Portanto, você não precisa mais se preocupar com quanto tempo pode levar para consultar um banco de dados enorme. Os resultados voltam em segundos.

Saiba como implantar o Presto e sua arquitetura em sua documentação.

Leia também: Como atualizar drivers de dispositivo no Windows 10? {Guia Simples}

Conceitos chave

Os principais conceitos de SQL são amplamente conhecidos. Para entender como o Presto funciona, primeiro precisamos entender seus conceitos centrais.

Tipos de servidor

O Presto usa dois tipos de servidor: o servidor coordenador e o servidor trabalhador . Os nós do trabalhador processam as consultas, buscando dados dos conectores. O coordenador busca os resultados e os envia ao cliente. Os servidores coordenadores também analisam instruções e gerenciam nós.

Funciona de forma semelhante aos sistemas de gerenciamento de banco de dados Massive Parallel Processing.

Massive Parallel Processing database management systems Fonte da imagem: tutorialspoint

O Presto usa conectores para vincular o sistema distribuído e a origem, por exemplo, Amazon S3. Os inúmeros conectores do Presto, para fontes relacionais e não relacionais, tornam o sistema extensível a praticamente qualquer fonte de dados.

Leia também: Como atualizar drivers no Windows 10,8,7 – Atualizar drivers de dispositivo

Como o Presto processa as consultas?

Quando o presto recebe uma consulta, ele a executa dividindo-a em vários estágios. Normalmente, o sistema cria um estágio raiz e estágios relacionados. Os estágios são então distribuídos em tarefas entre os nós do trabalhador.

Vantagens de usar Presto

Presto está se tornando muito popular entre grandes empresas como Netflix, Facebook, Atlassian e Airbnb. Por exemplo, o Facebook usa o Presto para processar um petabyte de dados todos os dias, executando mais de 30 mil consultas.

O Presto inclui dois projetos de código aberto separados: PrestoSQL (agora chamado Trino) e PrestoDB. É muito popular para uma ampla variedade de casos de uso, em diferentes tipos de data lakes e data warehouses. Vejamos algumas das vantagens que tornam o Presto tão popular.

1. Fácil integração

Uma das principais vantagens do Presto é que ele se integra ao seu sistema de dados existente sem precisar de modificações. Portanto, ao adicionar o Presto, você adiciona recursos de análise rápida sem precisar ajustar seu sistema existente.

2. Desempenho mais rápido

Uma das razões pelas quais o Presto foi desenvolvido foi porque o Apache Hive existente não teve um bom desempenho com consultas interativas. O Presto foi projetado para lidar com consultas interativas de BI. Além disso, segue o modelo push, processando uma consulta SQL usando vários estágios simultaneamente, ou seja, todos os estágios são canalizados sem esperar entre os estágios.

O Presto também possui transferência de dados de memória para memória, sem a necessidade de gravar dados em disco, melhorando o desempenho.

3. Projetado para a nuvem

O Presto executa o armazenamento e a computação separadamente, o que o torna muito adequado para ambientes em nuvem. As empresas que usam PrestoSQL podem facilmente aumentar ou diminuir a escala, dependendo da carga, sem causar perda de dados. Isso pode acontecer porque o cluster Presto não armazena nenhum dado.

4. Interface SQL unificada

SQL é a linguagem mais popular para análise de dados. Cientistas de dados, analistas e engenheiros usam SQL para processar, analisar e testar dados, integrando-os a ferramentas de inteligência de negócios.

O Presto tem a capacidade não apenas de consultar dados de fontes SQL, mas também de bancos de dados NoSQL, como Elasticsearch e Cassandra. Ele suporta conectividade ANSI-SQL e Postgres. Isso dá ao Presto uma versatilidade que outros sistemas distribuídos não possuem.

A interface é ideal para dados de médio porte porque possui as mesmas funções Window que o PostgreSQL possui.

Leia também: Como atualizar drivers gráficos no Windows 10 {Guia simples}

Para que você pode usar o Presto?

O Presto é usado em vários setores para uma ampla variedade de casos de uso. É especialmente adequado para consultas ad-hoc e interativas. Vamos explorar alguns casos de uso comuns:

Análise do lago de dados

Você pode usar o PrestoSQL para consultar dados em um data lake sem precisar transformar os dados. O Presto permite que você consulte os dados onde eles estão. Portanto, você pode usá-lo para capacitar sua análise de data lake consultando dados estruturados e não estruturados.

Consulta ad hoc

O Presto permite que você execute consultas a qualquer momento, independentemente de onde seus dados residam. Melhor ainda, com os conectores Presto, suas equipes podem acessar conjuntos de dados em uma ampla variedade de fontes de dados e, como as consultas são executadas em segundos em vez de horas, seu sistema funciona mais rápido.

Lote ETL

Em vez de usar sistemas legados de processamento em lote, você pode usar o Presto para executar consultas que são eficientes nos recursos. Você pode agregar dados de várias fontes de dados e realizar consultas de alto rendimento.

Em resumo, o Presto tem várias vantagens para empresas que precisam processar grandes quantidades de dados, realizar consultas ad hoc e interativas e executar análises de diferentes fontes de dados.