Presto SQL, ora Trino, porta i vantaggi dei motori di query di Big Data Analytics a Data Lakes

Pubblicato: 2021-05-27

L'elaborazione dei big data è uno degli aspetti critici di questa era digitale. Le aziende utilizzano più intelligenza artificiale, machine learning e analisi dei dati, che producono e raccolgono più dati. Pertanto, si traduce in enormi quantità di dati che devono essere interrogati e analizzati in modo efficiente.

Ecco dove il cloud computing e Presto possono aiutare.

Mostra il sommario

Cos'è Presto?

Concetti chiave

Tipi di server

In che modo Presto elabora le query?

Vantaggi dell'utilizzo di Presto

1. Facile integrazione

2. Prestazioni più veloci

3. Progettato per il cloud

4. Interfaccia SQL unificata

Per cosa puoi usare Presto?

Analisi del lago di dati

Interrogazione ad hoc

ETL in lotto

Cos'è Presto?

Secondo la definizione di Amazon AWS: Presto è un motore di query SQL distribuito, creato per eseguire query analitiche rapide su set di dati di qualsiasi dimensione. È stato rinominato alla fine del 2020 come Trino per separare il progetto da Prestodb.

Presto ha il vantaggio di essere open-source, il che significa che viene aggiornato regolarmente e gli sviluppatori contribuiscono spesso.

La piattaforma Presto funziona con origini dati non relazionali come:

Amazon S3
Hadoop
HDFS
MongoDB
Base H

E database relazionali come:

Il mio spazio
PostgresSQL e
Server MS SQL

Con Presto puoi interrogare i dati ovunque siano archiviati. Ciò significa che non è necessario trasferire i dati in un database relazionale o in un data warehouse. Presto è stato creato per SQL e supporta la semantica SQL standard. Ciò include sottoquery, query complesse, outer join, conteggi distinti e percentili approssimativi.

Anche l'esecuzione delle query è più veloce, poiché viene eseguita parallelamente a un'architettura basata sulla memoria. Pertanto, non devi più preoccuparti di quanto tempo potrebbe essere necessario per interrogare un enorme database. I risultati tornano in pochi secondi.

Scopri come distribuire Presto e la sua architettura nella loro documentazione.

Leggi anche: Come aggiornare i driver di dispositivo su Windows 10? {Guida semplice}

Concetti chiave

I concetti chiave di SQL sono ampiamente conosciuti. Per capire come funziona Presto, dobbiamo prima comprenderne i concetti fondamentali.

Tipi di server

Presto utilizza due tipi di server: il server coordinatore e il server di lavoro . I nodi di lavoro elaborano le query, prelevando i dati dai connettori. Il coordinatore preleva i risultati e li invia al cliente. I server coordinatore analizzano anche le istruzioni e gestiscono i nodi.

Funziona in modo simile ai sistemi di gestione del database Massive Parallel Processing.

Massive Parallel Processing database management systems Fonte immagine: tutorialspoint

Presto utilizza connettori per collegare il sistema distribuito e l'origine, ad esempio Amazon S3. I numerosi connettori di Presto, per origini relazionali e non, rendono il sistema estensibile a quasi tutte le origini dati.

Leggi anche: Come aggiornare i driver su Windows 10,8,7 – Aggiorna i driver di dispositivo

In che modo Presto elabora le query?

Quando presto riceve una query, la esegue suddividendola in più fasi. In genere il sistema crea una fase radice e le fasi correlate. Le fasi vengono quindi distribuite in attività tra i nodi di lavoro.

Vantaggi dell'utilizzo di Presto

Presto sta diventando molto popolare tra le grandi aziende come Netflix, Facebook, Atlassian e Airbnb. Ad esempio, Facebook utilizza Presto per elaborare un petabyte di dati ogni giorno, eseguendo oltre 30.000 query.

Presto include due progetti open source separati: PrestoSQL (ora chiamato Trino) e PrestoDB. È molto popolare per un'ampia gamma di casi d'uso, in diversi tipi di data lake e data warehouse. Diamo un'occhiata ad alcuni dei vantaggi che rendono Presto così popolare.

1. Facile integrazione

Uno dei principali vantaggi di Presto è che si integra con il sistema dati esistente senza bisogno di modifiche. Pertanto, aggiungendo Presto si aggiungono funzionalità di analisi rapide senza la necessità di modificare il sistema esistente.

2. Prestazioni più veloci

Uno dei motivi per cui Presto è stato sviluppato è che l'Apache Hive esistente non funzionava bene con le query interattive. Presto è progettato per gestire query BI interattive. Inoltre, segue il modello push, elaborando una query SQL utilizzando più fasi contemporaneamente, il che significa che tutte le fasi sono pipeline senza attendere tra le fasi.

Presto offre anche il trasferimento dei dati da memoria a memoria, senza la necessità di scrivere i dati su disco, migliorando le prestazioni.

3. Progettato per il cloud

Presto esegue l'archiviazione e le elaborazioni separatamente, il che lo rende molto adatto agli ambienti cloud. Le aziende che utilizzano PrestoSQL possono aumentare o diminuire facilmente a seconda del carico senza causare la perdita di dati. Ciò può accadere perché il cluster Presto non archivia alcun dato.

4. Interfaccia SQL unificata

SQL è il linguaggio più popolare per l'analisi dei dati. Data scientist, analisti e ingegneri utilizzano SQL per elaborare, analizzare e testare i dati, integrandoli con strumenti di business intelligence.

Presto ha la capacità non solo di interrogare i dati da sorgenti SQL ma anche da database NoSQL come Elasticsearch e Cassandra. Supporta la connettività ANSI-SQL e Postgres. Ciò conferisce a Presto una versatilità che altri sistemi distribuiti non hanno.

L'interfaccia è ideale per dati di medie dimensioni perché ha le stesse funzioni Window di PostgreSQL.

Leggi anche: Come aggiornare i driver di grafica in Windows 10 {Guida semplice}

Per cosa puoi usare Presto?

Presto viene utilizzato in tutti i settori per un'ampia varietà di casi d'uso. È particolarmente adatto per query ad hoc e interattive. Esaminiamo alcuni casi d'uso comuni:

Analisi del lago di dati

È possibile utilizzare PrestoSQL per eseguire query sui dati in un data lake senza dover trasformare i dati. Presto ti consente di interrogare i dati dove si trovano. Pertanto, puoi utilizzarlo per potenziare l'analisi del tuo data lake eseguendo query su dati strutturati e non strutturati.

Interrogazioni ad hoc

Presto ti consente di eseguire query in qualsiasi momento, indipendentemente da dove risiedono i tuoi dati. Ancora meglio, con i connettori Presto, i tuoi team possono accedere a set di dati in un'ampia gamma di origini dati e, poiché le query vengono eseguite in pochi secondi anziché in ore, il tuo sistema funziona più velocemente.

Lotto ETL

Invece di utilizzare i sistemi di elaborazione batch legacy, è possibile utilizzare Presto per eseguire query efficienti sulle risorse. È possibile aggregare dati da più origini dati ed eseguire query ad alta velocità.

In sintesi, Presto offre numerosi vantaggi per le aziende che devono elaborare grandi quantità di dati, condurre query interattive ad hoc ed eseguire analisi da origini dati disparate.