Presto SQL, acum Trino, aduce avantajele lacurilor de date puterea motoarelor de interogare Big Data Analytics

Publicat: 2021-05-27

Procesarea datelor mari este unul dintre aspectele critice ale acestei ere digitale. Companiile folosesc mai multă inteligență artificială, învățarea automată și analiza datelor, care produc și colectează mai multe date. Prin urmare, rezultă cantități masive de date care trebuie interogate și analizate eficient.

Iată unde pot ajuta cloud computing și Presto.

Cuprins arată
Ce este Presto?
Concepte cheie
Tipuri de servere
Cum procesează Presto interogările?
Avantajele utilizării Presto
1. Integrare ușoară
2. Performanță mai rapidă
3. Proiectat pentru cloud
4. Interfață SQL unificată
Pentru ce poți folosi Presto?
Analiza lacului de date
Interogare ad-hoc
ETL lot

Ce este Presto?

Conform definiției Amazon AWS: Presto este un motor de interogare SQL distribuit, creat pentru a efectua interogări analitice rapide pe seturi de date de orice dimensiune. A fost rebrandat la sfârșitul anului 2020 ca Trino pentru a separa proiectul de Prestodb.

Presto are avantajul de a fi open-source, ceea ce înseamnă că este actualizat în mod regulat și dezvoltatorii contribuie des.

Platforma Presto funcționează cu surse de date non-relaționale precum:

  • Amazon S3
  • Hadoop
  • HDFS
  • MongoDB
  • HBase

Și baze de date relaționale precum:

  • Spatiul meu
  • PostgresSQL și
  • MS SQL Server

Cu Presto, puteți interoga datele oriunde sunt stocate. Aceasta înseamnă că nu trebuie să transferați datele într-o bază de date relațională sau într-un depozit de date. Presto a fost creat pentru SQL și acceptă semantica SQL standard. Aceasta include interogări secundare, interogări complexe, îmbinări externe, numărări distincte și percentile aproximative.

Executarea interogărilor este, de asemenea, mai rapidă, deoarece rulează în paralel cu o arhitectură bazată pe memorie. Prin urmare, nu trebuie să vă mai faceți griji cu privire la cât timp ar putea dura interogarea unei baze de date masive. Rezultatele revin în câteva secunde.

Aflați cum să implementați Presto și arhitectura sa în documentația lor.

Citește și: Cum să actualizezi driverele de dispozitiv pe Windows 10? {Ghid simplu}


Concepte cheie

Conceptele cheie SQL sunt cunoscute pe scară largă. Pentru a înțelege cum funcționează Presto, trebuie mai întâi să înțelegem conceptele sale de bază.

Tipuri de servere

Presto folosește două tipuri de server: serverul coordonator și serverul lucrător . Nodurile de lucru procesează interogările, preluând date de la conectori. Coordonatorul preia rezultatele și le trimite clientului. Serverele de coordonare analizează, de asemenea, instrucțiuni și gestionează noduri.

Funcționează similar cu sistemele de gestionare a bazelor de date Massive Parallel Processing.

Massive Parallel Processing database management systems Sursa imagine: tutorialspoint

Presto folosește conectori pentru a conecta sistemul distribuit și sursă, de exemplu, Amazon S3. Numeroșii conectori ai Presto, la surse relaționale și non-relaționale, fac sistemul extensibil la aproape orice sursă de date.

Citiți și: Cum să actualizați driverele pe Windows 10,8,7 – Actualizați driverele dispozitivului


Cum procesează Presto interogările?

Când presto primește o interogare, o execută împărțind-o în mai multe etape. De obicei, sistemul creează o etapă rădăcină și etape aferente. Etapele sunt apoi distribuite în sarcini de-a lungul nodurilor de lucru.


Avantajele utilizării Presto

Presto devine foarte popular în rândul companiilor mari precum Netflix, Facebook, Atlassian și Airbnb. De exemplu, Facebook folosește Presto pentru a procesa un petabyte de date în fiecare zi, rulând peste 30.000 de interogări.

Presto include două proiecte open-source separate: PrestoSQL (acum numit Trino) și PrestoDB. Este foarte popular pentru o gamă largă de cazuri de utilizare, în diferite tipuri de lacuri de date și depozite de date. Să ne uităm la câteva dintre avantajele care fac ca Presto să fie atât de popular.

1. Integrare ușoară

Unul dintre avantajele cheie ale Presto este că se integrează cu sistemul dvs. de date existent fără a necesita modificări. Prin urmare, adăugând Presto, adăugați capabilități de analiză rapidă fără a fi nevoie să vă modificați sistemul existent.

2. Performanță mai rapidă

Unul dintre motivele pentru care Presto a fost dezvoltat a fost faptul că Apache Hive existent nu a funcționat bine cu interogările interactive. Presto este conceput pentru a gestiona interogări interactive de BI. În plus, urmează modelul push, procesând o interogare SQL folosind mai multe etape simultan, ceea ce înseamnă că toate etapele sunt canalizate fără a aștepta între etape.

Presto are, de asemenea, transfer de date de la memorie la memorie, fără a fi nevoie să scrieți date pe disc, îmbunătățind performanța.

3. Proiectat pentru cloud

Presto rulează stocarea și calculează separat, ceea ce îl face foarte potrivit pentru mediile cloud. Companiile care folosesc PrestoSQL se pot scala cu ușurință în sus sau în jos, în funcție de încărcare, fără a provoca pierderi de date. Acest lucru se poate întâmpla deoarece clusterul Presto nu stochează date.

4. Interfață SQL unificată

SQL este cel mai popular limbaj pentru analiza datelor. Oamenii de știință de date, analiștii și inginerii folosesc SQL pentru procesarea, analizarea și testarea datelor, integrându-le cu instrumente de business intelligence.

Presto are capacitatea nu numai de a interoga date din surse SQL, ci și din baze de date NoSQL precum Elasticsearch și Cassandra. Suportă conectivitate ANSI-SQL și Postgres. Acest lucru îi conferă lui Presto o versatilitate pe care alte sisteme distribuite nu o au.

Interfața este ideală pentru date de dimensiuni medii deoarece are aceleași funcții Window pe care le are PostgreSQL.

Citiți și: Cum să actualizați driverele grafice în Windows 10 {Ghid simplu}


Pentru ce poți folosi Presto?

Presto este utilizat în toate industriile pentru o mare varietate de cazuri de utilizare. Este potrivit în special pentru interogări ad-hoc și interactive. Să explorăm câteva cazuri comune de utilizare:

Analiza lacului de date

Puteți utiliza PrestoSQL pentru a interoga datele pe un lac de date fără a fi nevoie să transformați datele. Presto vă permite să interogați datele unde se află. Prin urmare, îl puteți folosi pentru a vă împuternici analiza lacului de date interogând date structurate și nestructurate.

Interogare ad-hoc

Presto vă permite să executați interogări oricând, indiferent de locul în care se află datele dvs. Și mai bine, cu conectorii Presto, echipele dvs. pot accesa seturi de date dintr-o gamă largă de surse de date și, deoarece interogările sunt executate în câteva secunde în loc de ore, sistemul dumneavoastră funcționează mai rapid.

ETL lot

În loc să utilizați sisteme vechi de procesare în loturi, puteți utiliza Presto pentru a rula interogări eficiente în ceea ce privește resursele. Puteți agrega date din mai multe surse de date și puteți efectua interogări de mare capacitate.

În rezumat, Presto are câteva avantaje pentru companiile care trebuie să proceseze cantități mari de date, să efectueze interogări ad-hoc, interactive și să execute analize din surse de date disparate.