Cassandra și Spark, Prieteni pentru viață … | Duchess Franța

Cassandra și Spark, Prieteni pentru viață …

12/06/2015 de Agnès Creet

Conferințe, Tech

Împărtășește publicația „Cassandra și Spark, Prieteni pentru viață …”

DUYHAI DOANGerald Quintana

Duy Hai Doan și Gerald Quintana Va fi luni în Lyon pentru o sesiune în jurul proiectelor Apache Spark și Cassandra. Ei ne spun mai multe despre utilizarea în comun a acestor două instrumente, alternativă tehnică interesantă comparativ cu sistemul clasic Hadoop Eco-System.

Acest interviu a fost pregătit de Agnès Creet și Alexis Hassler al echipei din Lyon Jug.

Agnès și Alexis: Gerald și Duy Hai, puteți să vă prezentați?

Duy Hai: Numele meu este Duy Hai și eu sunt un evanghelist tehnic pentru Datastax, compania comercială din spatele Apache Cassandra.

Îmi împărtășesc timpul între prezentările / întâlnirile / discuțiile Cassandra, să dezvolte proiecte open-source pentru comunitate și să ajut proiectele folosind Cassandra. Înainte de Datastax, am fost un dezvoltator freelance Java / Cassandra.

gérald: Sunt un dezvoltator Java pentru o lungă perioadă de timp. Sunt interesat de persistența și tratamentul datelor, atât în SQL, cât și în Nosql.

Agnès și Alexis: Veți vorbi cu noi despre Apache Spark și Cassandra. Puteți explica ce fac aceste instrumente? Care sunt utilizarea acestor instrumente?

Gérald: Cassandra este o bază de date distribuită: punctele sale forte sunt scalabilitatea și toleranța la defecțiuni. Spark vă permite să procesați datele distribuite atât în lot, cât și prin apă.

Duy Hai: Pentru a rezuma, Spark Apache este un cadru de prelucrare distribuit al datelor care propune „accelerați calculele prin stocarea datelor intermediare în memorie. Apache Cassandra este o bază de date NOSQL distribuită, care favorizează disponibilitatea ridicată și rezistența la defecțiuni în detrimentul unei consistențe puternice de date.

Spark Apache este potrivit pentru cazurile în care aveți multe date care trebuie tratate în paralel, Și că reușești să le tratezi într-un mod incremental prin mic lot care ține minte. Într-adevăr, dacă datele dvs. depășesc cantitatea de memorie disponibilă, scutește temporar pe disc, care încetinește mult timp de procesare.

Apache Cassandra este potrivit pentru următoarele cazuri: nevoie de disponibilitate foarte mare, de liniar Scalabilitate, implementare multi-site și simplitate operațională

Agnès și Alexis: Cum se folosește împreună aceste două instrumente interesante pentru tine?

Duy Hai: Cassandra vă permite să aveți O bază de date distribuită, dar oferă puține instrumente pentru a face analiza datelor, domeniu în care scânteia excelează. Aceste 2 soluții funcționează deja într-un mod distribuit, combinându-le împreună face posibilă atragerea celor mai bune din cele două lumi, disponibilitatea și reziliența ridicată la eșecurile lui Cassandra, bogăția instrumentelor de analiză a scântei

Gérald: Spark-ul la Cassandra este un instrument pentru a trata volumele mari de date (transformări de masă, învățarea mașinilor …) și posibilități suplimentare de compresie: Anexe, agregații … Cassandra oferă spark posibilitatea de a manipula datele structurate fără a trece neapărat prin fișiere ( HDFS), mai ales că modelul orientat pe coloană Cassandra este foarte aproape de modelul SQL Spark.

Agnès și Alexis: în care situațiile Cassandra vor fi mai potrivite decât alte baze de date?

Duy Hai: Cassandra excelează în special pentru seturile de date de timp și datele imuabile. Prin designul său, motorul de stocare optimizează scrierea discului pentru accesul secvențial al datelor.

gérald: Cassandra este indicată în special atunci când datele nu se află pe un singur server și când sistemele tradiționale master-slave nu mai pot Numerar încărcare, în special scriere.

Agnès și Alexis: aceeași întrebare pentru scânteie. În ce situații vor fi mai potrivite decât Hadoop (sau alte instrumente similare)?

Duy Hai: Prin designul său foarte general, nu există nici un loc de muncă Hadoop care nu poate fi scris în scânteie. Și Spark oferă mai mult decât harta / reduce. Indiferent dacă aveți deja o instalare Hadoop sau doriți să începeți pe un proiect de date Big, Spark are suficiente module și extensie pentru a se potrivi cele mai multe dintre nevoile dvs.Punctul puternic de scânteie este acela de a se aduna într-o arhitectură consistentă și diferite tipuri diferite de prelucrare a datelor (streaming, lot, sql, …)

gérald: aceasta aduce un API mai simplu decât HADOP M / R ( Chiar dacă este scala: troll :), sculele este mai integrat (scânteie, scânteie SQL, streaming scânteie în pachet unic) și o performanță mai bună (chiar și cu Tez …). Pentru a începe în lumea tratamentelor „Big Data”, primul pas este mai accesibil.

Agnès și Alexis: Utilizarea ecosistemului Hadoop pare mai complicată astăzi?

Duy Hai: Este un eufemism dulce care să spună că ecosistemul Hadoop este complicat. Adesea uităm că Hadoop are deja 10 ani. La momentul respectiv, ecosistemul constă doar din 2 componente: HDFS (sistem de fișiere distribuite) și un manager de locuri de muncă (MRV1). Cu timpul a fost altoit un număr improbabil de componente / cadre heterogene: porc, stup, cascadă, tez, parchet, zookeeper, impala … Fiecare dintre aceste componente sunt diferite tehnologii, cred că în special Porc, stup și cascadă, care nu au aceeași filozofie. Singurul lor punct comun: pentru a produce codul de hartă / reduce în loc de utilizator. În plus, nevoia de a trece printr-un strat de abstractizare pentru a „scrie” harta / reducerea locurilor de muncă este simptomatică a complexității Hadoop.

partea operațională, deși de eforturile de comerț cu ridicata au fost făcute pentru a simplifica administrarea Ecosistemul (Apache Ambari), depanarea unui loc de muncă Hadoop rămâne complicat astăzi pentru că trebuie să analizați jurnalele tuturor straturilor (HDF-uri, fire, porc / stup / cascadă, ….)

Gérald: Distribuiți Un tratament și procesează volume mari de date robuste este o problemă complexă. Dar dezvoltarea unei lanțuri lot a hărții / reducerea locurilor de muncă ar putea fi mai simplă, asta este ceea ce overcroze Hadoop se dovedesc ca cascadă.

Agnès și Alexis: Cassandra-Bark pare a fi duoul câștigător? Ce alte instrumente ați putea adăuga la un combo killer?

Duy Hai: Cascule Cassandra-Spark vă permite să faceți tot ce este mai bun din fiecare soluție, dar nu neapărat soluția la toate problemele. Pentru a fi completă, vom adăuga Apache Kafka în ecosistemul Spark / Cassandra pentru a avea o BSE extrem de scalabilă și rezilientă

gérald: pentru a începe, spre deosebire sau alta pentru a implementa cu ușurință ceva pe un cluster. Apoi, Spark Jobserver conduce lotul cu un API de odihnă și opscenter pentru monitorul Cassandra. În cele din urmă, un notebook, cum ar fi Notebook-ul Spark sau Zeppelin pentru a exploata vizual datele.

Agnès și Alexis: ar trebui să învățăm scala pentru a face scânteie sau poate fi folosit cu Java? Cu Java, API-ul face posibilă să facă codul bun?

Duy Hai: Designerii de scânteie au crezut asupra dezvoltatorilor la proiectarea cadrului, nu sunteți legați de o limbă în special. Este posibil să lucrați cu Spark en Scala, Java, Python. Databeks, compania care acceptă scânteie, introduce chiar și o versiune de scânteie cu r, limbajul preferat al oamenilor de știință de date.
Depinde de ceea ce se numește „cod bun”. Este posibil ca Java să facă un cod care funcționează, bine testat și bine conceput. Cu toate acestea, este evident că, în ceea ce privește concisitatea, chiar și cu sosirea lambdasului în Java 8, un cod de scânteie în Scala rămâne mai concis și ușor mai lizibil.

gérald: o cunoaștere minimă de la scala sau Python pare necesar să folosească cochilii de scânteie (în timp ce așteaptă Java 9) și complică o mică învățare de scânteie, dar în realitate nu este nevoie să fie expert Scala pentru a face afară. Apoi, coaja este utilă numai în scopul experimentării sau exploatării, pentru a dezvolta tratamente reale, este folosit foarte bine cu Java 8 (cu plin de lambdas). Cele mai multe extensii de scânteie (pe care Cassandra este parte) oferă un API Java.

datorită Duy Hai și Gérald pentru acest interviu! Înscrieți-vă la sesiunea lor în Lyon Jug Lyon pe 15 iunie!

Distribuiți publicația „Cassandra și Spark, Prieteni pentru viață …”

  • Twitter

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *