Cassandra e faísca, amigos para a vida … | Duquesa França

Cassandra e faísca, amigos para a vida …

12/06/2015 por agnès crepet

conferências, tecnologia

Compartilhe a publicação “Cassandra e faísca, amigos para a vida …”

  • twitter

Duyhai DoanGerald Quintana

Duy Hai Doan e Gerald Quintana Será segunda-feira em Lyon para uma sessão em torno de projetos do Apache Spark e Cassandra. Eles nos dizem mais sobre o uso conjunto dessas duas ferramentas, alternativa técnica interessante em comparação com o clássico Eco-sistema de Hadoop.

Esta entrevista foi preparada por Agnès Crepet e Alexis Hassler da equipe do Lyon Jarro.

agnès e alexis: Gerald e Duy Hai, você pode se apresentar?

Duy Hai: Meu nome é Duy Hai e eu sou um evangelista técnico para DataSax, a empresa comercial por trás do Apache Cassandra.

Eu compartilho meu tempo entre dar aos apresentações / Meetups / palestras de Cassandra, desenvolver em projetos de código aberto para a comunidade e ajuda projetos usando Cassandra. Antes de DataSax, eu era um desenvolvedor freelancer java / cassandra.

gérald: Eu sou um desenvolvedor Java por um longo tempo. Estou interessado na persistência e no tratamento dos dados, tanto no SQL quanto no Nosql.

Agnès e Alexis: Você vai falar conosco sobre o Apache Spark e Cassandra. Você pode explicar o que essas ferramentas fazem? Qual é o uso dessas ferramentas?

gérald: Cassandra é um banco de dados distribuído: seus pontos fortes são escalabilidade e tolerância a falhas. A Spark permite que você processe dados distribuídos tanto em lote quanto pela água.

Duy HAI: Para resumir, o Apache Spark é uma estrutura de processamento distribuída de dados que propor “acelerar os cálculos armazenando dados intermediários na memória. O Apache Cassandra é um banco de dados NOSQL de tabela distribuída, que favorece a alta disponibilidade e a resiliência de falhas à custa de uma forte consistência de dados.

Apache faísca é adequada para casos em que você tem muitos dados a serem tratados em paralelo, E que você consegue tratá-los de forma incremental pelo pequeno lote que se mantém em mente. De fato, se seus dados excederem a quantidade de memória disponível, gravações temporariamente no disco, o que retarda muito o tempo de processamento.

Apache Cassandra é adequado para os seguintes casos: Precisa de disponibilidade muito alta, de linear Escalabilidade, implantação multi-site e simplicidade operacional

agnès e alexis: Como o uso dessas duas ferramentas parecem interessantes para você?

Duy Hai: Cassandra permite que você tenha Um banco de dados distribuído, mas oferece algumas ferramentas para fazer análise de dados, domínio onde a faísca se destaca. Estas 2 soluções já operam de forma distribuída, combiná-los possibilitando o melhor dos 2 mundos, a alta disponibilidade e a resiliência aos fracassos de Cassandra, a riqueza das ferramentas de análise de faísca

Gérald: A faísca traz para a Cassandra uma ferramenta para tratar grandes volumes de dados (transformações da tabela de tabela, aprendizagem de máquinas …) e possibilidades de compressão adicionais: junta, agregações … Cassandra oferece a possibilidade de manipular dados estruturados sem necessariamente por meio de arquivos ( HDFS), especialmente porque o modelo orientado a coluna Cassandra é muito próximo do modelo SQL Spark.

agnès e Alexis: no qual as situações de Cassandra serão mais adequadas do que outras bases de dados?

Duy Hai: Cassandra destaca-se particularmente para conjuntos de dados de tempo e dados imutáveis. Por seu projeto, o motor de armazenamento otimiza a escrita do disco para o acesso de leitura sequencial de dados.

gérald: Cassandra é particularmente indicado quando os dados não possuem um único servidor e quando os sistemas tradicionais de escravos mestre não podem mais Dinheiro a carga, especialmente escrita.

Agnès e Alexis: mesma pergunta para a faísca. Em quais situações serão mais adequadas do que Hadoop (ou outras ferramentas semelhantes)?

Duy Hai: Por seu design muito geral, não há trabalho Hadoop que não pode ser escrito na faísca. E a Spark oferece mais do que map / reduz. Se você já tem uma instalação do Hadoop ou deseja iniciar em um grande projeto de dados, a Spark tem módulos e extensão suficientes para atender a maioria das suas necessidades.O forte ponto de faísca é reunir em uma arquitetura de consistência e diferentes tipos diferentes de processamento de dados (streaming, lote, sql, …)

gérald: Ele traz uma API mais simples que a HADOP M / R ( Mesmo que seja Scala: Troll :), o ferramental é mais integrado (faísca, Spark SQL, spark streaming em um único pacote) e melhor desempenho (mesmo que com Tez …). Para começar no mundo dos tratamentos “Big Data”, o primeiro passo é mais acessível.

Agnès e Alexis: usa o Ecossistema do Hadoop parece mais complicado hoje?

Duy Hai: É um doce eufemismo que dizer que o Ecossistema de Hadoop é complicado. Muitas vezes esquecemos que Hadoop já tem 10 anos de idade. No momento, o ecossistema consiste em apenas 2 componentes: HDFS (sistema de arquivos distribuído) e um gerenciador de empregos (MRV1). Com o tempo foi enxertada um número improvável de componentes / frameworks heterogêneos: porco, colmeia, cascata, tez, parquet, zookeeper, impala …

Cada um desses componentes são diferentes tecnologias, acho que em particular para Porco, colméia e cascata, que não têm a mesma filosofia. Seu único ponto comum: para produzir mapa / reduzir o código em vez do usuário. Além disso, a necessidade de passar por uma camada de abstração para “escrever” map / reduzir empregos é sintomática da própria complexidade de Hadoop.

lado operacional, embora os esforços grossistas tenham sido feitos para simplificar a administração de O Ecossistema (Apache Ambari), depurando um trabalho Hadoop permanece complicado hoje porque você tem que analisar os troncos de todas as camadas (HDFS, fio, porco / colmeia / cascading, ….)

gérald: distribuir Um tratamento e processo grandes volumes de dados robustos é um problema complexo. Mas o desenvolvimento de um encadeamento de lote do mapa / Reduzir trabalhos pode ser mais simples, é o que o Hadoop se provar como cascata.

agnès e Alexis: Cassandra-faísca parece ser a dupla vencedora? Que outras ferramentas você poderia adicionar a uma combinação assassina?

Torque de Duy Hai: Cassandra-Spark permite que você faça o melhor de cada solução, mas não necessariamente a solução para todos os problemas. Para ser concluído, vamos adicionar Apache Kafka no ecossistema da faísca / cassandra para ter um BSE altamente escalável e resiliente

gérald: para iniciar, ao contrário ou outro para implantar facilmente algo em um cluster. Em seguida, a Spark Trago, dirige o lote com uma API de descanso e opscenter para monitor Cassandra. Finalmente, um notebook como o Notebook Spark ou o Zeppelin para explorar visualmente os dados.

agnès e Alexis: devemos aprender Scala para fazer faísca, ou pode ser usado com Java? Com o Java, a API permite que seja possível fazer um bom código?

Duy Hai: desenhos de faísca têm pensado em desenvolvedores ao projetar a estrutura, você não está ligado a um idioma em particular. É possível trabalhar com Spark en Scala, Java, Python. DataBricks, a empresa que suporta a faísca, é mesmo introduzindo uma versão de faísca com R, a linguagem favorita dos cientistas de dados.
Depende do que é chamado de “um bom código”. É possível que Java faça um código que funcione, bem testado e bem projetado. No entanto, é óbvio que, em termos de concisão, mesmo com a chegada dos lambados em Java 8, um código de faísca em Scala continua sendo mais conciso e ligeiramente mais legível.

gérald: um conhecimento mínimo de Scala ou Python parece necessário usar as conchas da faísca (enquanto espera pelo Java 9), e complica um pouco de aprendizagem de faíscas, mas na realidade não há necessidade de ser especialista em Scala para fazer isso. Então, a concha só é útil para fins de experimentação ou exploração, para desenvolver tratamentos reais, a faísca é usada muito bem com Java 8 (com cheia de lambdas). A maioria das extensões de centelha (que Cassandra é parte) oferecem uma API Java.

Graças a Duy Hai e Gérald para esta entrevista! Inscreva-se para a sua sessão em Lyon Jug Lyon em 15 de junho!

Compartilhe a publicação “Cassandra e faísca, amigos para a vida …”

  • twitter

Deixe uma resposta

O seu endereço de email não será publicado. Campos obrigatórios marcados com *