segunda-feira, 8 de setembro de 2014

Tempo HAMR para MapReduce do Google, diz não tão startup


Novas soluções de armazenamento híbrido


Como a idéia de mastigar dados terabytes usando MapReduce do Google, mas acho que é muito lento, muito hardware-com fome e muito complicado?


A novata analytics big-venture de dados calcula ele tem a resposta - um quadro de programação Hadoop construído utilizando Java que alega ser 20 vezes mais rápido do que usar o Hadoop comum e que reivindica usa menos hardware de data center. É mais fácil de programar, também, que eles dizem.







Ouvi tudo isso antes? Assim temos, só que desta vez não é algum startup apoiada por VCs olhando para ganhar dinheiro e salvar na onda grande de dados.


É ET International - uma empresa de 12 anos de idade, você provavelmente nunca ouviu falar de, mas que foi fundada com o apoio de pesquisa do Departamento de Defesa, seu primeiro cliente norte-americano.


Clientes, desde então, estendeu o Laboratório Nacional Pacific Northwest e organizações em petróleo e gás.


ETI é a ideia do MIT paralelo computação e fluxo de dados brainbox Guang Gao - agora um professor da Universidade de Delaware, com vários prêmios em seu nome.


Sua empresa afirma que está aplicando o que aprendeu ao trabalhar para os primeiros clientes sobre big data, e em breve ficar fora do empreendimento big-dados como uma empresa separada.


ETI afirma que seu produto, chamado HAMR, que atingiu beta no mês passado, pode executar o mesmo trabalho que o Hadoop, mas usando menos servidores - apenas um décimo dos nós. Ele também funciona inteiramente na memória.


"HAMR é uma evolução do MapReduce," arquiteto-chefe da empresa, Brian disse Heilig O Reg recentemente.


"É uma substituição completa do motor MapReduce", disse ele, mas acrescentou que ainda pode ler e escrever para o Hadoop Distributed File System (HDFS) e há também um plug fio para executar Hadoop 2.0. Hadoop é a compilação de código aberto do quadro do Google a partir de chefe Cloudera arquiteto Doug Cutting e sob a égide da Apache Software Foundation (ASF).


"Pegamos esses conceitos MapReduce, separá-los e criou um quadro de tempo de execução chamado HAMR", disse Heilig.


A chave para HAMR é algo ETI chama Flowlets, um conjunto de APIs com patente pendente.


Flowlets são nós em um gráfico de execução em uma rede que contêm grande quantidade de diferentes dados, realizada em partições; os dados são re-montado usando um par chave-valor. As chaves são enviadas para a partição, tendo o código hash da chave e modelando-o pelo número de partições.


HAMR usa uma camada de rede proprietária para voltar a montar os pares de valores e partições apropriadas.


Ele é construído ZooKeeper do Apache para gerenciamento de serviço centralizado e configuração, o recurso de log Log4j Java também está incluída no, juntamente com Apache Curador. Os usuários precisam instalar o sistema de mensagens RabbitMQ empresa, que é baseado em Advanced Message Queuing Protocol (AMQP).


O objetivo é usar MapReduce para mais do que uma simples lote atirando para indexação página web e esmagando arquivos de log e de empregá-lo mais facilmente nas tarefas mais evoluídos, tais como aprendizado de máquina e algoritmos em grafos.


Estas dependem mais de iteração de dados e manter os dados na memória, ao invés da massa característica simples, lote de agendamento que é a marca do MapReduce do Google.


Heilig avalia MapReduce vai viver, apenas viver a página simples bater em milhares de servidores algemados juntos - o papel para o qual foi construído e por que ele é usado no Google. Sua prole de código aberto Hadoop, no entanto, elevou as expectativas e abriu novos usos potenciais, diz ele.


É nesta área que Heilig avalia HAMR devem desempenhar, oferecendo grandes análise de dados e aprendizado de máquina na memória rodando em um número cada vez menor de máquinas. ®







via Alimentação (Feed)

Nenhum comentário:

Postar um comentário