Dicas Software: MongoDB fala elephantese com Hadoop atualizações Conector

terça-feira, 20 de agosto de 2013

MongoDB fala elephantese com Hadoop atualizações Conector

Vitória Spectre Laptop com HP e The Register

MongoDB steward 10gen tem aumentado as capacidades de seu conector Hadoop, que permite que os administradores de dados de transporte entre MongoDB e HDFS e outros serviços do Hadoop.

As atualizações foram anunciados na terça-feira , e ver a empresa adicionar suporte para o Mongo Binary JSON (BSON) arquivos de backup no conector, juntamente com suporte para Apache Hive e empregos incrementais MapReduce.

O conector Hadoop coloca os dados MongoDB em um sistema de arquivos Hadoop (HDFS) traje, deixando empregos MapReduce mexer com os armazenamentos de dados. Esta tecnologia permite que as organizações manipular dados MongoDB sem ter que movê-lo através do centro de dados, economizando banda.

Combinadas, estas melhorias ajudam 10gen impulso MongoDB em ser mais do que um armazenamento de dados NoSQL, e em sua própria plataforma para análise de menores, armazenamento de dados e multi-plataforma de consulta. Vem na sequência do IBM apoio implementação para o método de consulta JSON-oriented MongoDB dentro do DB2 e WebSphere.

Apache Hive é um mecanismo de consulta para Hadoop, que permite que pessoas de sonda HDFS conjuntos de dados sem ter que escrever trabalhos de MapReduce, e passar a usar uma linguagem de consulta SQL-like. Isso não mapear perfeitamente para MongoDB, e isso criou alguns desafios.

"Descobrir uma forma de expressar mapeamentos de campo para campos de Hive a campos em MongoDB de uma forma que aborda os casos extremos os usuários podem encontrar é complicado", 10gen software engenheiro Mike O Brien disse ao The Register via e-mail. "Além disso, existem tipos de dados no MongoDB que não têm contrapartes análogas em Hive (por exemplo, ObjectId) por isso há algumas decisões de design em torno de como lidar com as também."

O JSON filetype também não é nativa do Hadoop, por isso o trabalho teve que ser feito para que o sistema a produzir através dos objetos sem a introdução de erros.

"Para lidar com a divisão de paralelismo, que se arrasta através de um arquivo BSON e calcula-byte offsets dos arquivos para criar uma lista de blocos de tamanho fixo, que são depois processados em paralelo," O'Brien escreve. "Ou, o racha pode ser pré-construído localmente com um script fornecido. Ao ler a bson off disco, ele decodifica os documentos BSON on the fly e passa-los para o Mapper como um" BSONObject ", que é a classe base usada para representar um documento simples no driver java mongo ".

No futuro, a empresa pretende aumentar o desempenho, reforçar uma melhor integração com diversas APIs Hadoop, e "expor algumas opções de controle mais refinado para o usuário sobre a forma como os trabalhos executados e de leitura / gravação de dados", disse O'Brien.

À medida que mais e mais empresas convidar Hadoop em seu centro de dados, ganhando compatibilidade com a tecnologia será fundamental para novos bancos de dados, para que os desenvolvedores começam abandonando os armazenamentos de dados para sistemas mais HDFS-friendly. Com o conector do Hadoop, 10gen está trabalhando para garantir que este problema não aparece, e que os DBAs podem dançar com o elefante, onde os dados são armazenados. ®

via Alimentar (Feed)

Dicas Software

terça-feira, 20 de agosto de 2013

MongoDB fala elephantese com Hadoop atualizações Conector

Nenhum comentário:

Postar um comentário