quarta-feira, 20 de novembro de 2013

Codd todo-poderoso! Como IBM rachado sistema R


5 maneiras de preparar sua infra-estrutura de publicidade para o desastre


Poucas equipes têm mantido um tal espírito de comunidade forte como os pioneiros da IBM do Sistema de R. No Vale do Silício no início de 1970, esta equipa pioneira provou que um banco de dados relacional pode realmente funcionar.


É uma história fascinante, mais conhecido hoje porque a IBM não conseguiu capitalizar em sua pesquisa. Mas também é um atemporal, já que a equipe teve que colocar teorias lousa em código real de trabalho, em face do ceticismo generalizado de que um computador pode realmente superar um ser humano. E isso é um desafio de engenharia que vive hoje.







A história é assim.


Bases de dados evoluíram em resposta à evolução do armazenamento - mas nem sempre muito rapidamente. As primeiras bases de dados foram implementadas em cartões perfurados, com uma tecnologia de arquivo seqüencial, antes da existência do termo.


No entanto, quando o armazenamento interativo surgiu, o mesmo modelo seqüencial seguido para o novo meio. Os discos magnéticos ultramoderna e tambores deu programadores armazenamento interativo rápido, o que, por sua vez, deveria ter permitido consultas interativas mais sofisticadas. Mas o que os usuários recebi foi realmente "o mesmo, mas mais rápido."


Em 1970, o principal banco de dados comercial de seu tempo foi uma hierárquico: IMS da IBM (Information Management System) foi desenvolvido para acompanhar o estoque para o tiro lua Apollo. No entanto, sistemas inovadores, como o mainframe timesharing OS Multics foram introduzindo conceitos como sistemas de arquivos hierárquicos e dinâmicas que ligam - e mostrando o caminho para o quão sofisticada computadores logo se tornaria. Poderia bancos de dados manter-se?


No mundo IMS hierárquica, pedaços de dados estavam ligados em uma estrutura de árvore. Ainda é um sucesso hoje . As relações entre itens de dados eram fáceis de desenhar - mas trabalhosa de manter. Esses bancos de dados hierárquicos tinham outras limitações. Em um modelo hierárquico, a localização dos dados teve de ser conhecido, as ligações físicas teve que ser mantida, e de fazer as alterações à base de dados foram difícil. Consultas foram bruto. Assim, apesar do advento da "unidades de ação direta", manipulando os dados apareceu nada, mas direta.


Como sempre em ciência da computação, foi muito apreciado que a criação de um novo nível de abstração pode custar algo em termos de eficiência, mas deu potencialmente enormes retornos em termos de facilidade de uso e as aplicações para as quais os dados podem ser colocados. Havia dois contendores na comunidade de pesquisa. Mas qual deles iria prevalecer?


"Havia dois campos, e eles estavam em guerra uns com os outros. Cada campo não conseguia entender o que o outro estava falando. Eles tinham completamente diferentes suposições sobre o que era importante", lembra Jim Gray , em seguida, um PhD Berkeley que se juntou IBM pesquisa.


Uma abordagem era o modelo de rede, apresentado ao mundo em 1969 por Charles Bachman, que havia desenvolvido um dos primeiros DBMS para a General Electric em 1960. Bachman, que será de 90 deste ano, contribuiu para muitas áreas de trabalho, incluindo banco de dados multiusuário e programação e em seus sessenta anos criou as primeiras ferramentas CASE. Bachman descreveu o programador como um navegador ( ref: ACM Turing Award Lecture 1973 ). No modelo de Bachman "rede" de navegação ou, os registros tiveram dois sentidos ponteiros.


. "Nós passamos os últimos 50 anos com sistemas de informação de Ptolomeu Estes sistemas, ea maior parte do pensamento sobre os sistemas, foram baseadas em um" centrada computador conceito ", disse Bachman, aceitando Prêmio Turing da ACM em 1973 - você pode ler o seu discurso aqui , dá uma grande visão sobre o tempo. E confira a entrevista de 2011 com o The Register, em que ele reflete sobre sua carreira.


Outra abordagem foi ainda mais ambicioso, e foi avançada por um matemático britânico expatriado e piloto da RAF durante a guerra, Ted Codd. A abordagem de Codd foi bastante diferente, favorecendo um modelo declarativo. Isso significava que o programador relacionamentos "declarado" eo computador seria esperado para implementá-los em bits e bytes. Nada abaixo que deve preocupar o usuário.


Codd havia desenvolvido duas línguas - a álgebra relacional e cálculo relacional - para expressar consultas extremamente complexas.


"Codd que tinha algum tipo de notação matemática estranha, mas ninguém levou isso muito a sério", ponderou Don Chamberlin, em nosso 2003 Reg obituário de Codd. Ele se tornaria um colega de pesquisa de Codd de e co-inventor de SQL.


Parecia impensável que a IBM, que, em seguida, praticamente foi a indústria de processamento de dados comerciais, e que tinha inventado tanto armazenamento de acesso direto, seria surdo à idéia. E não era.



A 1962 cartão postal de San Jose laboratório de pesquisa da IBM, a casa da unidade de disco e banco de dados relacional, entre outras invenções. Os pesquisadores se mudou para um sítio de 700 hectares nas colinas em Almaden, em 1986. Grande parte Cottle estrada foi destruída em um incêndio suspeito em 2008.



Originalmente dados era apenas material que pertencia a uma aplicação, e mesmo que o banco de dados comercial foi um sucesso IBM, um pouco do que foi refletido no poderoso IBM também. Em 1973, a Big Blue decidiu fazer algo sobre isso, e consolidou a sua pesquisa de banco de dados em San Jose, Califórnia. IBM deu a sua investigação pessoal belos edifícios em locais sereno - e 5600 Cottle Road, San Jose estava de acordo com a tradição. Codd havia se juntado laboratórios de pesquisa da IBM em 1970, o movimento colocou em contato com alguns engenheiros inteligentes.


"Codd fez um discurso [para nós], onde ele disse:" Claro, você pode expressar uma pergunta por escrito um plano de navegação. Mas se você pensar sobre isso, o plano de navegação não é realmente a essência do que você está tentando realizar . Você está tentando encontrar a resposta para alguma pergunta, e você está expressando a questão como um plano de navegação. Não seria bom se você pudesse expressar a questão a um nível superior e deixar que o sistema descobrir como fazer o navegação? '", lembrou Chamberlin em uma entrevista de 2001.


"Essa foi a mensagem básica de Codd. Ele disse: 'Se você elevar o nível da linguagem que você usa para fazer perguntas a um nível mais elevado e menos processual, então a pergunta torna-se independente do plano."


Codd só faz uma citação em seu artigo 1.970, fazendo referência a obra de David Childs na teoria de conjunto publicado em 1968. Um dos heróis da história, Childs tinha sido em defesa dos EUA laboratório de pesquisa ARPA em 1965, e no momento ARPA queria pensar sobre o tratamento de dados matematicamente.


"'1.968 jornais e 1.970 estrutura de Codd papel discutido (conjuntos independentes, sem estrutura fixa, o acesso pelo nome em vez de ponteiros) e operações (união, restrição, etc). Childs' Childs papéis incluído vezes de referência para fazer operações de conjunto em um IBM 7090 jornal. do Codd 1970 introduziu formas normais, e seus papéis subseqüentes introduziu as regras de integridade ", observa o autor Ken Norte.


Acesso ao papel Childs 1968 era restrito, no entanto. Childs se fundaria uma empresa de banco de dados bem-sucedida em 1970, com um ex-presidente da Chrysler, que foi comprada pela Hitachi em 1984.


Codd comecei a trabalhar com uma equipe central que logo incluiu Gray.


As idéias de Codd foram consideradas por muitos outré


"O trabalho de Ted era principalmente de interesse acadêmico, eu diria," Don Chamberlin refletido mais tarde. "Ele foi considerado um pouco fora do mainstream, um pouco matemática e teórica em seu sabor."


A indústria foi o desenvolvimento de algumas normas através de um consórcio referido como o modelo CODASYL - também chamado de DBTG (Grupo de Trabalho Banco de Dados) - para criar uma linguagem de banco de dados padrão.


Chamberlin acrescentou: "CODASYL foi baseado em um modelo de dados de rede Foi um pouco mais geral do que o modelo de dados hierárquico, porque não têm a restrição de que os dados tiveram que ser organizados em uma hierarquia, os registros podem ser organizados em qualquer outra coisa. jeito que você gosta. "


Isso foi bom na teoria, mas jogou um problema de pesquisa enorme em que os engenheiros para quebrar a implementação de trabalho. Assim, a IBM criou um projeto com uma dúzia de doutorados: R System (R para Relacional). Isto provaria um banco de dados relacional foi possível, e "não só possível, mas eficiente".







via Alimentar (Feed)

Nenhum comentário:

Postar um comentário