MARC 21: de onde viemos e os problemas que temos

Representação no domínio bibliográfico: um olhar sobre os Formatos MARC 21

O primeiro número de 2015 da revista Perspectivas em Ciência da Informação trouxe o artigo Representação no domínio bibliográfico: um olhar sobre os Formatos MARC 21, de autoria minha e da Prof.ª Plácida Santos.

A representação da informação tem sido realizada em diversos domínios, um deles o domínio bibliográfico, onde está pautada em instrumentos, princípios, modelos e tecnologias, tais como os padrões de metadados e as codificações. Entre os padrões de metadados utilizados nesse domínio, estão os Formatos MARC 21, com origens na década de 1960. Considerando o amplo uso desses padrões, tem-se por objetivo (1) destacar os propósitos que conduziram à criação dos Formatos MARC 21, (2) apresentar as características da codificação dos registros nesses formatos e (3) discutir as principais críticas sobre sua situação atual. Para tanto, é realizada uma revisão de literatura sobre a origem do MARC e seu desenvolvimento até o MARC 21 e sobre a codificação de registros. Assim, é apresentada a codificação com a XML e o esquema MARCXML, bem como críticas aos Formatos MARC 21. Conclui-se que, apesar das críticas, os Formatos MARC 21 continuam sendo amplamente utilizados e disseminados e que, apesar das vantagens oferecidas pela XML, a codificação com a norma ISO 2709, criada para o intercâmbio de dados em fitas magnéticas na década de 1960, ainda é utilizada.

Figura 1 – Categorização dos instrumentos, princípios, modelos e tecnologias

Categorização dos instrumentos, princípios, modelos e tecnologias

Fonte: PICCO; ORTIZ REPISO (2012, p. 149, tradução nossa).

“O formato legível por máquina desenvolvido na LC, na década de 1960, visava à transmissão de registros em fitas magnéticas, o que justifica o caráter sequencial da codificação utilizada originalmente na transmissão de registros MARC.”

Figura 2 – Registro codificado com a ISO 2709

Registro codificado com a ISO 2709

“Apesar das normas para a codificação terem sido atualizadas no decorrer dos anos, nota-se que não houve mudanças significativas na codificação, de modo que os registros nos atuais Formatos MARC 21 são, em sua maior parte, codificados quase que da mesma forma com que eram codificados os registros na década de 1960, seja para propósitos de recuperação, por exemplo, via protocolo Z39.50, de importação entre sistemas de gerenciamento de bibliotecas ou de armazenamento em bancos de dados.”

Figura 3 – Fragmento de um registro codificado com a DTD XML

Fragmento de um registro MARC 21 codificado com a DTD XML

“Essas DTDs XML definiam todos os elementos que poderiam aparecer em um registro MARC 21 codificado com a XML e especificavam como esses elementos seriam rotulados e representados nessa codificação (TAYLOR; JOUDREY, 2009, p. 153).”

“No desenvolvimento do MARCXML foi adotada uma abordagem diferente daquela utilizada nas DTDs. Ao invés de criar um elemento para cada campo e subcampo, foram criados elementos XML para os diferentes tipos de elementos do MARC 21 (leader, controlfield, datafield e subfield), sendo que as tags dos campos, os indicadores e os códigos de subcampos definidos nos Formatos MARC 21 seriam indicados por meio de atributos XML. O resultado dessa abordagem foi um esquema único e mais simples para todos os tipos de registros MARC 21 (bibliográfico, de autoridade, etc.) (EITO BRUN, 2008, p. 154).”

Figura 4 – Registro MARC 21 codificado com o MARCXML

Registro MARC 21 codificado com o MARCXML

“[…] além da codificação tradicional sequencial, tem-se a possibilidade de codificar registros nos Formatos MARC 21 utilizando a XML, que está em maior consonância com as tecnologias de informática atuais. Mesmo com essa possibilidade, nota-se que a comunidade de bibliotecas encontra-se ainda presa à codificação da ISO 2709, utilizando uma estrutura sequencial desenvolvida para fitas magnéticas.”

Figura 5 – Codificações de registros nos Formatos MARC 21 desenvolvidas pela LC

Codificações de registros nos Formatos MARC 21 desenvolvidas pela LC

“[…] em razão dos Formatos MARC terem sido criados na década de 1960 para possibilitar a produção de fichas catalográficas, um registro MARC 21, ainda hoje, simula uma ficha catalográfica no ambiente digital.”

“Todos os problemas que temos com o MARC derivam da violação inicial da lei fundamental da automação de bibliotecas – ‘nunca automatize apenas o que você tem’. Anos atrás, clamei por uma reforma completa do MARC que deveria, essencialmente, substituir por simples registros (nomes, descrições, assuntos) com muitas e complexas conexões o que temos hoje – complexos registros com poucas conexões. É evidente que meu chamado não foi ouvido. Como uma consequência, estamos lidando com os efeitos de milhões de registros MARC e centenas de sistemas baseados nesses registros sem a capacidade de tirar vantagem da sofisticação dos modernos sistemas online.” (GORMAN, 1997, tradução nossa)

Quer ler essas e outras críticas aos Formatos MARC 21? Então acesse o artigo completo em http://portaldeperiodicos.eci.ufmg.br/index.php/pci/article/view/2054

O armazenamento de registros MARC 21 em bancos de dados bibliográficos, ou "Como não utilizamos as tecnologias atuais"

Formatos MARC 21

Em duas postagens anteriores abordei algumas das características das diferentes estruturas dos bancos de dados bibliográficos.

Na primeira postagem, Bancos de dados para implementação do RDA: estrutura “flat file”, abordei as estruturas “flat file” (arquivo simples). Os catálogos baseados em bancos de dados com essa estrutura, em geral, tendem a reproduzir – em ambiente digital – um catálogo em fichas: são armazenados blocos de dados (registros) sem vínculos explícitos (links) entre si.

Na segunda postagem, Bancos de dados para a implementação do RDA: registros bibliográficos e de autoridade vinculados, falei um pouco sobre a estrutura comumente encontrada nos atuais sistemas de gerenciamento de bibliotecas. Nos catálogos de tais sistemas, em geral, são criados links entre registros bibliográficos e registros de autoridade, entre registros de autoridade e entre registros bibliográficos e registros de itens (exemplares): blocos de dados com links entre si.

Esses blocos de dados (registros), com ou sem links entre si, na maior parte dos casos são construídos de acordo com um formato, tal como o MARC 21, o UNIMARC, etc.

Os Formatos MARC 21

Em 1965, Henriette Avram (7 de outubro de 1919 – 22 de abril de 2006) juntou-se ao Office of the Information Systems Specialist da Library of Congress (LC).

Designada para analisar dados catalográficos para determinar sua manipulabilidade por computador, ela mergulhou nos rudimentos da catalogação e rapidamente reconheceu o aspecto mais crucial da automação de bibliotecas: elaborar um meio de transporte padrão para a comunicação de dados bibliográficos. A culminação desses esforços resultou no MARC Pilot Project. (RATHER; WIGGINS, 1989, p. 856).

O MARC Pilot Project foi, então, iniciado no início de 1966 e, em novembro do mesmo ano, passou a operar.

Ao final do projeto piloto, em junho de 1968, a LC havia distribuído em fitas magnéticas aproximadamente 50.000 registros legíveis por máquina. O relatório final do projeto, publicado em 1968, além de apontar os resultados e a experiência das bibliotecas envolvidas no projeto, descrevia o MARC II.

Da década de 1970 aos dias de hoje, diversos foram os formatos criados sobre a base estabelecida por Avram durante o MARC Pilot Project:

Os Formatos MARC 21 atualmente compreendem cinco formatos:

  • MARC 21 Format for Bibliographic Data (Dados Bibliográficos)
  • MARC 21 Format for Authority Data (Dados de Autoridade)
  • MARC 21 Format for Holdings Data (Dados de Coleção)
  • MARC 21 Format for Classification Data (Dados de Classificação)
  • MARC 21 Format for Community Information (Dados de Comunidade).

O registro MARC 21

Este registro bibliográfico no Formato MARC 21 está pronto para ser intercambiado:

00595nam a2200205 a 45  0010010000000080041000100200013000510350016000 640400020000800410013001000820012001131000033001 252450069001582500013002272600048002403000013002 88440003200301500003400333650002200367 000259911 030128s1982    rjb           000 1 por d   a(Broch.)   aCM001775391   aBIBLIODATA bpor 1 apor heng   a823.914 1  aChristie, Agatha, d1890-1976 12 aA casa torta / cAgatha Christie ; tradução de Carmen Ballot. –   a8. ed. –   aRio de Janeiro, RJ : bNova Fronteira, c1982   a238 p. – 1 a(Coleção Agatha Christie)   aTradução de: Crooked house. 4 aFicção inglesa.

(Um registro MARC 21, aquele que você baixa da LC, Bibliodata, etc., é uma única linha contínua, aqui essa linha foi quebrada em várias linhas para possibilitar uma melhor visualização.)

A norma ISO 2709 Documentation – Format for Bibliographic Information Interchange on Magnetic Tape (Documentação – Formato para intercâmbio de informação bibliográfica em fita magnética) é utilizada como base para os Formatos MARC 21, ou seja, a estrutura dessa linha contínua (registro) é definida pela ISO 2709. Vale lembrar que, quando digo estrutura, nesse caso, estou falando das partes do registro (líder, diretório, campos) e não do significado de cada um dos campos e subcampos.

O registro acima, construído sobre “uma estrutura destinada especialmente para comunicações entre sistemas de processamento de dados e não para uso como formato de processamento pelos sistemas” (ISO 2709, p. 1), pode ser exportado em um sistema e importado em outro.

Ao receber o registro, o sistema que fará a importação localizará, por meio da estrutura definida na ISO 2709, o líder, o diretório e os campos dentro do registro. Após a localização das partes do registro será identificado, por meio da marcação dos códigos de campos e subcampos, o que é título, local de publicação, nome do publicador, etc.Este formato (linha contínua) deveria ser apenas o formato para o intercâmbio de registros, pois o MARC 21 é um formato de intercâmbio.

Penso que, em algum momento da história da catalogação dos últimos 50 anos, o MARC deixou de ser utilizado somente como um formato de intercâmbio, passando a ser utilizado também como um formato de armazenamento dos dados catalográficos, como um modelo para a construção (modelagem) de catálogos (bancos de dados) e, em muitos casos, como um condicionador do fazer do catalogador (você segue o MARC 21?).

No decorrer dos anos, em razão dos programas de catalogação centralizada, cooperativa e copiada e de outros fatores, os formatos como o MARC adquiriram uma enorme importância na catalogação e, consequentemente, no desenvolvimento de sistemas de gerenciamento de bibliotecas.

Há algum tempo, houve um momento em que, após a importação de um registro, retirar dele alguns elementos para possibilitar a busca e armazená-lo no banco de dados como um bloco de dados (Figura 1) tornou-se mais fácil que “quebrá-lo” em vários pedacinhos (dados) e armazenar cada um deles separadamente (Figura 2).

Figura 1 - Registros MARC 21 armazenados como "blocos de dados"
Figura 1 – Registros MARC 21 armazenados como “blocos de dados”
Figura 2 - Os dados de um registro armazenados separadamente:
Figura 2 – Os dados de um registro armazenados separadamente:

(As figuras foram feitas apenas para exemplificar o que disse, desse modo, não representam exatamente as tabelas do banco de dados de um sistemas de gerenciamento de bibliotecas.)

Assim, penso que muitos dos atuais sistemas de gerenciamento de bibliotecas têm seus bancos de dados modelados (projetados, planejados, etc.) para armazenar registros nos Formatos MARC 21 como “grandes blocos de dados”.

Por que fazer diferente?

Esses grandes blocos de dados, aliados a outros fatores, fazem com que não sejam exploradas todas as possibilidades de relacionamentos entre os dados que são oferecidas pelas atuais tecnologias.

Em um banco de dados como o apresentado na Figura 1, para cada catalogação de um livro cuja editora é a Nova Fronteira, eu terei “Nova Fronteira” armazenada no banco de dados ao menos duas vezes: uma no registro MARC e outra no campo publicador (utilizado para possibilitar as buscas). Assim, se forem catalogados 200 livros publicados pela editora Nova Fronteira, eu terei “Nova Fronteira” armazenado ao menos 400 vezes no banco de dados.

Já em um banco de dados como o exemplificado na Figura 2, eu terei armazenado apenas um “Nova Fronteira” para cada livro: 200 “Nova Fronteira” ao todo.

Fazendo uso das possibilidades oferecidas pelas tecnologias, eu poderia ter “Nova Fronteira” armazenado uma única vez no banco de dados. Poderia ser criada uma tabela para armazenar os nomes das editoras. Nessa tabela, cada editora receberia um código, Nova Fronteira receberia, por exemplo, “0005”. Assim, cada vez que um livro dessa editora fosse catalogado, no campo “publicador” seria armazenado “0005”. Se um dia eu precisasse alterar o nome dessa editora bastaria acessar a tabela “Editoras” e realizar a modificação uma única vez.

A eliminação de redundâncias no banco de dados é um dos diversos benefícios que uma utilização mais consciente dos padrões (neste caso do MARC) e das tecnologias podem proporcionar aos catálogos.

Neste post tentei apresentar algumas considerações sobre os Formatos MARC 21 e a relação deles com a estrutura dos bancos de dados bibliográficos (catálogos). Um longo e intenso trabalho ainda precisa ser feito até a catalogação alcançar um patamar condizente com a situação tecnológica atual. Felizmente, diversos grupos, principalmente internacionais, já estão empenhados nessa tarefa.

Na próxima postagem (antes do terceiro post da série “Bancos de dados para a implementação do RDA”) falarei um pouco sobre o modelo conceitual FRBR. Esse modelo tem provocado inúmeras discussões no cenário da catalogação descritiva, impactando no modo com que nossas regras de catalogação estão estruturadas, nossos bancos de dados bibliográficos (catálogos) são modelados e, consequentemente, no modo com que transmitimos dados via formatos de intercâmbio.

Referências

ISO 2709

RATHER, Lucia J.; WIGGINS, Beacher. Henriette D. Avram: close-up on the career of a towering figure in library automation and bibliographic control. American Libraries, p. 855-859, oct. 1989.

Padrões bibliográficos

Entre alguns textos, encontrei uma categorização dos padrões, modelos, regras, etc. bibliográficos apresentada na documentação do W3C Library Linked Data Incubator Group.

A categorização (disponível em w3.org/2005/Incubator/lld/wiki/File:LayeredModelV3.pdf) compreende desde os modelos conceituais até as especificações como a XML, passando pelos códigos de catalogação, seus elementos e os formatos de metadados, como mostrado na figura abaixo.

Padrões bibliográficos
Padrões bibliográficos
Na camada dos modelos estão os requisitos funcionais, representados pelos modelos conceituais Functional Requirements for Bibliographic Records (FRBR) (Requisitos Funcionais para Registros Bibliográficos), Functional Requirements for Authority Data (FRAD) (Requisitos Funcionais para Dados de Autoridade) e Functional Requirements for Subject Authority Data (FRSAD) (Requisitos Funcionais para Registros de Autoridade de Assunto).

Na camada dos padrões de conteúdo estão as regras de catalogação, os elementos das regras de catalogação e os vocabulários. As regras de catalogação e os elementos das regras de catalogação são bastante familiares: AACR2r e seus elementos, RDA e seus elementos, ISBD e seus elementos, etc.

Os vocabulários, apesar de serem utilizados na catalogação (não somente nos processos temáticos, mas também nos descritivos), muitas vezes não são vistos como tal. Quando consultamos a lista de termos para a designação geral do material (DGM) no AACR2r (regra 1.1C), estamos consultando um vocabulário.

Também utilizamos vocabulários quando consultamos as listas dos códigos de países e de idiomas utilizados nos Formatos MARC 21, assim como as listas de termos presentes no RDA para indicar o tipo de suporte de um recurso informacional (RDA 3.3).

Na camada de estrutura estão os formatos de metadados e as sintaxes de codificação. Alguns dos formatos de metadados, também chamados de padrões de metadados, são figuras presentes nas atividades do catalogador, como é o caso do Formato MARC 21 para Dados Bibliográficos.

Outros formatos de metadados, o Metadata Object Description Schema (MODS) (Esquema de Metadados para a Descrição de Objeto), por exemplo, ainda permanecem pouco conhecidos pelos catalogadores, principalmente no Brasil.

Nas sintaxes de codificação estão as especificações, recomendações ou padrões para codificação de dados. Uma dessas recomendações é a Extensible Markup Language (XML) (Linguagem de Marcação Extensível). Originalmente projetada para vencer os desafios da publicação eletrônica em larga escala, a XML adquire um papel cada vez mais importante no intercâmbio de uma variedade de dados na Web e em outros ambientes digitais (WC3, 2012).

Segundo Ray (2003, p. 6, tradução nossa),

Estritamente falando, a XML não é uma linguagem de marcação. Uma linguagem tem vocabulário e gramática fixados, a XML na verdade não define qualquer elemento. Em vez disso ela estabelece uma série de restrições sintáticas sob as quais você pode construir sua própria linguagem. Assim, uma descrição mais adequada seria chamar a XML de um kit de ferramentas para linguagem de marcação.

O MODS é o exemplo de uma linguagem (em nosso caso um formato de metadados) criado com base na XML.

Outra sintaxe de codificação existente (que provavelmente muita gente na área já ouviu falar mas não entendeu bem o que realmente é) é a ISO 2709 Documentation – Format for Bibliographic Information Interchange on Magnetic Tape (Documentação – Formato para intercâmbio de informação bibliográfica em fita magnética) (SIQUEIRA, 2003, p. 47).

A ISO 2709:2008 especifica os requisitos para um formato de intercâmbio geral que conterá registros descrevendo todos os tipos de materiais passíveis de descrição bibliográfica, bem como outros tipos de registros. Ela não define o tamanho ou o conteúdo de registros individuais, nem atribui qualquer significado às tags, indicadores ou identificadores, pois tais especificações são funções de um formato de implementação. (ISO 2709:2008).

Os Formatos MARC 21 são exemplos de implementação da ISO 2709. Assim, a ISO 2709 define, entre outros, que o código de um campo será composto por três caracteres, por exemplo “245”, e não “o que significa 245” ou, melhor dizendo, “que dado deve ser registrado no campo 245”. O que deve ser registrado em um determinado campo ou subcampo é definido pelo formato de metadados e não pela sintaxe de codificação.

Junto ao diagrama elaborado pelo W3C Library Linked Data Incubator Group estão outros diagramas, dentre eles uma “linha do tempo” representando a cronologia do surgimento dos padrões bibliográficos.

Linha do tempo dos Padrões bibliográficos
Linha do tempo dos Padrões bibliográficos
Essa é uma das categorizações existentes para os padrões, modelos, regras, etc. bibliográficos. Alguns autores incluem ou excluem categorias, de modo que as categorizações encontradas possam parecer divergentes entre si. Nesses casos é necessário considerar que as categorizações foram elaboradas com diferentes propósitos, sob diferentes pontos de vista e considerando diferentes variáveis. Assim, cabe ao leitor ou ao pesquisador interessado no assunto escolher a categorização que melhor atender seus objetivos.

Referências

INTERNATIONAL ORGANIZATION FOR STANDARDIZATION. ISO 2709:2008 Information and documentation – Format for information exchange. Geneva, 2008.

LIBRARY standards. In: LIBRARY Linked Data Incubator Group wiki. [S.l.: s.n.], 2010.

RAY, E. T. Learning XML. 3rd ed. Beijing: O’Reilly, 2003.

SIQUEIRA, M. A. XML na Ciência da Informação: uma análise do MARC 21. 2003. 133 f. Dissertação (Mestrado em Ciência da Informação) – Faculdade de Filosofia e Ciências, Universidade Estadual Paulista, Marília, 2003.

W3C. Extensible Markup Language (XML). [S.l.], 2012.