Transformando uma planilha em registros MARC

No tutorial anterior, mostrei como converter um arquivo com registros MARC em uma planilha. Neste tutorial, faremos o caminho inverso: utilizaremos os dados que estão em uma planilha do Excel para gerar registros MARC 21.

Essa conversão é útil para os casos em que temos uma planilha com dados sobre os materiais que serão incluídos no catálogo e desejamos aproveitar esses dados para facilitar a catalogação. Por exemplo, a partir de uma planilha com os dados sobre teses, dissertações, TCCs, etc., gerada pelo sistema acadêmico de sua instituição, você pode criar registros MARC para inclusão em seu catálogo.

Os registros gerados nessa conversão talvez não tenham o nível de detalhe desejado e nem estejam em total conformidade com sua política de catalogação, mas, ainda sim, podem facilitar o trabalho, servindo como uma “pré-catalogação”.

O resultado da conversão será um arquivo contendo registros MARC 21, codificado com a ISO 2709 e com a extensão .mrc. Arquivos deste tipo são aceitos nos principais sistemas de gerenciamento de bibliotecas. Se você estiver em dúvida se é possível ou não importar esses registros, consulte a documentação e/ou a equipe de suporte do seu sistema.

Vamos lá! Você precisará de:

MarcEdit. Baixe e instale em seu computador a versão do MarcEdit referente ao seu sistema operacional.

Microsoft Office Excel, LibreOffice Calc ou outro software para edição de planilhas.

Planilha contendo os registros. É necessário que cada registro esteja em uma linha e que os dados estejam distribuídos nas colunas. O MarcEdit aceita planilhas do Excel com as extensões .xls e xlsx. Se sua planilha estiver em outro formato, salve-a com uma dessas extensões. Para este tutorial, utilizarei como exemplo uma planilha com dados obtidos no Portal Livro Aberto do IBICT. Caso queira testar com essa planilha, clique aqui para baixá-la.

1ª Etapa: Preparando a planilha

Nesta 1ª Etapa faremos alguns ajustes na planilha para facilitar a conversão no MarcEdit e gerar registros MARC com maior qualidade.

  1. Comece analisando sua planilha: Quais são as colunas da planilha? As colunas têm as informações de que você precisa para criar um registro MARC, nem que seja com os “campos básicos”? Quais outras informações você precisa mas que não estão na planilha? É possível incluir as informações faltantes?
  1. Após a importação, pode ser necessário editar os registros um a um em seu sistema, então, tudo o que você conseguir já deixar pronto na planilha facilitará o seu trabalho posteriormente. Por exemplo, na planilha não constam os locais de publicação, mas há uma coluna com as editoras. É possível saber qual a cidade a partir do nome da editora? Sim? Então, acrescente uma coluna e preencha o local de publicação na planilha.
  1. Para obter registros MARC mais detalhados (com os dados em seus devidos campos e subcampos), o ideal é que cada coluna da planilha corresponda a um subcampo do registro MARC. Por exemplo:

Coluna A contendo o título e o subtítulo
Resultado: título e subtítulo juntos no 245$a

Coluna A contendo o título e coluna B contendo o subtítulo
Resultado: título no 245$a e subtítulo no 245$b

  1. Lembre-se de que alguns campos e subcampos são repetíveis, assim, algumas colunas podem se repetir em sua planilha, por exemplo:

Colunas Assunto 1, Assunto 2, Assunto 3
Resultado: cada assunto será um 650$a

Coluna Assuntos (todos os assuntos dentro de uma mesma coluna)
Resultado: 650$a com todos os assuntos juntos.

  1. Se precisar dividir os dados de uma coluna, como nos exemplos do 245 e do 650 acima, tente usar a funcionalidade Texto para colunas do Excel ou do LibreOffice Calc indicada no Material complementar.
  1. Após ter resolvido essas questões, renomeie os títulos de cada coluna usando o formato campo$subcampo: 100$a, 245$a, 245$b, 260$a, 260$c, 650$a, 856$u, etc. Não é necessário que as colunas da planilha estejam na mesma ordem dos campos MARC, pois o MarcEdit organizará os campos automaticamente. A planilha que estou usando de exemplo possui as seguintes colunas:
As colunas contendo título (245$a) e subtítulo (245$b) serão unidas para compor o campo 245.
Cada coluna contendo um assunto dará origem a um campo 650$a.
Cada coluna contendo um responsável secundário dará origem a um campo 700$a.
  1. Salve a planilha.

2ª Etapa: Convertendo a planilha

Nesta etapa, carregaremos a planilha no MarcEdit, realizaremos mais alguns ajustes para melhorar a qualidade dos registros e concluiremos a conversão.

  1. Na tela inicial do MarcEdit, acesse Tools > Delimited text translator.
  1. Em Source file, clique na pasta amarela e selecione o arquivo do Excel. Se o arquivo não estiver aparecendo, selecione Excel XML file no canto inferior direito da tela.
  2. Em Output file, clique na pasta amarela com a seta verde, escolha o nome e o local onde deseja salvar o arquivo resultante da conversão e clique em Salvar. O arquivo será salvo com a extensão .mrk.
  3. Se no arquivo do Excel houver mais de uma planilha, escolha o nome da planilha desejada em Excel sheet name.
  4. Não é necessário alterar as opções em Delimiter values.
  5. Opcionalmente, podemos alterar as configurações do Líder e do campo 008. Para isso, clique em Edit LDR/008. Em LDR, escolha o tipo de material e altere os caracteres das posições do Líder e do 008. Lembre-se: em todos os registros, o líder e o 008 terão a mesma configuração.
  6. Clique em Next.

Nesta janela, ocorrerá o mapeamento entre as colunas da planilha e o campos$subcampos desejados. Na 1ª Etapa já fizemos esse mapeamento (note que na primeira linha já constam os campos$subcampos escolhidos para cada coluna), agora, precisamos apenas que o MarcEdit pegue essas informações.

  1. Clique em Auto generate. Veja que a lista de Arguments foi preenchida.
  1. Observação: Se não tivéssemos feito esse mapeamento lá na 1ª Etapa teríamos que fazê-lo agora, assim: em Select, escolher a coluna da planilha; em Map to, preencher o campo$subcampo; clicar em Add argument; repetir isso para todas as colunas.
  2. Com a lista de Arguments preenchida, podemos fazer mais algumas configurações para melhorar os resultados da conversão:
Reunindo os subcampos de um mesmo campo
  1. Temos, por exemplo, uma coluna para o 245$a (título) e outra para o 245$b (subtítulo). Queremos que esses dois subcampos sejam reunidos em um único campo 245. Para isso: na lista de Arguments, clique no campo 245$a e no 245$b, clique com o botão direito do mouse e escolha Join items.
  1. Em cada um deles será incluído um asterisco.
  2. Podemos fazer o mesmo para o 260$a (cidade), 260$b (editora) e 260$c (data de publicação): clicar nos três e em Join items. Dessa vez, surgirão dois asteriscos. Os asteriscos são uma forma do MarcEdit saber quais subcampos precisam ser reunidos com quais. Se você continuar juntando subcampos, aparecerão ***, ****, *****, etc.
Preenchendo os indicadores
  1. Por padrão, ao final da conversão, alguns indicadores serão preenchidos automaticamente, porém a maioria será deixa em branco. Se a opção Calculate common nonfiling data estiver marcada, o MarcEdit calculará a quantidade de caracteres que será desprezada na alfabetação e preencherá os indicadores que carregam essa informação, por exemplo, o segundo indicador do campo 245.
  2. Os demais indicadores serão deixados em branco, a não ser que você queira alterá-los. Para alterar os indicadores, clique com o botão direito do mouse sobre o campo na lista de Arguments e escolha Edit item.
  1. Na seção Settings, preencha os Indicators com os valores desejados para o primeiro e o segundo indicadores. Para deixar um indicador em branco, use a barra invertida \. Clique em Add argument para registrar a alteração.
  1. No exemplo, alterei os indicadores do campo 856 para 40, assim, em todos os registros o campo 856 terá sempre esses indicadores.
Incluindo a pontuação
  1. É possível incluir sinais de pontuação ao final de cada subcampo: clique com o botão direito do mouse sobre o subcampo na lista de Arguments e escolha Edit item; na seção Settings, preencha Term. punctuation com os sinais de pontuação desejados. Clique em Add argument para registrar a alteração.
  1. No exemplo, incluí espaço dois pontos (” :”) ao final do 260$a.

Antes de decidir pela inclusão ou não da pontuação, conheça o seu sistema: após a importação dos registros, ele incluirá a pontuação automaticamente ou não? Se for caso, pondere se vale a pena incluir a pontuação lá no Excel ou aqui na conversão do MarcEdit.

Salvando as configurações
  1. É possível salvar essas configurações de conversão para reutilizá-las sempre que necessário. Para salvar, marque a opção Save template.
  2. Concluídas as configurações, clique em Finish.
  3. Se você marcou a opção Save template, escolha a pasta para salvar o arquivo com as configurações. Será gerado um arquivo com a extensão .mrd e você poderá utilizá-lo futuramente clicando na opção Load template.
  4. O MarcEdit mostrará um mensagem dizendo que a conversão foi concluída e o arquivo foi salvo. Siga para a próxima etapa!

3ª Etapa: Salvando o arquivo para importação no catálogo

Ao concluírmos a 2ª Etapa, o MarcEdit gerou um arquivo com a extensão .mrk contendo os registros MARC. O arquivo .mrk é utilizado pelo MarcEdit e, para importá-lo no sistema de gerenciamento de bibliotecas, é necessário salvá-lo com a extensão .mrc. Faremos isso nesta etapa.

  1. Abra a pasta escolhida para salvar o resultado da conversão e localize o arquivo .mrk. Arquivos com essa extensão possuem um ícone azul. Clique duas vezes para abrir o arquivo no MarcEdit.
  1. Confira se os registros gerados na conversão estão de acordo com suas expectativas. Um relatório de campos e subcampos, que mostrei no tutorial anterior, pode ser útil para essa conferência.

Você pode alterar os registros nesta tela de edição do MarcEdit, no entanto, é essencial que você siga o formato mnemônico do MarcEdit. Consulte o item 3 do Manual para utilização do MarcEdit para mais informações.

  1. Se o arquivo estiver pronto para importação em seu catálogo, acesse o menu File > Compile file into MARC. Escolha o nome e o local onde deseja salvar o arquivo. Clique em Salvar.

Pronto! O MarcEdit gerou um arquivo com a extensão .mrc contendo os registros MARC codificados com a ISO 2709. O registro .mrc tem o ícone roxo. É este o arquivo que será importado em seu catálogo.

Algumas dicas

Avalie se realmente vale a pena fazer essa conversão e importar os dados em seu catálogo. Lembre-se de que após a conversão podem ser necessários ajustes para a conclusão da catalogação.

Considere também outras formas de obter registros MARC 21. Se você estiver lidando com materiais publicados, uma alternativa é a importação do catálogo da Biblioteca Nacional, da Library of Congress, de alguma outra instituição ou rede.

Se sua instituição contratou uma coleção de e-books, solicite ao fornecedor os registros MARC. Esse fornecimento é algo comum e pode até constar em contrato.

Se os dados estiverem em um repositório, biblioteca digital, etc. verifique as possibilidades de exportação desses sistemas e de importação do sistema utilizado em sua biblioteca. Podem existir alternativas mais eficientes para trazer os dados para o seu catálogo do que a conversão abordada neste tutorial.

Você pode alinhar o que aprendeu neste tutorial com o tutorial anterior. Por exemplo, se você obteve um arquivo contendo registros MARC que precisam de uma “limpeza radical”, você pode (1) transformar esse arquivo em uma planilha, (2) limpar os dados no Excel ou LibreOffice e (3) transformá-lo novamente em .mrc para importar em seu sistema.

Como sempre digo, explore as ferramentas disponíveis e combine as funcionalidades. Na conversão de registros, alguns dados se criam, alguns se perdem e alguns se transformam. O único limite é a sua criatividade!

Material complementar


Receba os novos posts por e-mail

Transformando registros MARC em uma planilha

Neste tutorial, mostrarei como converter um arquivo contendo registros MARC 21 em uma planilha do Excel utilizando o software MarcEdit. Este passo a passo pode ser útil caso você tenha um conjunto de registros e deseje extrair dele algumas informações.

Os registros MARC dos quais estamos falando aqui são aqueles que estão em arquivos com a extensão .mrc, codificados com a ISO 2709. Ao abrir um arquivo desses no bloco de notas, por exemplo, você verá uma sequência de números e letras aparentemente incompreensível; esse é o registro “legível por máquina”; é esse tipo de arquivo que usaremos no tutorial. Saiba mais sobre ISO 2709.

O resultado da conversão será um arquivo .csv contendo os dados dos campos e subcampos selecionados por você. Arquivos CSV são arquivos de texto simples em que os dados estão organizados na forma de uma planilha, portanto, podem ser editados em softwares como o Microsoft Office Excel e LibreOffice Calc. Pessoalmente, recomendo o uso do LibreOffice Calc (software livre e gratuito) caso você queira trabalhar com os dados (limpar, completar, juntar, separar, filtrar, etc.) após a conversão.

Se você estiver utilizando um sistema de gerenciamento de bibliotecas e precisar de uma planilha contendo as informações de seus registros MARC, a melhor forma de conseguir isso é, provavelmente, a partir dos relatórios gerados por seu próprio sistema, e não por este tutorial.

Vamos lá! Você precisará de:

MarcEdit. Baixe e instale em seu computador a versão do MarcEdit referente ao seu sistema operacional.

Microsoft Office Excel, LibreOffice Calc ou outro software para edição de planilhas.

Arquivo contendo os registros MARC. Para este tutorial, utilizarei como exemplo um arquivo contendo 50 registros MARC 21 que obtive do catálogo da Unesp. Caso queira testar com este arquivo, clique aqui para baixá-lo.

1ª Etapa: Analisando os registros

Para converter os registros com o MarcEdit será necessário listar os campos e subcampos que serão levados para a planilha. Se você conhece bem os seus registros e tem certeza dos campos e subcampos que precisa, já pode seguir direto para a 2ª Etapa. No entanto, se você desconhece os dados que estão no arquivo, recomendo que você gere um relatório, assim, saberá quais campos e subcampos fazem parte do arquivo e poderá selecioná-los com maior segurança. Nesta 1ª Etapa, geraremos esse relatório de campos e subcampos.

  1. Na tela inicial do MarcEdit, clique no menu Tools > Generate reports > Field count report.
  1. Selecione o arquivo .mrc contendo seus registros MARC e clique em Abrir.
  1. Escolha a pasta em que deseja salvar o relatório, o nome do arquivo e Salvar. O MarcEdit mostrará uma mensagem informando que o relatório foi salvo.
  2. O relatório foi salvo em arquivo .txt e você pode abri-lo no bloco de notas. A primeira coluna do relatório informa o campo, a segunda, o subcampo, e a terceira, a quantidade de vezes em que o campo ou subcampo aparece no arquivo.

Dos campos e subcampos utilizados nos registros, quais você precisa que estejam na planilha? Você precisa que os subcampos de um campo estejam todos dentro de uma mesma célula ou cada subcampo em uma coluna diferente? Precisaremos dessas informações na etapa seguinte.

2ª Etapa: Convertendo os registros

Nesta 2ª etapa, usaremos a funcionalidade do MarcEdit que extrairá os dados do arquivo .mrc e os colocará em um arquivo .csv ou .txt.

  1. Abra o MarcEdit.
  2. Clique no menu Tools > Export… > Export tab delimited records.
  1. No Step 1, vamos escolher os arquivos e as configurações iniciais. Clique na pasta amarela e selecione o arquivo .mrc.
  2. Clique na pasta amarela com a seta verde e escolha o local para salvar o arquivo resultante da conversão. Atenção: se você for utilizar o Excel, deixe o tipo Tab Delimited Text (.txt). Se você for utilizar o LibreOffice, altere o tipo para Comma Delimited (.csv).
  1. Não é necessário alterar as demais opções, basta clicar em Next. Futuramente, após obter maior familiaridade com o MarcEdit, com a conversão e com o trabalho com registros em planilhas, sugiro que você explore essas opções. Elas têm as seguintes finalidades:

In field delimiter: caractere que separa as múltiplas ocorrências de um campo dentro de célula da planilha. Por exemplo, se o registro contém três 650$a, a célula da planilha terá: Assunto1;Assunto2;Assunto3

Contextual delimiter: caractere que separa os subcampos dentro da célula da planilha. Por exemplo, o espaço em branco entre Cidade : #Editora,#data

  1. No Step 2, informaremos quais campos e subcampos serão levados para a planilha. Cada grupo de campo-subcampo será uma coluna da planilha.
  2. Em Field, selecione o campo. Preencha o Subfield com o subcampo desejado. Em seguida, clique em Add field. Repita isso para todos os grupos de campo-subcampo desejados. Exemplos de como preencher o Subfield:

Para obter um único subcampo, informe a letra ou número dele:
Field: 260 Subfield: a
Resultado: coluna 260$a contendo os locais de publicação.

Para obter mais de um subcampo em uma mesma coluna, informe todos os códigos juntos:
Field: 260 Subfield: abc
Resultado: coluna 260$a$b$c contendo local, editora e data de publicação.

Para obter todo o conteúdo de um campo, deixe o Subfield em branco:
Field: 260 Subfield: (em branco)
Resultado: coluna 260 contendo indicadores, códigos e conteúdo dos subcampos.

  1. Opcionalmente, antes de concluir a conversão, podemos salvar essa configuração (lista dos campos e subcampos selecionados), assim, poderemos reutilizá-la sempre que precisarmos realizar essa mesma conversão. Para salvar, clique em Settings > Save settings.
  1. Na janela que será aberta, escolha a pasta para salvar as configurações e o nome do arquivo, e clique em Salvar. Pronto, a lista de campos e subcampos está salva. Em futuras conversões, você pode utilizá-la clicando em Settings > Load settings e selecionando o arquivo salvo.
  2. Para concluir a conversão, clique em Export. O MarcEdit mostrará uma mensagem confirmando que o arquivo (.csv ou .txt) foi criado. Clique em OK.
  3. Abra a pasta escolhida para salvar a planilha e confirme se o arquivo .csv/.txt foi salvo.

3ª Etapa: Abrindo a planilha

Nesta 3ª Etapa, abriremos a planilha no Excel ou no LibreOffice. Atenção: podem ocorrer variações dependendo da versão do seu Excel ou LibreOffice.

No Excel
  1. Abra o Excel, clique no menu Arquivo > Abrir. Localize a pasta em que salvou o arquivo .txt gerado pelo MarcEdit. Na janela, altere para Todos os arquivos, para que o arquivo .txt seja exibido. Selecione o arquivo e clique em Abrir.
  1. Na primeira etapa do Assistente de importação de texto, é necessário que a opção Delimitado esteja selecionada. Em Origem do arquivo, selecione Unicode (UTF-8). Na visualização, confirme se os acentos, cedilhas e tis do arquivo estão aparecendo corretamente. Clique em Avançar.
  1. Em Delimitadores, deixe selecionado Tabulação. No Qualificador de texto, mantenha as aspas. Clique em Avançar.
  1. Escolheremos agora o formato dos dados (texto, número, data, etc.) de cada coluna da planilha. Se você deixar o tipo como Geral, o Excel tentará adivinhar o tipo de dados. Sugiro que você altere todos os tipos para Texto. Para alterar, clique em cada coluna e em Geral. Utilize a barra de rolagem horizontal para alterar o tipo de todas as colunas. Clique em Concluir.

Pronto! Se deu tudo certo (estou torcendo para que tenha dado!) cada coluna da planilha será um campo/subcampo escolhido e cada registro estará em uma linha.

No LibreOffice Calc
  1. Abra o LibreOffice, clique no menu Arquivo > Abrir. Localize a pasta em que salvou o arquivo .csv gerado pelo MarcEdit. Selecione o arquivo e clique em Abrir.
  1. No Conjunto de caracteres, selecione Unicode (UTF-8).
  2. Nas Opções de separadores, deixe marcado apenas Tabulação.
  3. Em Campos, clique na célula em branco acima do número 1 para selecionar todas as colunas e altere o Tipo de coluna para Texto. Clique em OK.

Pronto! Se deu tudo certo (estou torcendo para que tenha dado!) cada coluna da planilha será um campo/subcampo escolhido e cada registro estará em uma linha.

Algumas dicas

Mesmo abrindo nos softwares de edição de planilhas, o arquivo continua sendo .csv/.txt. Ao salvá-lo no LibreOffice ou no Excel, você pode continuar com ele em .csv/.txt, no entanto, a formatação e outros recursos (cores, fontes, bordas, filtros, etc.) serão perdidos. Se você deseja mantê-los, salve o arquivo com o formato .ods (formato ODF / ODS do próprio LibreOffice) ou .xlsx (formato do próprio Excel).

Conversão de registros MARC é algo fascinante! Faça vários testes. Explore as funcionalidades do MarcEdit, LibreOffice e Excel. Muito do que você precisa fazer pode ser facilitado com essas ferramentas!

Seguem alguns links que pode ser úteis na exploração dessas ferramentas:

MARC 21: de onde viemos e os problemas que temos

Representação no domínio bibliográfico: um olhar sobre os Formatos MARC 21

O primeiro número de 2015 da revista Perspectivas em Ciência da Informação trouxe o artigo Representação no domínio bibliográfico: um olhar sobre os Formatos MARC 21, de autoria minha e da Prof.ª Plácida Santos.

A representação da informação tem sido realizada em diversos domínios, um deles o domínio bibliográfico, onde está pautada em instrumentos, princípios, modelos e tecnologias, tais como os padrões de metadados e as codificações. Entre os padrões de metadados utilizados nesse domínio, estão os Formatos MARC 21, com origens na década de 1960. Considerando o amplo uso desses padrões, tem-se por objetivo (1) destacar os propósitos que conduziram à criação dos Formatos MARC 21, (2) apresentar as características da codificação dos registros nesses formatos e (3) discutir as principais críticas sobre sua situação atual. Para tanto, é realizada uma revisão de literatura sobre a origem do MARC e seu desenvolvimento até o MARC 21 e sobre a codificação de registros. Assim, é apresentada a codificação com a XML e o esquema MARCXML, bem como críticas aos Formatos MARC 21. Conclui-se que, apesar das críticas, os Formatos MARC 21 continuam sendo amplamente utilizados e disseminados e que, apesar das vantagens oferecidas pela XML, a codificação com a norma ISO 2709, criada para o intercâmbio de dados em fitas magnéticas na década de 1960, ainda é utilizada.

Figura 1 – Categorização dos instrumentos, princípios, modelos e tecnologias

Categorização dos instrumentos, princípios, modelos e tecnologias

Fonte: PICCO; ORTIZ REPISO (2012, p. 149, tradução nossa).

“O formato legível por máquina desenvolvido na LC, na década de 1960, visava à transmissão de registros em fitas magnéticas, o que justifica o caráter sequencial da codificação utilizada originalmente na transmissão de registros MARC.”

Figura 2 – Registro codificado com a ISO 2709

Registro codificado com a ISO 2709

“Apesar das normas para a codificação terem sido atualizadas no decorrer dos anos, nota-se que não houve mudanças significativas na codificação, de modo que os registros nos atuais Formatos MARC 21 são, em sua maior parte, codificados quase que da mesma forma com que eram codificados os registros na década de 1960, seja para propósitos de recuperação, por exemplo, via protocolo Z39.50, de importação entre sistemas de gerenciamento de bibliotecas ou de armazenamento em bancos de dados.”

Figura 3 – Fragmento de um registro codificado com a DTD XML

Fragmento de um registro MARC 21 codificado com a DTD XML

“Essas DTDs XML definiam todos os elementos que poderiam aparecer em um registro MARC 21 codificado com a XML e especificavam como esses elementos seriam rotulados e representados nessa codificação (TAYLOR; JOUDREY, 2009, p. 153).”

“No desenvolvimento do MARCXML foi adotada uma abordagem diferente daquela utilizada nas DTDs. Ao invés de criar um elemento para cada campo e subcampo, foram criados elementos XML para os diferentes tipos de elementos do MARC 21 (leader, controlfield, datafield e subfield), sendo que as tags dos campos, os indicadores e os códigos de subcampos definidos nos Formatos MARC 21 seriam indicados por meio de atributos XML. O resultado dessa abordagem foi um esquema único e mais simples para todos os tipos de registros MARC 21 (bibliográfico, de autoridade, etc.) (EITO BRUN, 2008, p. 154).”

Figura 4 – Registro MARC 21 codificado com o MARCXML

Registro MARC 21 codificado com o MARCXML

“[…] além da codificação tradicional sequencial, tem-se a possibilidade de codificar registros nos Formatos MARC 21 utilizando a XML, que está em maior consonância com as tecnologias de informática atuais. Mesmo com essa possibilidade, nota-se que a comunidade de bibliotecas encontra-se ainda presa à codificação da ISO 2709, utilizando uma estrutura sequencial desenvolvida para fitas magnéticas.”

Figura 5 – Codificações de registros nos Formatos MARC 21 desenvolvidas pela LC

Codificações de registros nos Formatos MARC 21 desenvolvidas pela LC

“[…] em razão dos Formatos MARC terem sido criados na década de 1960 para possibilitar a produção de fichas catalográficas, um registro MARC 21, ainda hoje, simula uma ficha catalográfica no ambiente digital.”

“Todos os problemas que temos com o MARC derivam da violação inicial da lei fundamental da automação de bibliotecas – ‘nunca automatize apenas o que você tem’. Anos atrás, clamei por uma reforma completa do MARC que deveria, essencialmente, substituir por simples registros (nomes, descrições, assuntos) com muitas e complexas conexões o que temos hoje – complexos registros com poucas conexões. É evidente que meu chamado não foi ouvido. Como uma consequência, estamos lidando com os efeitos de milhões de registros MARC e centenas de sistemas baseados nesses registros sem a capacidade de tirar vantagem da sofisticação dos modernos sistemas online.” (GORMAN, 1997, tradução nossa)

Quer ler essas e outras críticas aos Formatos MARC 21? Então acesse o artigo completo em http://portaldeperiodicos.eci.ufmg.br/index.php/pci/article/view/2054

O armazenamento de registros MARC 21 em bancos de dados bibliográficos, ou Como não utilizamos as tecnologias atuais

Formatos MARC 21

Em duas postagens anteriores abordei algumas das características das diferentes estruturas dos bancos de dados bibliográficos.

Na primeira postagem, Bancos de dados para implementação do RDA: estrutura “flat file”, abordei as estruturas “flat file” (arquivo simples). Os catálogos baseados em bancos de dados com essa estrutura, em geral, tendem a reproduzir – em ambiente digital – um catálogo em fichas: são armazenados blocos de dados (registros) sem vínculos explícitos (links) entre si.

Na segunda postagem, Bancos de dados para a implementação do RDA: registros bibliográficos e de autoridade vinculados, falei um pouco sobre a estrutura comumente encontrada nos atuais sistemas de gerenciamento de bibliotecas. Nos catálogos de tais sistemas, em geral, são criados links entre registros bibliográficos e registros de autoridade, entre registros de autoridade e entre registros bibliográficos e registros de itens (exemplares): blocos de dados com links entre si.

Esses blocos de dados (registros), com ou sem links entre si, na maior parte dos casos são construídos de acordo com um formato, tal como o MARC 21, o UNIMARC, etc.

Os Formatos MARC 21

Em 1965, Henriette Avram (7 de outubro de 1919 – 22 de abril de 2006) juntou-se ao Office of the Information Systems Specialist da Library of Congress (LC).

Designada para analisar dados catalográficos para determinar sua manipulabilidade por computador, ela mergulhou nos rudimentos da catalogação e rapidamente reconheceu o aspecto mais crucial da automação de bibliotecas: elaborar um meio de transporte padrão para a comunicação de dados bibliográficos. A culminação desses esforços resultou no MARC Pilot Project.

(RATHER; WIGGINS, 1989, p. 856)

MARC Pilot Project foi, então, iniciado no início de 1966 e, em novembro do mesmo ano, passou a operar.

Ao final do projeto piloto, em junho de 1968, a LC havia distribuído em fitas magnéticas aproximadamente 50.000 registros legíveis por máquina. O relatório final do projeto, publicado em 1968, além de apontar os resultados e a experiência das bibliotecas envolvidas no projeto, descrevia o MARC II.

Da década de 1970 aos dias de hoje, diversos foram os formatos criados sobre a base estabelecida por Avram durante o MARC Pilot Project:

Os Formatos MARC 21 atualmente compreendem cinco formatos:

  • MARC 21 Format for Bibliographic Data (Dados Bibliográficos)
  • MARC 21 Format for Authority Data (Dados de Autoridade)
  • MARC 21 Format for Holdings Data (Dados de Coleção)
  • MARC 21 Format for Classification Data (Dados de Classificação)
  • MARC 21 Format for Community Information (Dados de Comunidade).

O registro MARC 21

Este registro bibliográfico no Formato MARC 21 está pronto para ser intercambiado:

00595nam a2200205 a 45  0010010000000080041000100200013000510350016000 640400020000800410013001000820012001131000033001 252450069001582500013002272600048002403000013002 88440003200301500003400333650002200367 000259911 030128s1982    rjb           000 1 por d   a(Broch.)   aCM001775391   aBIBLIODATA bpor 1 apor heng   a823.914 1  aChristie, Agatha, d1890-1976 12 aA casa torta / cAgatha Christie ; tradução de Carmen Ballot. –   a8. ed. –   aRio de Janeiro, RJ : bNova Fronteira, c1982   a238 p. – 1 a(Coleção Agatha Christie)   aTradução de: Crooked house. 4 aFicção inglesa.

(Um registro MARC 21, aquele que você baixa da LC, Bibliodata, etc., é uma única linha contínua, aqui essa linha foi quebrada em várias linhas para possibilitar uma melhor visualização.)

A norma ISO 2709 Documentation – Format for Bibliographic Information Interchange on Magnetic Tape (Documentação – Formato para intercâmbio de informação bibliográfica em fita magnética) é utilizada como base para os Formatos MARC 21, ou seja, a estrutura dessa linha contínua (registro) é definida pela ISO 2709. Vale lembrar que, quando digo estrutura, nesse caso, estou falando das partes do registro (líder, diretório, campos) e não do significado de cada um dos campos e subcampos.

O registro acima, construído sobre “uma estrutura destinada especialmente para comunicações entre sistemas de processamento de dados e não para uso como formato de processamento pelos sistemas” (ISO 2709, p. 1), pode ser exportado em um sistema e importado em outro.

Ao receber o registro, o sistema que fará a importação localizará, por meio da estrutura definida na ISO 2709, o líder, o diretório e os campos dentro do registro. Após a localização das partes do registro será identificado, por meio da marcação dos códigos de campos e subcampos, o que é título, local de publicação, nome do publicador, etc.Este formato (linha contínua) deveria ser apenas o formato para o intercâmbio de registros, pois o MARC 21 é um formato de intercâmbio.

Penso que, em algum momento da história da catalogação dos últimos 50 anos, o MARC deixou de ser utilizado somente como um formato de intercâmbio, passando a ser utilizado também como um formato de armazenamento dos dados catalográficos, como um modelo para a construção (modelagem) de catálogos (bancos de dados) e, em muitos casos, como um condicionador do fazer do catalogador (você segue o MARC 21?).

No decorrer dos anos, em razão dos programas de catalogação centralizada, cooperativa e copiada e de outros fatores, os formatos como o MARC adquiriram uma enorme importância na catalogação e, consequentemente, no desenvolvimento de sistemas de gerenciamento de bibliotecas.

Há algum tempo, houve um momento em que, após a importação de um registro, retirar dele alguns elementos para possibilitar a busca e armazená-lo no banco de dados como um bloco de dados (Figura 1) tornou-se mais fácil que “quebrá-lo” em vários pedacinhos (dados) e armazenar cada um deles separadamente (Figura 2).

Figura 1 - Registros MARC 21 armazenados como "blocos de dados"
Figura 1 – Registros MARC 21 armazenados como “blocos de dados”
Figura 2 - Os dados de um registro armazenados separadamente:
Figura 2 – Os dados de um registro armazenados separadamente:

(As figuras foram feitas apenas para exemplificar o que disse, desse modo, não representam exatamente as tabelas do banco de dados de um sistemas de gerenciamento de bibliotecas.)

Assim, penso que muitos dos atuais sistemas de gerenciamento de bibliotecas têm seus bancos de dados modelados (projetados, planejados, etc.) para armazenar registros nos Formatos MARC 21 como “grandes blocos de dados”.

Por que fazer diferente?

Esses grandes blocos de dados, aliados a outros fatores, fazem com que não sejam exploradas todas as possibilidades de relacionamentos entre os dados que são oferecidas pelas atuais tecnologias.

Em um banco de dados como o apresentado na Figura 1, para cada catalogação de um livro cuja editora é a Nova Fronteira, eu terei “Nova Fronteira” armazenada no banco de dados ao menos duas vezes: uma no registro MARC e outra no campo publicador (utilizado para possibilitar as buscas). Assim, se forem catalogados 200 livros publicados pela editora Nova Fronteira, eu terei “Nova Fronteira” armazenado ao menos 400 vezes no banco de dados.

Já em um banco de dados como o exemplificado na Figura 2, eu terei armazenado apenas um “Nova Fronteira” para cada livro: 200 “Nova Fronteira” ao todo.

Fazendo uso das possibilidades oferecidas pelas tecnologias, eu poderia ter “Nova Fronteira” armazenado uma única vez no banco de dados. Poderia ser criada uma tabela para armazenar os nomes das editoras. Nessa tabela, cada editora receberia um código, Nova Fronteira receberia, por exemplo, “0005”. Assim, cada vez que um livro dessa editora fosse catalogado, no campo “publicador” seria armazenado “0005”. Se um dia eu precisasse alterar o nome dessa editora bastaria acessar a tabela “Editoras” e realizar a modificação uma única vez.

A eliminação de redundâncias no banco de dados é um dos diversos benefícios que uma utilização mais consciente dos padrões (neste caso do MARC) e das tecnologias podem proporcionar aos catálogos.

Neste post tentei apresentar algumas considerações sobre os Formatos MARC 21 e a relação deles com a estrutura dos bancos de dados bibliográficos (catálogos). Um longo e intenso trabalho ainda precisa ser feito até a catalogação alcançar um patamar condizente com a situação tecnológica atual. Felizmente, diversos grupos, principalmente internacionais, já estão empenhados nessa tarefa.

Na próxima postagem (antes do terceiro post da série “Bancos de dados para a implementação do RDA”) falarei um pouco sobre o modelo conceitual FRBR. Esse modelo tem provocado inúmeras discussões no cenário da catalogação descritiva, impactando no modo com que nossas regras de catalogação estão estruturadas, nossos bancos de dados bibliográficos (catálogos) são modelados e, consequentemente, no modo com que transmitimos dados via formatos de intercâmbio.

Referências

ISO 2709

RATHER, Lucia J.; WIGGINS, Beacher. Henriette D. Avram: close-up on the career of a towering figure in library automation and bibliographic control. American Libraries, p. 855-859, oct. 1989.