A problemática existente entre silos de dados e o compartilhamento de dados
um estudo sobre o SciELO Data
DOI:
https://doi.org/10.34630/xiedicic.vi.6730Palavras-chave:
Silos de dados, Repositórios de dados de pesquisa, Ciência aberta, Gestão de dados, InteroperabilidadeResumo
A Organização das Nações Unidas para a Educação, Ciência e Cultura (UNESCO) define ciência aberta como um conjunto de práticas e princípios de cooperação e compartilhamento de dados entre cientistas para facilitação de acesso e popularização das pesquisas científicas. Diante disso, é constatada a necessidade de zelar com mais vigor e rigor nos critérios e processos de armazenamento, integração e reuso dos dados. Em 2016, a Scientifc Data publicou os "Princípios Orientadores FAIR para Gestão e Administração de Dados Científicos”, cujas diretrizes desejam melhorar as seguintes dimensões de produção e reuso de dados: Findable (Localizáveis); Accessible (Acessíveis); Interoperable (Interoperáveis); e Reusable (Reutilizáveis) de ativos digitais. Desses quatro princípios, destaca-se aqui o terceiro. A demanda por dados interoperáveis exige que o pesquisador utilize protocolos universais ao planejar e gerar seus dados. No entanto, nem sempre os repositórios se conectam e funcionam como “armazéns de grãos isolados” formando uma espécie de silo. A proposta deste estudo é refletir sobre o problema dos chamados silos de dados no compartilhamento em repositório de dados abertos de pesquisa, tendo como campo empírico a análise do SciELO Data. Acredita-se que a temática, em diálogo com a Ciência de Dados e estudos sobre Inteligência Artificial, possa contribuir com a compreensão dos desafios na formação em Ciência da Informação. Para Wang, Kung & Byrd (2018), a concepção de dados envolve aspectos históricos e pragmáticos, além do cuidado com precisão, acurácia e credibilidade dos dados, bem como os processos e funções tradicionais da Biblioteconomia e as teorias da Documentação. A solução para um melhor aproveitamento da potencialidade dos dados de pesquisa seria possibilitar as melhores condições para seu compartilhamento e, consequentemente, reuso de dados. A formalização e sistematização dos processos para disponibilização de dados, juntamente com o amplo e aberto acesso a coleções de dados por meio de repositórios online, promovidos por órgãos governamentais, agências de fomento, entidades científicas e editoriais, têm contribuído para a maior legitimação do reuso de dados no contexto científico. Nessa direção, os “silos de dados” ou “silos de informação” (Zhang, Yuan, Xiong, 2009; ZHANG, et al., 2025; Patel, 2019), aparecem como um empecilho para integração entre grupos de dados e comunicação entre eles no universo dos repositórios de dados. Trata-se, portanto, de uma pesquisa descritiva, aplicada, de abordagem qualitativa, do tipo exploratória, e de caráter analítico experimental. Utiliza pesquisa bibliográfica para levantamento de estudos capazes de fundamentar a argumentação apresentada e se operacionaliza como um estudo de caso sobre o portal de pesquisa do SciELO Data a partir da análise da documentação disponibilizada online, com a finalidade de identificar possíveis questões associadas ao conceito de silo de dados. A escolha se justifica pela sua importância para preservação e disseminação de dados de pesquisa em diferentes países, abrigando um quantitativo expressivo de periódicos associados. Destaca-se que o repositório SciELO Data utiliza o repositório Dataverse (SciELO, 2023a) e a vantagem do uso desse repositório é o alinhamento com os princípios FAIR (encontrável, acessível, interoperável, reutilizável) (SciELO, 2023a). Ademais, o SciELO Data realiza o compartilhamento dos dados com princípios voltados para repositórios confiáveis e suporta a criação de metadados padronizados e DOI para conjuntos de dados e alinha sua prática com a política de dados abertos da Ciência Aberta (SciELO, 2023b). Com base na definição de silos de dados, foram estipulados os seguintes critérios para análise do SciELO Data: a) impossibilidade de comunicação, b) escopo e cobertura com o compartilhamento e/ou integração de grupos de dados, c) desenvolvimento de software em diferentes momentos ao longo de décadas, utilizando soluções de diferentes fabricantes, d) utilização de métodos e ambientes não compatíveis, e) ausência de interfaces padronizadas, f) falta de protocolos de comunicação, e g) formato de transmissão de dados e regras de resposta uniformes. A partir desses critérios, foi realizada uma análise em sua base de busca (SciELO, 2023b) e na documentação disponível (SciELO, 2023a), no recorte adotado por esta investigação. Como resultados parciais, avaliou-se que o SciELO Data atende aos requisitos analisados. Todavia, há indícios e limitações que podem ser interpretados como riscos potenciais à interoperabilidade e ao compartilhamento pleno, o que pode ser associado ao conceito de silos de dados, como lacunas funcionais e práticas que podem causar incompatibilidades operacionais e semânticas com ambientes mais avançados ou integrados, impondo barreiras à curadoria internacional, bem como pouca visibilidade dos endpoints e documentação técnica. Da perspectiva do controle terminológico, não foram identificadas ontologias ou outro tipo de linguagem documentária, indicando fragilidades na dimensão semântica de preservação de dados. A respeito do escopo e cobertura com o compartilhamento e/ou integração de grupos de dados, constatamos que, como a rede SciELO é organizada por país, há pouca interoperabilidade entre os sistemas SciELO Data de diferentes países, o que pode configurar silos geográficos. O SciELO Data não impõe o depósito de dados, sua utilização é voluntária por parte dos autores, o que gera inconsistência na adoção dos métodos e inviabiliza fluxos sistemáticos de interoperabilidade. Por fim, o SciELO Data aceita qualquer tipo de arquivo, porém é recomendado o depósito de formatos, acarretando a presença de dados sem as definições, descrições e formatos necessário para serem considerados de acordo com os princípios FAIR. Concluiu-se que o SciELO Data possui características analíticas únicas que precisam ser valorizadas, sendo uma fonte relevante para publicação científica em acesso aberto nas regiões que abrange. No entanto aponta para a necessidade de buscar maneiras de melhorar a interoperabilidade dos dados depositados, de forma a aumentar a disponibilidade em larga escala para pesquisadores, formuladores de políticas, bibliotecários e quaisquer outras partes interessadas. Após a análise realizada, pode-se afirmar que o SciELO Data não é um silo de dados por definição, mas apresenta barreiras operacionais, técnicas e culturais que podem afetar a fluidez do compartilhamento em larga escala, tornando-se campo fértil para a contribuição da Ciência da Informação, com foco em interoperabilidade, curadoria de dados, metadados e políticas informacionais.
Downloads
Publicado
Edição
Secção
Licença

Este trabalho encontra-se publicado com a Licença Internacional Creative Commons Atribuição-NãoComercial-SemDerivações 4.0.