Lineamientos de interoperabilidad con el Repositorio Institucional

Introducción

Acerca de los lineamientos de interoperabilidad con el Repositorio Institucional
Los lineamientos de interoperabilidad con el Repositorio Institucional de la Universidad de Guadalajara, son el conjunto de reglas que se deberán seguir para la interconexión entre los Repositorios Departamentales o Temáticos que puedan existir dentro de los Centros Universitarios y el Repositorio Institucional.
Estos lineamientos buscan normalizar la estructura de la información y de los metadatos para que estos puedan ser extraídos, indizados y localizados por usuarios interesados a nivel nacional o internacional.
De forma adicional, el apego a estos lineamientos permitirá que la información pueda ser cosechada por sistemas externos, como podría ser el Repositorio Nacional Mexicano u otros repositorios especializados o temáticos.

Repositorio Institucional

Modelo de operación
El Repositorio Institucional opera mediante el uso de estándares internacionales que permiten buscar, leer, descargar textos completos, reproducir, distribuir, importar, exportar, identificar, almacenar, preservar y recuperar la información que se reúne. Para evitar la duplicidad de registros, los autores depositan sus trabajos utilizando siempre un identificador único para cada documento.
La vinculación entre el Repositorio Institucional con otros sistemas, como puede ser el Repositorio Nacional, contribuye a la estrategia nacional para democratizar la información académica, científica, tecnológica y de innovación. El fin es fortalecer las capacidades del país para que el conocimiento universal esté disponible, a texto completo y en formatos digitales, aprovechando el Acceso Abierto a la información académica, científica, tecnológica y de innovación nacional e internacional.
El Consejo Nacional de Ciencia y Tecnología (CONACYT) establecerá los términos, condiciones y requisitos para el depósito y publicación de los recursos de información en un Repositorio Nacional, por lo que el Repositorio Institucional deberá contar con las capacidades de cumplir con dichos requisitos.
Se ha definido que el repositorio funcionará bajo un modelo de operación distribuido, de acuerdo con la estructura que se describe a continuación.
Este modelo define el conjunto de reglas básicas de operación a las cuales deberán apegarse los repositorios digitales que se encuentren integrados a la red de repositorios de la Universidad de Guadalajara.
El objetivo de estas reglas de operación es garantizar una estructura de comunicación e interoperabilidad entre repositorios digitales que permita mantener políticas, estándares y directrices únicas de operación, tanto para los repositorios de los Centros Universitarios como para el Repositorio Institucional.

¿Por qué es necesario sujetarse a este modelo de operación?

Apegarse al modelo de operación aquí descrito permitirá que la sincronización entre los repositorios de cada Centro Universitario con el Repositorio Institucional se realice de forma transparente y con calidad tanto en sus metadatos como en los textos completos.
De igual forma, esto podrá garantizar la correcta inclusión de la producción científica institucional hacia sistemas de recolección nacionales o internacionales en los que las institución desee participar, obteniendo así una mayor visibilidad para los documentos, para cada Centro Universitario y por lo tanto, para la Institución.
Por otro lado, el mantener el modelo de operación permitirá que se desarrolle y establezca una definición única de políticas de uso de metadatos, sincronización de bases de datos, etc.

Modelo distribuido

Es el modelo que define las reglas de operación de la interoperabilidad para los repositorios de la Universidad de Guadalajara.

Uso del modelo distribuido

El modelo de operación de la red es un modelo distribuido, esto quiere decir que cada Centro Universitario podría contar con una instalación independiente encargada de almacenar la producción científica y académica de su ámbito.
Cada nodo, al ser interoperable, podrá compartir y sincronizar su información con el Repositorio Institucional.
La principal ventaja de este modelo de operación es que proporciona independencia de operación, administración y preservación para cada nodo, respetando un marco básico de operación, políticas, propiedad intelectual y estructura tecnológica que garantice interoperabilidad y sincronización de la información.

Nodo central: Repositorio Digital Institucional

Se conocerá como Nodo Central al sistema donde se alojará el Repositorio Institucional, que es el encargado de:

Definir la estructura mínima de metadatos a la que deberán apegarse los nodos locales.
Definir la tipología documental mínima a cubrir.
Definir la estructura de organización del repositorio central así como de los nodos locales.
Preparar un sistema empaquetado previamente configurado con las características mínimas básicas, que los Centros Universitarios puedan descargar e instalar para poner en marcha sus repositorios.
Crear la documentación de normatividad y lineamientos a seguir para la correcta operación de un Repositorio Digital Interoperable.
Realizar labores de almacenamiento y preservación institucionales de los recursos digitales.
Establecer enlaces públicos unificados para cada repositorio.
Difundir el proyecto entre la comunidad universitaria.
Coordinar acciones con las dependencias universitarias involucradas para cubrir los diversos aspectos que incluye la operación del repositorio.

Nodos locales: Repositorios Digitales - Centros Universitarios

Se conocerá como Nodo Local al sistema en el que cada Centro o dependencia universitaria podrá definir y poner en marcha su Repositorio Digital, mismo que deberá tomar la normatividad y estructura mínima definidas en el Nodo Central, y que además permitirá:

Recopilar la producción científica y académica de la dependencia universitaria y permitir la sincronización con el Nodo Central.
Realizar tareas propias de preservación de recursos digitales.
Crear colecciones adicionales a las predefinidas, de acuerdo con el nodo central, para incluir recursos de interés propio de la dependencia.

Reglas de operacion

A continuación se describen las reglas básicas de operacion en red.

Definición de estructura

Será el Nodo Central el encargado de definir una estructura mínima a la cual deberán apegarse los Nodos Locales, esta estructura deberá contemplan una plataforma tecnológica predefinida, una estructura de navegación previamente configurada, una definición de colecciones básicas con sus respectivos metadatos y un paquete básico de políticas de operación, gestión, recolección y depósito de documentos, preservación y mantenimiento.

Respecto al esquema de sincronización de datos

El modelo de operación requiere del cumplimiento de las siguientes fases para garantizar que el esquema de sincronización de datos opere correctamente:
Fase 1: El Nodo Central define la estructura y políticas mínimas a cumplir.
Fase 2: El Nodo Central instala, configura y pone en marcha el Repositorio Institucional.
Fase 3: El Nodo Central define un espacio dentro del repositorio para cada Centro Universitario.
Fase 4: El Nodo Central realiza un proceso de recopilación, depuración, eliminación de duplicados, normalización de datos y migración de información hacia el Repositorio Institucional, esta información deberá recabarse de sistemas y registros existentes ya sea en la Coordinación o en los Centros Universitarios.
Fase 5: Los Nodos Locales que así lo requieran, solicitan acceso a su espacio dentro del Repositorio Institucional y realizan sus actividades cotidianas dentro del sistema central.
Fase 6: Los nodos centrales que así lo requieran, descargan y ponen en marcha sus Repositorios Digitales independientes, para lo cual antes de comenzar establecen un proceso de sincronización de datos con el Repositorio Institucional.
Fase 7: Una vez sincronizados los datos, los Repositorios Locales realizan sus actividades cotidianas dentro del sistema local.

Respecto al soporte técnico y asesoría a los nodos

Para la instalación de nodos locales o la utilización de espacios particulares a las dependencias dentro del nodo central se contará con el apoyo en caso de requerirlo del personal de la Biblioteca Digital.

Modelo de recopilación de información

Los investigadores, tecnólogos, académicos y estudiantes de maestría, doctorado y posdoctorado, cuya actividad de investigación sea financiada total o parcialmente con recursos públicos o que hayan utilizado infraestructura pública en su realización, por decisión personal podrán, depositar o en su caso autorizar expresamente el depósito de la versión digital final aceptada para publicar (con o sin edición) en Acceso Abierto a través del Repositorio Institucional, comprobando que ha cumplido con el proceso de aprobación que establezca el Nodo Central. Lo anterior, sin perjuicio de las disposiciones en materia de patentes, protección de la propiedad intelectual o industrial, seguridad nacional y derechos de autor, entre otras.
Este proceso de recopilación de información se realizará a través de:

Carga manual por el personal del RI por petición expresa de los interesados o los jefes de bibliotecas.
Migración de datos: Proceso en el cual se podrá realizar la carga masiva de información hacia el Repositorio Institucional desde sistemas externos donde se encuentre almacenada actualmente, como se hizo con la Biblioteca Digital.
A futuro autodepósito: Proceso en el cual los usuarios entregarán sus documentos a través del portal web de la Coordinación de Bibliotecas, utilizando un formulario que les permitirá realizar una descripción básica del recurso, así como cargar el archivo que contenga el texto completo.

Plataforma tecnológica

Se define que la plataforma tecnológica a utilizar será el sistema denominado DSpace.

Lineamientos del RI

Respecto a los contenidos
Los contenidos que recopilará el Repositorio Institucional se encuentran almacenados en distintos soportes de origen y son de distintos tipos, por lo que a partir de este punto, a cualquier elemento de contenido se le denominará RECURSO.

Características con que deben contar los recursos

Para que los recursos puedan ser integrados al RI será necesario que cumplan con las características que se describen a continuación.

Tipología de los recursos a recopilar

En esta primera fase, únicamente se aceptarán determinados tipos de documentos:

Recursos textuales

Un recurso de información puede contener distintos formatos de contenido como puede ser texto, imagen, video, audio, etc.
En esta primera fase de operación del RI, los esfuerzos de recopilación de recursos estarán enfocados principalmente a los recursos que cuentan con contenido en formato de texto, a los cuales se les denomina Recursos Textuales.

¿Qué es un recurso textual para el RI?
Son documentos generados en las instituciones como resultado de la actividad científica que se encuentran descritos en el RI y almacenados en formato de texto, como pueden ser los artículos de revistas, capítulos de libros, tesis de doctorado, etc.
El RI recopilará principalmente determinados tipos de recursos textuales, mismos que deberán encontrarse clasificados de acuerdo con la siguiente tipología.

Tipos de recursos textuales que el RI recopilará
Artículos de revistas

Término a utilizar: Artículo
Descripción: Se refiere a los artículos que han sido publicados en revistas científicas nacionales o internacionales

Tesis

Término a utilizar: Tesis de licenciatura / Tesis de maestría / Tesis de doctorado
Descripción: Se refiere a las tesis que se generan en la institución.

Libros y capítulos

Términos a utilizar: Libro / Capítulo de libro
Descripción: Se refiere a los libros o capítulos que la institución puede publicar en el RI, aquellos generados por sus académicos, o de difusión cultural.

Conferencias

Término a utilizar: Publicación de conferencia
Descripción: Pueden ser comunicaciones, ponencias, pósters, actas de congresos, memorias de eventos, entre otros.

Reportes

Término a utilizar: Reporte
Descripción: Pueden ser informes de investigación, informes estadísticos, documentación técnica

Criterios de calidad para la integración de recursos al RI
Para que los recursos que serán incluidos en el RI, deberán cumplir con los siguientes criterios de calidad:

En caso de tratarse de recursos de los tipos Artículo o Revista, estos deberán encontrarse en al menos un índice científico nacional o internacional o pertenecer a alguna publicación editada por la Universidad de Guadalajara, que tenga comité editorial.

Los recursos tipo Libro deberán contar con un ISBN.

Los recursos tipo Revista deberán contar con un ISSN.

Los recursos tipo Conferencia deberán ser de un documento probatorio del congreso en que fué presentado.

Los recursos podrán ser entregados en un formato técnico accesible y procesable:

5.1. Documento original en formato estándar, ya sea en formato HTML, Texto plano, Microsoft Word.

5.2. Se permite que los documentos vayan acompañados de una versión en formato PDF.

Los recursos no deberán estar protegidos con contraseñas y serán accesibles para la lectura e indización automatizada de sus textos completos.

El contenido completo del recurso deberá ser entregado, por lo que no se aceptarán recursos que incluyan elementos de contenido alojados en sistemas externos, excepto cuando sean repositorios universitarios de la Red UdeG.

Respecto a la descripción de los recursos
Para que los recursos puedan ser integrados al RI, la estructura en que se encuentren almacenados y sean representados deberá cumplir con los parámetros de estructura de metadatos que se describen a continuación y que están basados en el estándar ANSI/NISO z39.85-2012 (Dublin Core) y deben cumplir las especificaciones descritas en los Lineamientos Técnicos para el Repositorio Nacional y los Repositorios Institucionales, publicados en el año 2014 por el Consejo Nacional de Ciencia y Tecnología con fundamento en los dispuesto por el Artículo 64 de la Ley de Ciencia y Tecnología y en los Lineamientos Generales para el Repositorio Nacional y los Repositorios Institucionales.

Recomendaciones iniciales

Aunque ciertos lenguajes permiten el uso indistinto de letras mayúsculas y minúsculas en la definición de etiquetas, lo más recomendable es apegarse a la especificación respetando el uso de mayúsculas y minúsculas en los nombres de los elementos, esto permitirá mayor interoperabilidad en casos en que se intercambie información con sistemas o lenguajes como XML, en el que sí se diferencian mayúsculas de minúsculas.
Existen elementos marcados como forzosos y elementos marcados como opcionales, ambos pueden ser repetidos según las necesidades del repositorios.

Elementos de DC con que deberán contar los recursos

Los nodos de las dependencias cuentan con la posibilidad de incorporar elementos complementarios de DC que sirvan como cualificadores de acuerdo con las especificaciones de Dublin Core Cualificado, siempre que respeten la estructura básica de elementos y metadatos que se especifica en el Apéndice 1. Metadatos para literatura 3.0 de los Lineamientos Técnicos para el Repositorio Nacional y los Repositorios Institucionales publicados por el CONACYT.
Para revisar la lista específica de metadatos, por favor consulte la URL:

http://www.siicyt.gob.mx/index.php/normatividad/2-conacyt/4-conacyt/1499-lineamientos-tecnicos-para-el-repostitorio-nacional-y-los-reporsitorios-institucionales/file

Apéndice A, página 49.

Respecto al uso de vocabularios controlados
En esta fase aún no se define el uso de vocabularios controlados, sin embargo es necesario que los Nodos Locales tomen en cuenta que en próximas fechas se definirán las reglas de operación con respecto a este tema, de acuerdo con las necesidades globales de la Universidad y de acuerdo con los lineamientos que publique el CONACYT de acuerdo al uso de catálogos de datos.

Respecto a la interoperabilidad
La interoperabilidad es la capacidad de los sistemas, servicios y organizaciones para trabajar juntos de un modo transparente hacia objetivos comunes o diferentes. En el ámbito técnico se apoya, entre otros, en los estándares abiertos para la comunicación entre sistemas, así como para la descripción de recursos y colecciones. En estos lineamientos la interoperabilidad se considera principalmente en el contexto de la interacción que el nodo central (RI) mantendrá con los nodos de cada dependencia, además de la interacción que el RI puede mantener con sistemas externos, como podría ser un Repositorio Nacional.
Para estos efectos se utilizará como estándar de interoperabilidad el protocolo denominado OAI-PMH (Open Archives Initiative Protocolo for Metadata Harvesting).

OAI - Open Archives Initiative

La Open Archives Initiative (OAI) es una iniciativa que desarrolla y promueve normas de interoperabilidad que tienen por objeto facilitar la difusión eficaz de contenidos. Esta iniciativa cuenta con fondos y respaldo de fundaciones, universidades y organizaciones de investigación, y surgió como un esfuerzo para mejorar el acceso a los recursos digitales que las organizaciones educativas y de investigación producen y publican, principalmente en acceso abierto.

Definición de OAI-PMH

Open Archives Initiative - Protocol for Metadata Harvesting es un protocolo para la comunicación e intercambio de metadatos a través de Internet. Este protocolo define un mecanismo de recolección de registros que contienen los metadatos que describen la información alojada en los repositorios.
Su funcionamiento opera a través de transacciones sobre HTTP en las que un sistema recolector de contenidos como el nodo central (RI), pide a un repositorio de contenidos como un nodo de alguna dependencia, que proporcione los metadatos de los documentos que almacena y en caso de ser necesario, solicita el envío de los documentos completos. En respuesta, el repositorio del nodo de la dependencia devuelve un conjunto de registros en formato XML según los criterios determinados, como pudiera ser la fecha de creación de los registros, la tipología de los documentos o las áreas temáticas a las que pertenecen.
Para poder operar correctamente, el protocolo OAI-PMH requiere que los metadatos solicitados a los nodos sean devueltos en formato Dublin Core Cualificado de acuerdo con las especificaciones establecidas en estos lineamientos.

Sincronización de bases de datos

Para que las tareas que se describen a continuación se realicen de forma correcta, los nodos deberán reportar la fecha bajo el estándar ISO 8601 que señala el formato AAAA-MM-DD, el apego a este estándar evitará malas interpretaciones en la marca de fecha.
Marca de fecha: Este parámetro se muestra en el encabezado de cada registro y contiene la fecha de creación, modificación o eliminación del registro y que a su vez será tomado en cuenta por el RI para permitir la recolección selectiva siguiendo las siguientes marcas:

Modificación: La respuesta debe incluir registros que correspondan al argumento metadataPrefix y que hubieran cambiado en los límites de los argumentos "from" y "until".

Creación: La respuesta debe incluir registros que correspondan al argumento metadataPrefix y que hayan pasado a estar disponibles dentro de los límites de los argumentos "from" y "until".

Eliminación: La respuesta debe incluir registros que correspondan al argumento metadataPrefix que se hayan extraído del repositorio local dentro de los límites de los argumentos "from" y "until". El estado de eliminación del registro se indicará en el header o "encabezado" del registro y no se incluirá ningún metadato.

Reporte de registros eliminados

Si un registro deja de estar disponible para su consulta dentro del repositorio, éste se debe considerar como eliminado. Cualquier repositorio deberá reportar en su plataforma local el nivel de eliminación de un registro en el elemento deletedRecord de la respuesta de Identify, por lo que es importante que se declare alguno de los siguientes 2 niveles que soportan los registros eliminados en el elemento DeletedRecord de la respuesta de Identify:

Uso del nivel transitorio: El sistema no garantiza el mantenimiento permanente de su lista de eliminaciones. Vigencia: 60 días.

Uso del nivel persistente: El sistema conserva sin límite de tiempo la información sobre las eliminaciones de registros. El sistema debe comprometerse a realizar un seguimiento permanente en el historial de sus eliminaciones. Vigencia: Sin límite de tiempo.

Uso del testigo de reanudación

Un testigo de reanudación es un valor que envía el el sistema que entrega la información hacia el sistema que recibe la información cuando éste último se encuentra haciendo la recolecta de registros y metadatos. Su objetivo principal es permitir al sistema que recibe la información recuperarse de posibles errores de red o de otro tipo a fin de que no sea necesario reanudar la secuencia de solicitudes de recolección desde un inicio.

Vigencia del testigo de reanudación

El tiempo medio de vida de un testigo de reanudación es el tiempo durante el cual el repositorio guarda en memoria el testigo junto con la información de reanudación.
Los repositorios deberán conservar activo el testigo de reanudación durante un mínimo de 48 horas a fin de dar tiempo suficiente para reanudar la recolecta de datos.

Uso del set de metadatos

Un set es una agrupación de ítems dentro de un repositorio que permite una partición lógica de ítems para una recolección selectiva de metadatos. Los Sets definen grupos de metadatos en un repositorio, y los metadatos se pueden agrupar por cualquier característica que proporcione una partición razonable para una recolección selectiva.
Los repositorios locales deberán agrupar en un set los recursos textuales que podrán ser recolectados por el RI mediante el protocolo OAI-PMH. No se deberán incluir dentro del set aquellos elementos que no cuenten con textos completos disponible.

Respecto al uso de identificadores persistentes
A continuación se presenta una descripción y la metodología a utilizar para que se pueda asignar un identificador persistente a cada recurso almacenado en el RI.

¿Qué son las direcciones persistentes?

Los sistemas de direcciones persistentes son herramientas basadas en URN (Nombres de Recursos Uniformes) cuyo objetivo es solucionar los problemas que surgen al cambiar la ubicación o nombre de algún archivo disponible a través de Internet. Su función primordial es direccionar a los documentos, no importando si estos cambiaron de ubicación dentro de un servidor lo que garantiza que los documentos digitales siempre se encontrarán disponibles para su consulta y/o descarga.
A diferencia de una URL, los sistemas de direcciones persistentes permiten manipular recursos digitales especificando su nombre en lugar de la dirección electrónica en dónde el recurso se encuentra alojado.

¿Por qué utilizar identificadores únicos y persistentes?

Uno de los problemas recurrentes de los usuarios al consultar información digital es encontrarse con enlaces rotos que les impiden la consulta o descarga de algún documento digital. Estos enlaces se presentan por que el documento digital se ha movido de servidor o bien por que el servidor en donde está depositado no se encuentra disponible. Al utilizar un sistema de direcciones persistentes dentro de los repositorios locales, un recursos digital podrá ser movido en un futuro sin necesidad de modificar la dirección persistente que lo referencia.
Por lo anterior es importante que el RI mantenga direcciones persistentes para cada uno de los documentos que aloja a fin de asegurar a los usuarios de la información el acceso a los documentos digitales, así como su correcta citación.

Metodología de asignación de identificadores persistentes

Con el objetivo de garantizar la disponibilidad total de los documentos alojados en el RI, se hará uso de sistemas formales de identificación persistente de los recursos, ya sea a través del servicio DOI o del servicio HANDLE, según lo defina el Nodo Central y de acuerdo con estándares nacionales e internacionales.
Es muy importante tener en cuenta que el RI hará uso de identificadores persistentes en todos sus registros.

Asignación del identificador persistente generado por el RI

Se establece como lineamiento que todos los recursos contenidos en los Sets de OAI que serán entregados para cosecha, deberán utilizar en sus metadatos el identificador persistente asignado por el RI, es decir que los sistemas instalados en nodos de las dependencias no deberán asignar direcciones persistentes, ya que estas no serán utilizadas. Los identificadores persistentes que se entregarán al Repositorio Nacional, son los definidos y alojados en el Repositorio Institucional.

Respecto a la propiedad intelectual
Los Nodos Locales serán responsables de la información que entreguen para cosecha por parte del Nodo Central, por lo que será la dependencia encargada de administrar cada nodo local la única encargada de tramitar cartas de autorización o cualquier otro soporte legal que permita la publicación no exclusiva de los contenidos en acceso abierto, así como su futura migración a otros soportes y otros formatos, esto con efectos de preservación digital.

Respecto a la difusión y acceso a los contenidos
A continuación se definen las políticas de difusión y acceso que regirán al RI

Nombre formal del RI

RIUdeG

URL formal del RI

http://riudg.udg.mx/

Respecto a la solicitud de sincronización
Los Nodos Locales que deseen ser cosechados por el Nodo Central y que ya cumplan con las especificaciones definidas en estos lineamientos, deberán enviar una solicitud de sincronización a la administración del Repositorio Institucional, indicando:

URL formal del Nodo Local.
URL de cosecha (OAI).
Lista de sets de datos a cosechar.
Nombre del contacto técnico responsable del Nodo Local.
Autorización para la cosecha y publicación en acceso abierto de los contenidos en el Nodo Central.