| Gestión Documental |
 |
| Publicado el 05 de Febrero de 2008 |
| |
Sustentabilidad de los formatos digitales
Omar Villota Hurtado
Magíster en Comunicación Digital
Especialista en Redes de Información
Autor de libros sobre cultura mediática y neo-medios
 |
 |
El factor esencial de Sustentabilidad se relaciona con la capacidad de representar el contenido documental como característica significativa. Este factor refleja calidad y funcionalidad para el usuario, pero cambia según el género o la forma de expresar el contenido. |
Algunas consideraciones adicionales importantes, por ejemplo: contenidos auténticos en un artículo digital son cualidades de los sistemas usados para crear ese contenido digital y no del formato en sí mismo.
Ejemplos de los componentes de calidad y de funcionalidad para los diversos tipos de archivos:
Sonido. Fidelidad (ayuda la alta resolución acústica). Canales múltiples (incluye capturar notas desde Musical Instrument Digital Interface -MIDI-). Muestras y remiendos descargados o definidos por el usuario.
Texto. Integridad en la estructura del documento y en la navegación. Integridad en la disposición, la fuente y otras relacionadas con las características del diseño. Rendimiento desde fórmulas matemáticas, diagramas, etc.
Imágenes Estáticas. Claridad (ayuda la alta resolución). Mantenimiento del color (ayuda la administración del color). Efectos gráficos y tipografía.
Imágenes en movimiento. Claridad (ayuda la alta resolución de la imagen). Fidelidad (ayuda la alta resolución del audio). Canales múltiples de sonido.
La migración a un nuevo formato y la emulación del software actual en las computadoras futuras, o un híbrido, son dos posibles estrategias significativas para la preservación documental a futuro.
Los siguientes siete Factores de Sustentabilidad se aplican a cualquiera de los anteriores formatos digitales que contengan información. Estos factores probablemente influyen en la Accesibilidad (fácil comprensión para que el documento se vea en línea o se pueda bajar o imprimir), en el Costo de preservación del contenido de información hacia el futuro y en la Seguridad de la información, debido a los cambios en el ambiente tecnológico en que usuario e institución archivan sus funciones.
1. Acceso: se refiere al grado en el cual la especificación completa del sistema y de la herramienta técnica para validar la integridad (prevenir modificaciones en el contenido por aumento o eliminación de la escritura) existen y son accesibles a ese contenido digital creado y visualizado. La preservación del contenido en un formato digital dado, a largo plazo, no es factible sin una comprensión de cómo la información se representa (codificada) en bits y bytes en el archivo digital.
Listamos dos niveles de acceso para los formatos digitales:
* Los estándares no-propietarios, generalmente de fuente abierta, se documentan más completamente y es probable que tengan más apoyo de las herramientas de validación que los formatos propietarios. Sin embargo, el factor de Sustentabilidad más significativo no es la aprobación de un estándar reconocido, sino la existencia preferiblemente de la autenticidad (procedimiento que acredita la identidad y la verdad de la información, su conservación temporal y su almacenamiento definitivo), conforme a la evaluación externa de expertos.
* La existencia de herramientas técnicas de varias fuentes, abierta y cerrada, tiene valor en nuestros derechos civiles y son evidencia de que las especificaciones del archivo digital son las adecuadas. La existencia y la explotación de patentes y licencias no son necesariamente contrarias para el completo acceso mientras ellas no prohiban expresamente la adopción de un formato. En el futuro, el depósito de la documentación en archivos seguros proporcionaría un cierto grado de acceso para apoyar la preservación de la información en los formatos propietarios para los cuales la documentación no está públicamente disponible.
2. Adopción: se refiere al grado en el cual el formato digital es utilizado por el creador, los diseminadores, o los usuarios primarios de los recursos de la información. El uso como formato principal incluye que la entrega termine en los usuarios y como medio, que el intercambio sea entre los sistemas.
Si un formato se adopta extensamente, es menos probable que llegue a ser rápidamente obsoleto, y las herramientas para la migración y la emulación, probablemente, emerjan de la industria sin la inversión específica de instituciones de protección de archivos.
La amplia evidencia de la adopción de un formato digital incluye las herramientas de los computadores personales. Ayudan los browsers de la Web o los software de creación, incluyendo los previstos para el uso profesional, y la existencia de muchos otros productos de creación, edición, o representación de objetos en formatos digitales. En algunos casos, la existencia y la explotación de patentes pueden prohibir su adopción, particularmente si los términos de la licencia incluyen derechos reservados de uso. Un formato que ha sido reseñado por otras instituciones de archivo y aceptado como preferido o como soporte de formato de archivo proporciona la evidencia de la adopción.
3. Transparencia: se refiere al grado en la cual la representación digital está abierta al análisis directo con herramientas básicas, incluyendo legibilidad humana usada por el redactor del texto.
El factor de transparencia se relaciona con los formatos usados para el almacenamiento del contenido desde archivos digitales.
Los formatos digitales en los cuales la información se representa simple y directamente serán más fáciles de migrar a los nuevos formatos y más susceptibles a una arqueología digital. Utilizar software para los nuevos ambientes o software técnicos para la conversión, con base en el concepto de la "computadora virtual universal" propuesto por Raymond Lorie[1], será un proceso más simple de desarrollo.
La transparencia se realza si el contenido textual (incluidos en los archivos los metadatas para el contenido no textual) se codifica en los estándares de carácteres codificados (UNICODE: codificación UTF-8) y se almacena según la clasificación archivística para la posterior lectura natural. Para preservar los software, el código de fuente abierta es mucho más transparente que el código compilado.
Los ejemplos de formas directas de codificación incluyen: para las imágenes de trama o raster, una BITMAP sin comprimir. Para el sonido, modulación de código con calidad lineal. Para los datos numéricos y las representaciones estándares, la codificación depende según sean los enteros con signo, los números decimales y los números binarios con coma flotante de diversas precisiones (ejemplos de estándares: IEEE 754-1985 y 854-1987).
Para la información no textual, las representaciones estándares o básicas son más transparentes que aquellas optimizadas para un proceso, un almacenamiento o un ancho de banda más eficiente.
Muchos formatos digitales usados para diseminar el contenido emplean el cifrado o la compresión. Esta técnica impide la disponibilidad de la información (prevenir la denegación del servicio para usuarios no autorizados).
El cifrado es incompatible con la transparencia; mientras que la compresión la imposibilita. Sin embargo, por razones prácticas, pocos archivos digitales de audio, imágenes y video se podrán almacenar sin comprimir. Incluso los archivos ya creados.
Los depósitos de archivos deben aceptar los algoritmos públicos de compresión de contenido, divulgados y extensamente adoptados, sea cual sea la poca pérdida o el grado de compresión mayor aceptado por el creador, el editor o el usuario primario.
Se espera que el uso de la compresión o del cifrado, para el propósito expreso de la transmisión eficiente y segura de objetos hacia o desde un depósito, sea rutinario.
4. Documentación: los objetos digitales que son en sí mismos documentación son más fáciles de conservar en el largo plazo y menos vulnerables a la catástrofe, comparados con los objetos digitales compuestos por datos que almacenan por separado todo el metadata necesitado para mostrar los datos como información usable o para entender su contenido.
Un objeto digital que contiene el metadata descriptivo básico (la información análoga a la página legal de un libro) e incorpora metadata técnico y administrativo (el metadata, en general, es información comprensible para la web) referente a su creación, y los primeros tiempos de su ciclo vital (modificación, almacenamiento y publicación), será más fácil y confiable de administrar y monitorear en su integridad, su utilidad, su confidencialidad (prevenir accesos de lectura e impresión no autorizados) y su transferencia desde un sistema de archivo hacia un sistema heredero o sucesor.
El metadata también permitirá que los eruditos del futuro entiendan cómo lo observado se relaciona con el objeto digital según lo visto y utilizado en su ambiente técnico original.
Para los propósitos de la preservación documental, es una ventaja la capacidad que tiene un formato digital para mantener en forma transparente metadata más allá de lo necesitado para la representación de su contenido básico en el ambiente técnico actual. El valor de aquellas capacidades para encajar metadata en los formatos digitales se ha reconocido en las comunidades que crean e intercambian contenido digital. Es decir, las capacidades construidas se reflejan en los nuevos formatos y estándares (por ejemplo, TIFF/EP, JPEG2000, y la plataforma extendida de Metadata para pdf [XMP]) y también en la aparición de los estándares y de las prácticas del metadata para el intercambio de contenido digital en industrias tales como publicidad, noticias y entretenimiento. Las instituciones de archivo deben aprovechar y apoyar estos progresos.
Las demás bibliotecas mundiales, como lo hace la del Congreso de Norteamerica, se beneficiarán si los archivos de objetos digitales que reciben incluyen el metadata que identifica y describe el contenido, documenta la creación del objeto digital y proporciona detalles técnicos para ayudar posteriormente a que la representación del contenido se muestre igualmente en los ambientes técnicos futuros.
Para lograr que el proceso usado para administrar y proteger el contenido digital (en sus fases: crear, enrutar, almacenar y consultar el documento) en un sistema de depósito de archivo sea eficaz se requiere que algunos de los elementos del metadata sean extraídos del almacenamiento por separado. Algunos elementos del metadata también podrán ser extraídos para el uso en otros sistemas de catálogo bibliotecario y en otros sistemas diseñados para ayudar a los usuarios a encontrar recursos relevantes.
Muchos de los elementos del metadata requeridos para resguardar los objetos digitales del cambio tecnológico no se registran con anticipación en los catálogos o en los expedientes de las bibliotecas.
El modelo de referencia Open Archival Information System (OAIS: Sistema de Información de Archivo Abierto) reconoce la necesidad de disponer de esta información del metadata en varias categorías: representación (permitir que los datos sean subordinados y usados como información), referencia (identificar y describir el contenido), contexto (documentar el propósito de creación del contenido), fijeza (permitir controles en la integridad del contenido de los datos) y procedencia (documentar la cadena de la custodia y de cualquier cambio a partir de la creación del contenido original).
Los formatos digitales en los cuales el metadata se puede encajar en una forma transparente, sin afectar el contenido, son probablemente propósitos superiores a la preservación. Tales formatos también permitirán que el metadata significativo de la preservación sea registrado en el momento más apropiado, generalmente donde el ciclo vital lo permita. Por ejemplo, la identificación de una fotografía digital ha convertido la gama de color RGB, expuesta así por la mayoría de las cámaras fotográficas, al color CMYK usado por la mayoría de los procesos de impresión. Este registro posiblemente será apropiado dependiendo del software usado para la transformación automática.
Para alentar el uso de los formatos digitales diseñados a fin de incorporar metadata relevante, es mucho más aceptable que esta información esté disponible para las bibliotecas cuando la necesiten.
5. Dependencia externa: se refiere al grado de portabilidad para que un formato digital en particular dependa del hardware, del sistema operativo, del software usado, y así garantizar la vigencia para los ambientes técnicos futuros.
Algunas formas de contenido digital interactivo, aunque no están condicionadas a los medios físicos particulares, se diseñan para su uso con hardware específico, como un micrófono o una palanca de mando. Este factor es relevante sobre todo para las categorías del contenido digital. Sin embargo, el valor incluido aquí se extiende al contenido dinámico que probablemente llegará a ser de uso corriente desde publicaciones electrónicas. El desafío es mantener el contenido dinámico con tales componentes y más difícil aún que preservar el contenido estático, lo cual hará el proceso de migración mucho más costoso.
Los datasets científicos (datos de un libro) construidos con datos pueden ser inútiles sin el software especializado para el análisis y la visualización. El software en sí mismo puede ser muy difícil de preservarse y mantenerse uniforme con el código de fuente disponible.
6. Impacto de la patente: las patentes que se relacionan con un formato digital pueden limitar la capacidad de las instituciones de archivos para proteger el contenido en ese formato.
Aunque los costos para que las licencias protejan los formatos actuales son a menudo bajos o gratis, la existencia de patentes puede retardar el desarrollo de los códigos de fuente abierta o pueden incorporar mayores honorarios a las licencias e incrementar sus precios para el software comercial del contenido, para los decodificadores, para la transcodificación del contenido en los formatos anticuados.
Cuando los términos de la licencia incluyen los derechos de uso (ejemplo: se paga un honorario sobre los derechos cuando se codifica un archivo o cuando se hace cada vez) los costos podrían ser más altos e imprevisibles. La existencia de patentes no es un problema potencial, sino solamente en los términos en que la elige el titular para aplicarla.
Los componentes básicos de los formatos ISO que emergen tales como JPEG2000 y MPEG4 se asocian a los "fondos" de esa licencia según el número de patentes expedidas a nombre del titular. Los fondos de la licencia simplifican licenciar y reducen la probabilidad que una patente asociada a un formato sea explotada más agresivamente que las otras. Sin embargo, hay la posibilidad que las nuevas patentes sean agregadas a un fondo cuando las especificaciones del formato se extiendan, presentando el riesgo que el fondo continuará vigente por más de 20 años de vida frente a cualquier patente particular que se tenga. Minorar esos riesgos significa que las patentes requieran de una clausula que facilite el desarrollo de herramientas relevantes una vez expiren las patentes.
El impacto de las patentes a veces puede ser bastante insignificativo en sí mismo si se autoriza el tratamiento como factor independiente. Las patentes que se explotan con perspectiva a corto plazo pueden prohibir tal adopción, debido más al desarrollo y al flujo de liquidez del mercado. La adopción extensa de un formato digital puede ser un indicador que no tendrá efecto sobre la capacidad de las instituciones de archivo para proteger el acceso al contenido con la migración, la generación dinámica del servicio de copia, u otras técnicas.
7. Protección del mecanismo técnico: Para preservar el contenido digital y para proporcionar servicio a los usuarios durante las décadas señaladas anteriormente, los custodios documentales deben ser capaces de ubicar el contenido en nuevos medios, migrarlo y normalizarlo en relación con la tecnología que cambia, y diseminarlo entre los usuarios en una resolución coherente considerando el ancho de banda de la red.
Un depósito documental confiable no debe tomar la decisión, a largo plazo, de proteger el contenido por los mecanismos técnicos de cifrado, puesto en éstos evitan que los custodios lo hagan accesible a las generaciones futuras.
Ningún formato digital está unido a un portador físico en particular y conveniente para garantizar su preservación a largo plazo. Tampoco es una característica de un formato digital que obligue su uso a un dispositivo en particular o prevenga el establecimiento de procedimientos de reserva y de operaciones ante la recuperación del desastre esperadas de un depósito de documentos.
Algunos formatos digitales han incorporado capacidades para restringir su uso a fin de proteger lo intelectual. Por ejemplo, el uso puede ser limitado por un período, a una computadora en particular o a un dispositivo de hardware, o requiera de una contraseña o de una conexión de red. En la mayoría de los casos, involucrar estos mecanismos técnicos para la protección es opcional. Por lo tanto este factor de protección desde el mecanismo técnico se aplica a un formato que se utilice en los contextos de negocio para los contenidos particulares y no para proteger al formato en sí.
Incorporar información en un archivo que no afecte el uso o la calidad de la representación del trabajo no interferirá con la preservación. Por ejemplo, los datos que identifican el derecho de los titulares o la emisión particular de un trabajo. El último tipo de datos indica que esa copia de ese trabajo fue producida para una entidad individual o específica, y por tanto puede ser utilizado por ella y hacer copia a otra entidad.

REFERENCIAS
[1] El tratamiento de Lorie en este tema considera la "preservación de la información digital a largo plazo". Ver E. Fox y C. Borgman, redactores, primera conferencia común de ACM/IEEE sobre las bibliotecas digitales. Ubicado en Internet (15-05-2006) http://portal.acm.org
Subir
|