El texto completo de las publicaciones en dominio público de la Hemeroteca Digital ya puede descargarse, en formatos abiertos, libres y reutilizables.
Desde una nueva página incorporada al portal, es posible descargarse el texto de cada una de las publicaciones y utilizarlos libremente para su análisis, procesamiento o reutilización. Son más de 2000 cabeceras de prensa en dominio público, cuyos números se ofrecen ahora como ficheros descargables.
Disponer de estos los textos permite aplicar sobre ellos tecnologías de procesamiento de lenguaje natural y otras nuevas herramientas propias de las llamadas humanidades digitales, cuyo uso está cada vez más generalizado. Los textos que se ofrecen proceden del reconocimiento óptico de caracteres (OCR) que se realiza en el momento de la digitalización, por lo que pueden contener errores. Mediante su puesta a disposición en estos formatos también se facilita la detección de estos errores y la mejora de los resultados del proceso automático de OCR.
Leer "La Hemeroteca Digital, descargable y reutilizable", 24/09/2020, bne.es
No hay comentarios:
Publicar un comentario