Grazia Biorci, Giancarlo Birello, Antonella Emina, Anna Perin, Isabella Maria Zoppi (1)
Byterfly è un repository ossia una biblioteca digitale caratterizzata dall’aggettivo open e dal sostantivo crescita. Open rimanda a open access per contenuti; open data per filosofia di conservazione, fruizione e riuso; open source per architettura e software. Per quanto riguarda la crescita, in Byterfly crescono le pagine accessibili, gli oggetti conservati e le iniziative collaterali di invito alla lettura e all’utilizzo dei materiali, così come crescono costantemente i numeri degli accessi e dei download.
La prima iniziativa di digitalizzazione portata avanti dal CNR-IRCrES, denominata DigiBESS, risale al 2012 ed è stata realizzata in collaborazione con Ires Piemonte. Il suo scopo era dotare soggetti pubblici non specializzati di strumenti e competenze che consentissero di trattare fondi di dimensioni consistenti.
Il contesto di allora mostrava, almeno nei suoi contorni di base, un consolidamento della tecnologia per la riproduzione digitale di opere a stampa e la loro pubblicazione online su piattaforme interrogabili full-text. Tuttavia, risultava evidente che, mentre digitalizzare grandi fondi a scopo di preservazione era semplice, più complesso era pubblicarli e renderli ricercabili e fruibili online in modo efficace.
L’autentico salto di qualità, in questo campo, stava quindi nella dimensione dei fondi da digitalizzare oltre che nell’ampiezza e nell’efficacia degli strumenti di ricerca che si volevano offrire all’utenza. Le iniziative di pubblicazione di grandi fondi erano ancora relativamente rare, non solo in Italia, ma anche nel resto dell’Europa. Un importante esempio in merito è il progetto Europeana, inaugurato nel 2008[1] e partito con un solido appoggio politico, un budget significativo, partner qualificati e soluzioni tecniche avanzate. L’architettura progettuale di Europeana, basata sullo sviluppo di un portale federato di diversi archivi/biblioteche online, è un compromesso tra risorse importanti, ma non infinite, e un obiettivo ambizioso. Eppure, già nel 2012, proprio chi aveva maggiormente sostenuto l’iniziativa avanzava dubbi e riconosceva la difficoltà dell’impresa. Nel suo rapporto all’Assemblea Nazionale, il deputato francese Hervé Gaymard osservava:
“Cependant, le portail Europeana n’est pas aujourd’hui à la hauteur des espérances que le projet a suscitées. D’une part, la vision très large du contenu à numériser dans Europeana ne permet pas de définir un périmètre d’action très précis. Loin de se limiter au domaine du livre qui reste minoritaire, Europeana vise l’ensemble du patrimoine culturel et comporte d’ailleurs principalement des images. D’autre part, Europeana ne bénéficie pas des moyens financiers nécessaires à la réalisation d’un projet de cette ampleur. Le portail souffre d’une faible fréquentation, d’un défaut d’organisation des données et d’un manque d’investissement de la part des États, chargés de financer la numérisation” (Gaymard, 2012).
L’evoluzione delle tecnologie sembrava promettere che anche le biblioteche con budget contenuti potessero digitalizzare collezioni di grandi dimensioni in tempi rapidi.
BESS (Biblioteca elettronica di scienze sociali ed economiche del Piemonte), gruppo di cooperazione composto da 15 biblioteche e centri di documentazione di enti di ricerca, università e fondazioni, mirava a favorire una maggiore diffusione sul territorio dell’informazione socioeconomica, grazie all’impiego delle nuove tecnologie dell’informazione e della ricerca via internet, incentivando una maggiore collaborazione interbibliotecaria. Data questa premessa, si è scelto di svolgere il lavoro mettendo in rete più partner per raggiungere una massa critica di collezioni, di enti partecipanti, di risorse umane, di competenze e di utenza tale da giustificare l’investimento in un’infrastruttura completa. La scelta poggiava su riflessioni teoriche ed esperienze pregresse, come quelle riportate da Anna Galluzzi in Biblioteche e cooperazione (2004) e sulle osservazioni di Richard Sennett in Together (2012).
La rete adottata faceva perno sul doppio pivot di territorio e disciplina, cioè istituzioni collegate da prossimità geografica e specializzazione comune nell’ambito delle scienze umane. Anche per quanto riguarda la digitalizzazione, la scelta di lavorare per area geografica e per affinità disciplinare ha costituito un vantaggio evidente grazie alla logistica semplificata e alla possibilità di realizzare collezioni online dedicate a un’utenza omogenea con interessi coerenti e con una rete di soggetti che contribuivano a popolare un unico punto di accesso. L’idealtipo di rete a cui il progetto piemontese si è ispirato è quello della Bayerische Landesbibliothek Online, sviluppato dalla Biblioteca di stato della Baviera insieme a una rete di altre biblioteche e istituzioni culturali bavaresi (BESS e Kempf, 2008). Naturalmente, le dimensioni e la dotazione economica del progetto tedesco, garantite da un costante finanziamento pubblico, erano di ordine decisamente maggiore rispetto a DigiBESS, che pure ha potuto contare sul supporto finanziario della Compagnia di San Paolo di Torino per un decennio, in particolare per l’investimento iniziale, ma soprattutto per il sostentamento costante del personale dedicato, impiegato nel laboratorio di digitalizzazione.
L’architettura funzionale del programma piemontese DigiBESS prevedeva un unico centro di digitalizzazione e un unico repository costituiti da un laboratorio di digitalizzazione; hardware e software per il post processing (raddrizzamento, scontornamento e conversione dei formati delle immagini); il riconoscimento ottico dei caratteri e, infine, un repository che utilizzava programmi totalmente open source.
L’appassionante esperienza pionieristica di DigiBESS, le competenze acquisite e l’architettura disegnata hanno consentito la realizzazione di Byterfly, sua naturale evoluzione. Inaugurata dal CNR-IRCrES nel 2017, Byterfly conta attualmente più di 1.700.000 pagine corrispondenti a 14.927 volumi, quasi 12.000 immagini e video. I fornitori di contenuti (provider) sono 25 e le collezioni 99.
I documenti delle collezioni racchiudono un pezzo di storia del pensiero sociale ed economico del Piemonte. Si tratta di volumi appartenenti all’Università di Torino (biblioteca Bobbio e biblioteca di Economia e Management) e della Fondazione Einaudi; periodici del Gruppo Fiat (FGA Automotive) e della Camera di Commercio di Torino. Oltre a queste collezioni, sono presenti documenti del Museo dell’Automobile di Torino; libri d’arte della Fondazione 1563 per Arte e Cultura di Torino; libri antichi di teologia e religione, risalenti ai secoli XVI-XVIII, forniti dall’Ordine dei Minimi di San Francesco di Paola; volumi rari e antichi di scienza e tecnica (dal XVI al XIX secolo), patrimonio del CNR-IRCrES. Inoltre, vi è depositato tutto l’archivio di materiali, libri e immagini del festival musicale internazionale MITO SettembreMusica, organizzato ogni anno a Torino e Milano. Sono altresì presenti collezioni della Fondazione Olivetti, della Fondazione Agnelli, della Fondazione Gramsci, nonché una collezione di bilanci di impresa. I documenti sono in italiano, latino, inglese, francese, spagnolo e tedesco.
Per meglio orientare l’utente, i materiali sono stati raggruppati nella homepage in cinque macro aree:
● 16th – 19th Century Books / Libri antichi (economia, scienza e cristianesimo)
● Economics and Firms reviews / Riviste di economia e impresa
● Modern books on Economics and Social Sciences / Libri moderni di economia e scienze sociali
● Entertainment Newspapers and Media / Periodici e media (sport, musica e svago)
● Journals of social sciences / Riviste di scienze sociali
La filosofia che guida la composizione, cioè l’architettura, anche nel senso di struttura tecnica, si riassume nella necessità di preservare, di condividere e di rendere leggibili a video e riutilizzabili documenti di alto interesse nelle scienze umane, sociali ed economiche. Questa linea di pensiero si innesta sulle cinque regole che fondano la scienza biblioteconomica, elaborate da Shiyali Ramamrita Ranganathansu (1892-1972):
● I libri sono fatti per essere usati
● A ogni lettore il suo libro
● A ogni libro il suo lettore
● Risparmia il tempo del lettore
● La biblioteca è un organismo che cresce
Un repository, dunque, è una biblioteca con una collezione di oggetti digitali finalizzati (testi, immagini, file audio e video), memorizzati e combinati con metadati che ne forniscono informazioni e dettagli indispensabili per facilitare la ricerca e la diffusione degli oggetti anche su altri portali.
CNR-IRCrES, con il suo IT Office e la biblioteca, gestisce e manutiene diversi repository dal 2012. Il brand Byterfly è stato implementato come nuovo repository proprio in nome della prima legge della biblioteconomia ossia “I libri sono fatti per essere usati”. Oggi, rendere i libri disponibili a tutti i lettori significa caricarli in un sito online accessibile, raggiungibile e fruibile.
All’origine di Byterfly c’è la scelta di utilizzare il sistema di memorizzazione e gestione degli oggetti digitali Fedora Repository, acronimo di Flexible Extensible Digital Object Repository Architecture e Islandora. I software sono il risultato di un lavoro condiviso nella vasta comunità open-source[2]. In particolare, Fedora Repository è una base astratta che definisce un contesto e delle regole per l’organizzazione di oggetti digitali selezionati, pensati per sistemi di conservazione di opere digitali a lungo termine, in grado di gestire grosse quantità di dati, in modo flessibile, con l’intento di poter trattare i più svariati tipi di item.
Poiché la libertà e la semplicità del rapporto libro-lettore sono elementi cardine di Byterfly, l’interfaccia web verso gli utenti è basata sul CMS (Content Management System) Drupal, uno strumento open source, versatile, aperto e personalizzabile.
Per quanto riguarda la visualizzazione a monitor degli oggetti digitali raccolti in Byterfly, questa è studiata per essere intuitiva, per favorire la libertà della ricerca e la semplicità nel rapporto libro-lettore. Per ottenere ciò, Byterfly si avvale di Islandora[3], che, tra i vari moduli e componenti, ha realizzato due elementi particolarmente interessanti per il progetto: il viewer e il sistema di ricerca. Il viewer è un componente basato su Internet Archive Bookreader che permette la lettura online dei libri, in una visualizzazione molto realistica. Il titolo è richiamato direttamente dal repository e produce la visualizzazione delle singole pagine di un libro come se fosse aperto sulla scrivania davanti all’utente. Ad ogni pagina corrisponde una trascrizione in caratteri a stampa prodotta dal sistema di riconoscimento ottico dei caratteri (OCR, Optical Character Recognition). Quest’opzione è particolarmente apprezzata se i caratteri del testo originale sono antichi, il che, a volte, rende la lettura meno agevole. Quanto mai utile è offrire la possibilità di ingrandire le immagini per scoprirne maggiori dettagli e di navigare liberamente tra tutte le pagine del volume.
Elemento fondamentale per la fruizione delle risorse in Byterfly è la facilità di ricerca per titoli, autori, soggetti, date. La realizzazione di questa interfaccia intuitiva è il risultato di un processo di indicizzazione e metadatazione attraverso la piattaforma Solr[4] [i], personalizzata nella configurazione, per ottenere l’indicizzazione full-text dei testi dei volumi e dei metadati. Il risultato permette sia la ricerca per parole chiave nei dati descrittivi delle opere, con possibilità di filtri suggeriti dallo stesso sistema di indicizzazione (facet), sia la ricerca full-text nel contenuto dei libri, che può essere abbinata o utilizzata in alternativa. Per ottenere ciò, i moduli Islandora sono stati adattati per la resa a monitor del risultato della ricerca, cioè le parti di testo contenenti le parole o le parole chiave ricercate appaiono evidenziate e il collegamento alla specifica pagina nel libro risulta attivo.
Infine, Byterfly occupa uno spazio significativo all’interno della rete internazionale dei diversi sistemi di cataloghi online, e in particolare in metacataloghi come Europeana e WorldCat grazie all’utilizzo dei protocolli comuni di metadatazione Dublin Core (Dublin Core Metadata Initiative, in acronimo DCMI) e di harvesting che rispondono alle specifiche di entrambi i collettori. WorldCat è la più grande rete mondiale di contenuti e servizi bibliotecari, dove la maggior parte delle persone inizia la sua ricerca di informazioni. Byterfly ha un rapporto diretto con questo metacatalogo e vi condivide direttamente i propri contenuti. Per quanto riguarda Europeana, invece, il rapporto è indiretto, mediato dall’agenzia del Ministero della Cultura, CulturaItaliaOnline, che li riversa periodicamente. Inoltre, Byterfly ha lavorato per permettere la visualizzazione immediata degli oggetti sul portale di Europeana tramite l’innovativo protocollo IIIF, arricchendo quindi la fruizione per l’utente.
Byterfly integra informatica e biblioteconomia attraverso un lavoro avvincente e costruttivo, che ha permesso di approfondire tecnologie consolidate e di conoscerne di nuove, sviluppando, coerentemente con la filosofia dalla comunità open source, soluzioni aperte, di facile replica in altri contesti e riutilizzabili eventualmente da altri progetti. Per tale motivo, tutta la documentazione prodotta è disponibile in rete sul sito di sviluppo[5].
Quando è cominciata quest’avventura nel 2005, come anticipato, non era prevedibile la capacità di penetrazione del web, che a gennaio 2022 si attestava al 62,5% della popolazione mondiale[6], e neppure era immaginabile il riscontro che avrebbe ottenuto il repository, che oggi conta un numero di accessi e download costante. Per dare un’idea concreta, come si vede nel grafico 1, le visite giornaliere per il periodo 3 marzo 2021 – 3 marzo 2022 si attestano su un livello medio di 1.200 visite giornaliere.
Dal grafico 2 possiamo ricavare alcuni dati relativi al mese di febbraio 2022 che attestano più di 37.000 visite al sito, con la visualizzazione di 300.000 pagine e lo scarico di 29.000 oggetti (pdf /tiff /txt).
Un altro obiettivo che il gruppo di lavoro persegue consiste nel trovare strade per avvicinare il pubblico alla biblioteca e alle sue risorse attraverso operazioni di divulgazione e proposte di percorsi guidati di lettura, anche coinvolgendo altri soggetti. Fra le proposte sperimentate a livello locale, in stretta collaborazione con il territorio, vi sono l’installazione multimediale Macchingegno[7], collocata presso l’Ecomuseo del Freidano (Settimo Torinese), e il video Patrimonio culturale, ingegno e tecnologia: dall’energia muscolare all’energia atomica verso l’energia pulita e rinnovabile. Entrambi sono basati su una selezione di testi e immagini di libri antichi e rari di storia della tecnica, patrimonio del CNR-IRCrES. Questi sono stati digitalizzati e resi fruibili nel repository con tre precisi obiettivi: il primo è di permettere la loro lettura e fruizione – eventualmente arricchite con adds multimediali – anche al di fuori dei circuiti privilegiati dell’accademia. Il secondo è quello di contribuire a risolvere i problemi legati alla consultabilità di volumi rari o antichi e le difficoltà relative alla loro reperibilità e dispersione sul territorio. Il terzo obiettivo è quello di superare, con la fruizione online, i problemi relativi all’estrema fragilità di questi materiali bibliografici. Il valore aggiunto dell’operazione è quello di mettere a disposizione del vasto pubblico risorse di grande valore storico, utili per lo sviluppo di una coscienza critica scientifica e storica. Per il mondo del web, invece, è stata aperta la sezione Exhibitions, ossia mostre digitali, ancora in fase di consolidamento, con una prima realizzazione sperimentale su 1919. Cronache dalla Storia: immagini e documenti d’archivio. Dal quotidiano alla voglia di cambiamento. Si tratta di un percorso con documenti selezionati, commentati e valorizzati per offrire all’utente un’esperienza di fruizione guidata all’interno del repository[8].
Byterfly è un’opera aperta, in continua evoluzione, secondo quanto espresso dalla quinta regola d’oro della biblioteconomia: “una biblioteca è un organismo che cresce”. In quest’ottica è attiva una collaborazione con il “Metropolitan New York Library Council” per lo studio, la realizzazione e lo sviluppo di repository basati su “Archipelago”, architettura moderna per la conservazione e presentazione di oggetti digitali che sicuramente sarà il trampolino per il successivo balzo evolutivo di Byterfly.
Riferimenti bibliografici
Bertolla, G., Birello, G., & Perin A. (2012), DigiBESS: una biblioteca digitale open source: Architetture aperte per l’archiviazione e la conservazione a lungo termine di opere digitali. “Biblioteche Oggi”, 30(6).
Commissione Digitalizzazione BESS, & Kempf, K. (2008). Il Münchener Digitalisierungszentrum e lo stato dell’arte degli scanner automatici. “Biblioteche Oggi”, 26 (8), pp. 39-45.
Galluzzi, A. (2004), Biblioteche e cooperazione. Modelli, strumenti, esperienze in Italia, Milano: Editrice Bibliografica, 2004.
Gaymard, H. ( 2012), Rapport fait au nom de la Commission des Affaires culturelles et de l’Éducation sur la proposition de loi, adoptée par le Sénat, relative à l’exploitation numérique des livres indisponibles du XXe siècle, http://www.assemblee-nationale.fr/13/pdf/rapports/r4189.pdf
Sennett, R. (2012), Together. The Rituals, Pleasures and Politics of Cooperation. London: Allen Lane / Penguin Books.
———————–
- Gli autori sono parte dello staff del CNR-IRCrES che collabora a Byterfly. L’ideazione complessiva e l’architettura dell’infrastruttura tecnica sono il risultato dell’attività decennale di Anna Perin e del team ICT che fa riferimento a Giancarlo Birello. Grazia Biorci, Antonella Emina e Isabella Maria Zoppi sono state integrate al gruppo nel 2015, per studiare e sperimentare attività divulgative, oltre che dare supporto all’ampliamento del repository. Per approfondire l’evoluzione dell’idea e della realizzazione della biblioteca digitale si vedano in particolare le pubblicazioni citate in https://www.ircres.cnr.it/index.php/it/staffircres/17-cv
NOTE BIOGRAFICHE
Giancarlo Birello (giancarlo.birello@ircres.cnr.it) è System e Network Manager presso l’ufficio IT di CNR-IRCrES, referente regionale per l’infrastruttura di rete CNR Piemonte e Access Point Manager per il GARR. Ha iniziato ad usare programmi open source per la conservazione e presentazione di oggetti digitali dieci anni fa, ha implementato la biblioteca digitale Byterfly e altri repository. È coinvolto in alcune comunità internazionali per lo sviluppo dei software per repository di ultima generazione.
Grazia Biorci è ricercatrice del CNR-IRCrES. Le sue ricerche riguardano la linguistica e la lessicologia italiana. I suoi interessi riguardano principalmente lo studio della lingua tecnica e scientifica dell’italiano antico e lo studio delle formazioni fisse e del linguaggio figurato nel lessico italiano contemporaneo. Dal 2010 il suo lavoro si è rivolto allo studio dell’insegnamento dell’italiano contemporaneo agli stranieri e allo studio linguistico della lingua italiana nella letteratura della migrazione pubblicata in Italia. Attualmente sta conducendo progetti di DH per la valorizzazione e il riuso dei Beni Culturali bibliografici specializzati. Fra le sue pubblicazioni in quest’ultimo ambito, il manuale Macchingegno: lavoro, scienza, energia tra il XVI e il XIX secolo (Moncalieri TO, 2020); (con A. Emina, M. Puliga, L. Sella e G. Vivaldo) Moods of Socio-economic Crisis: Tweet-tales (Berlino, 2017); (con C. Basili e A. Emina) Digital Humanities and society: An impact requiring intermediation (Bologna, 2017); (con M.R. Cotza) Da invisibili a fruibili. Stato attuale della biblioteca ISEM (Roma, 2012). Ha inoltre curato mostre ed esposizioni, realizzato prodotti multimediali, fra cui il video Patrimonio culturale, ingegno e tecnologia: dall’energia muscolare all’energia atomica verso l’energia pulita e rinnovabile (2019).
Antonella Emina è primo ricercatore del CNR-IRCrES. Partendo da una formazione legata all’analisi del testo, alla critica letteraria e alle filologie straniere, i suoi interessi sono rivolti all’espressione narrativa come fondamento dell’identità culturale; la narrazione di paesaggi naturali o culturali; l’approccio digitale al patrimonio immateriale di cui ha approfondito questioni metodologiche legate alla gestione, conservazione, analisi e restituzione alla fruizione sia degli studiosi sia di un vasto pubblico. Autrice di monografie e numerosi saggi, tra cui Suzanne Césaire: prélude à l’épistémologie d’une complexité (Roma, 2021); (con G. Biorci, M. Puliga, L. Sella e G. Vivaldo) Moods of Socio-economic Crisis: Tweet-tales (Berlino, 2017) e (con C. Basili e G. Biorci) Digital Humanities and society: An impact requiring indermediation (Bologna, 2017).
Anna Perin (anna.perin@ircres.cnr.it) è responsabile della Biblioteca CNR-IRCrES dove svolge tutte le attività di back office e front office per i propri utenti, servizi di reference e di orientamento per l’utilizzo delle risorse della biblioteca e document delivery. Si occupa della realizzazione e gestione dei siti web di Istituto. Ha sviluppato competenze sui repository di ultima generazione occupandosi in particolare di metadati, policy, usabilità e fruibilità per l’utente.
Isabella Maria Zoppi
Isabella Maria Zoppi, PhD in Anglophone Literatures and Cultures, è primo ricercatore presso CNR IRCrES. I suoi interessi principali sono l’espressione narrativa e artistica come fondamento dell’identità culturale; la narrazione di paesaggi naturali o culturali come espressi da codici orali, artistici e narrativi; l’approccio digitale al patrimonio immateriale e la gestione degli archivi di memoria riguardanti storia, cultura e narrazione. Tra le sue pubblicazioni più recenti, il saggio La terza dimensione dei paesaggi di Francesco Biamonti (Quaderni Ircres, 2018) e il contributo Di palloni e di note. Il calcio nella popular music italiana (Il Mulino, 2020), Diavolo rosso e altre storie: gli eroi delle due ruote cantate (Trame, 2020).
[1] https://www.europeana.eu/it
[3] Framework open source sviluppato dalla biblioteca Robertson della UPEI (University of Prince Edward Island, Canada), che costituisce un sistema completo e perfettamente integrato di congiunzione e coordinamento tra il repository Fedora Commons e il CMS Drupal, rendendo quest’ultimo l’interfaccia tramite la quale amministrare e presentare i contenuti del repository.
[4] Sviluppata dell’Apache Software Foundation.
[6] Dati del report Digital 2022 https://wearesocial.com/it/blog/2022/01/digital-2022-i-dati-globali/
[7] https://www.youtube.com/watch?v=xeAFMt3mVyA&t=1s
[8] Fra i risultati, va citata anche la precedente sperimentazione legata al progetto Fame e abbondanza nella narrazione popolare in Piemonte. La realizzazione del sito ha utilizzato le potenzialità di conservazione, accessibilità, ricerca e duttilità proprie del repository, per raccogliere e valorizzare documenti di diversa natura. Il materiale raccolto comprende diverse forme della narrazione breve (fiabe, poesie, canzoni, racconti, memorie e testimonianze in video e in testo) tra fine Ottocento e oggi, insieme a materiali che possono fornire informazioni aggiuntive all’utente e orientarlo all’interno di percorsi di lettura.