| ROBERTO BUSA S. J. pioniere dell'informatica linguistica, docente all'Università Cattolica di Milano, curatore dell'Index Thomisticus
LE TRE INFORMATICHE
Linformatica oggi è come un torrente di montagna in piena. Per capirci qualcosa, permettetemi di usare la tattica che usavamo da ragazzi appunto in montagna per guadare i torrenti, saltando da un sasso allaltro, con i pantaloni alla zumpa fossi, come direbbero a Napoli. Incomincio così: immaginate il giorno in cui esistesse un programma di computer che permettesse di archiviare automaticamente, mese per mese, i documenti di un ufficio, assegnando a ciascun documento le appropriate parole chiave. Certamente, quel giorno segnerebbe un altro scoppio dellindustria dellinformazione. Quel giorno era stato già annunciato nel 1952 in un articolo di Peter Luhn, di origine tedesca, (lavorava nel laboratorio IBM nello Stato di New York), intitolato Automatic Indexing-Automatic Abstracting, che vuol dire indicizzare, ossia, assegnare le parole chiave a un documento, e farne il riassunto, labstract. Profetizzato allora, questo programma non cè ancora. Perché? Trattandosi di nostre operazioni mentali, noi, anche se sappiamo riassumere e individuare parole chiave, non sappiamo ancora quali sono i passaggi elementari della nostra logica nel compiere queste funzioni. Per rendere un testo operabile al computer, bisogna prima di tutto che sia microanalizzato nei suoi passi elementari, millimetro per millimetro. Quando avessimo formulato e definito quali sono i passi elementari che fa la nostra mente, nel suo complesso, per riassumere, formalizzarli numericamente, bitizzarli in un computer, sarebbe un gioco. Ma la difficoltà sta proprio nel fatto che noi non conosciamo abbastanza le nostre operazioni mentali. Noi conosciamo le parole dai denti in fuori, ma dai denti in dentro siamo ancora un mistero per noi stessi. Per cui, lindustria dellinformatica ha bisogno se parliamo di linguistica applicata di più umanesimo. Se io chiamo umanesimo lo studio, la riflessione dellespressione umana nei suoi vari aspetti, questo resta vero. Quel computer che agli inizi della cibernetica, tra gli anni 50 e 60, veniva presentato come la minaccia per lintelligenza umana, oggi sfida lintelligenza umana e dice: Tu non conosci abbastanza te stessa e se io computer non riesco a servirti di più è perché tu non sai programmarmi, non sai alimentare di sufficienti dati i miei programmi. Nel mio lavoro ho elaborato 11 milioni di parole latine, computerizzate, classificate e sistematizzate, e altrettante parole di altre 22 lingue, usando anche altri alfabeti, come il greco classico, larabo, lebraico, il gaelico, il gotico, il fonetico, larmeno, il georgiano. Lho fatto principalmente per collaudare il metodo dellanalisi linguistica computerizzata. Mi ha sorpreso il fatto che gli stessi programmi e la stessa logica operativa con cui ho lavorato nel latino, hanno funzionato anche nelle altre 22 lingue, cambiando soltanto il numero di byte nei file e le tabelle di corrispondenza delle categorie linguistiche riscontrate. Cerano lingue indogermaniche e non, come il georgiano, il gaelico, il finnico, ma anche lingue semitiche, come larabo, lebraico, laramaico e il nabateo, che usano altri alfabeti, scrivono da destra a sinistra e con una morfologia sui generis: per esempio, in alcune la flessione è data dalla distribuzione delle vocali tra le consonanti che formano il tema della parola. Questo primo punto fa pensare che nel cuore e nella mente di ogni uomo cè la luce di Dio che lo illumina ed è una logica fatta di certezze prima ancora che di parole. Non ve lo spiego.
Le informatiche testuali, quelle che si occupano di testi scritti o pronunciati, sono tre distinte e diversissime tra di loro. La prima è quella delle banche dati e dellInternet, quella che io chiamo informatica testuale documentaria. La parola documentaria non è più nel mercato delle parole vive, però lo era cinquantanni fa. Cerano società internazionali per la documentazione scientifica, una in Germania, unaltra in America, poi evolute tutte in scienze dellinformazione. Linformatica documentaria che comprende lInternet è un servizio, uninfrastruttura sociale, che permette il recupero di informazioni anche a distanza e in tempo reale, servizio di natura informativa.
La seconda informatica è quella editoriale, finalizzata alla diffusione del sapere sotto forma di libro, che si è evoluta nei cd rom multimediali e nei loro figli e nipoti. La terza informatica è quella che io chiamo la cenerentola, è trattata male, siamo in pochi a farla e trova molto difficilmente finanziamenti e sponsor. Chiamo le prime due le principesse voraci, perché si sono ingrandite, ingrossate e ingrassate, sono quelle che portano a casa i soldi presto e anche illudono tanti, almeno in sogno. Che differenza cè tra queste e lermeneutica, la mia cenerentola? Questa non ha lo scopo di fornire informazioni o libri alle persone, ma di andare dai denti in dentro, per studiare cosa cè in quel dentro da cui nasce il nostro parlare. Davide Rondoni ha citato un autore che dice che il senso fa le parole. Le parole nascono dal pensiero, un pensiero di natura sociale, collettiva, ma non mi dilungo su questo punto. Si tratta di scoprire il nostro linguaggio. Per porre una questione semplice, se ci chiediamo quanti verbi usiamo in italiano, non sappiamo rispondere, non sappiamo quante parole abbiamo dentro. Seconda questione: dividiamo i verbi italiani in tre gruppi, quelli che sono sempre e solo transitivi, quelli che sono sempre e solo intransitivi e quelli che sono talvolta transitivi e altre volte intransitivi. A proposito di questi ultimi, ci chiediamo quindi qual è la situazione contestuale, cosa cè nel contesto della frase in cui questo verbo è transitivo e mai intransitivo e viceversa? Sappiamo rispondere a queste domande? Ebbene, per programmare un computer nel trattamento del linguaggio, cè bisogno di queste informazioni.
Cè unaltra differenza fra queste tre principesse, la cenerentola e le due ghiottone: in queste due, sul supporto magnetico, trovate soltanto parole e interpunzione, qualche volta queste parole sono anche numeri. In quella ermeneutica, interpretativa, a ogni parola bisogna aggiungere tanti codici quante sono le categorie linguistiche che vengono riconosciute a questa parola. Soffermiamoci un attimo. Nel computer ci sono soltanto segni, entità fisiche che possono essere frequenze elettriche, frequenze di onde hertziane, magnetizzazioni, oppure quei graffi fisici, quegli incavi fisici, che ci sono nei cd rom; tutte entità fisiche, cui siamo noi uomini che attribuiamo valore di segni. Noi oggi parliamo, oltre che con la mano, con la bocca e con la penna, anche con i bit, così quando parliamo al telefono, chi è dallaltra parte del filo sente le nostre parole veicolate da frequenze elettriche che corrono lungo il filo. Però devono esserci nel computer altrettanti segni che dicono qual è il significato di questo segno. Per esempio, per la lettera v, nel computer cè un byte di 0 e di 1, 8 in tutto, i quali mi dicono che questa è una v, me lo dicono in Ascii. Per cui, se scrivo la parola vanno e un italiano la legge sul video del computer, sa che è una voce del verbo andare, però nel computer non cè ancora nessun codice che dica che questa è una voce del verbo andare. Se un italiano trova la parola dove, sa che è un avverbio di luogo, se la trova un inglese invece pensa subito alla colomba. Se un inglese trova la parola gift, capisce regalo, un tedesco invece capisce veleno. Queste differenziazioni nelle prime due informatiche non ci sono. Nel mio Index Thomisticus, per ciascuna degli 11 milioni di parole latine, avevo un record il record è ununità di informazioni di 152 byte: 22 riservati alla parola, gli altri a tutte le informazioni aggiuntive su questa parola, per esempio, per la parola vado, dicevano è una voce del verbo andare, è la terza persona singolare dellindicativo attivo presente, e parecchie altre cose, come questa è una citazione alla lettera, oppure questo è un titolo di opera. Poi cerano avvertenze per le parole omografe, le parole equivoche, che in italiano sono un numero insospettato: per esempio, faccia può essere egli faccia, oppure la faccia nel senso del volto.
Nel vocabolario di ogni lingua e di ogni persona sono emersi due emisferi. Su 11 milioni di parole latine, ho trovato che, a livello di forma (non di lemma) cerano 150 mila parole diverse: 80 di queste parole diverse facevano il 40% di questi 11 milioni di parole; 800 su 150 mila facevano il 60%. Questo vuol dire che ci sono poche voci ripetute moltissimo e tantissime voci ripetute poco. Questi sono quelli che chiamo i due emisferi. Nelle scuole accademiche, queste prime poche voci tanto ripetute venivano chiamate in italiano voci grammaticali preposizioni, congiunzioni, alcuni avverbi irriducibili, verbi servili, verbi ausiliari, e così via. In Francia usano a volte espressioni orribili, chiamano alcune voci grammaticali mots vides, parole vuote, le altre parole mot plein, parole piene e ci sono altri francesi più saggi che dicono mots utiles, parole strumento, e parole piene. La differenza sta nel fatto che le parole piene sono quelle che precisano e specificano il messaggio che si vuole comunicare, e diminuiscono o crescono a seconda dei temi, mentre le prime, le parole grammaticali, sono presenti in qualsiasi argomento. Quando un giornalista fa il rapporto su una partita di calcio o quando Santa Teresa dAvila parla di mistica; che sia un trattato di chimica, di storia o di geografia, gli articoli, le preposizioni, le congiunzioni e i pronomi ci sono sempre. Questi sono i due emisferi e bisogna tenerne conto.
Nel mio libro Dal computer agli angeli, ho fatto il censimento del rapporto tra significante e significato che esiste nelle 150 mila parole dellIndex Thomisticus. | | |