ISSN: 2038-0925

Devenir historien-ne: post #5

Prosegue la partnership avviata con Devenir historien-ne, il blog di informazione sulla storia mantenuto da Émilien Ruiz, collaboratore di Diacronie. Questo mese proponiamo la traduzione del post «Utiliser la lexicométrie en histoire (2): les aspects concrets».

La traduzione e l’adattamento dal francese sono stati curati da Elisa Grandi e Jacopo Bassi.

.

Utilizzare la lessicometria in storia (2):
aspetti concreti
16 marzo 2012

di Sophie Cinquin

Dopo aver tracciato le linee generali della storia della lessicometria, presenterò in questo post i software che si possono utilizzare e soprattutto le tappe concrete da seguire prima di analizzare i corpus documentari1.

I comandamenti della lessicometria

1. Avere i testi a disposizione

Prima di essere analizzati dai software, i testi devono essere ricopiati. Si tratta di un lavoro particolarmente lungo: bisogna quindi assicurarsi che nessuno l’abbia già fatto prima. Se avete la fortuna di utilizzare testi già digitalizzati o che sono già stati fotografati, potreste risparmiare tempo attraverso i software di riconoscimento dei caratteri. Questa applicazione è disponibile per alcuni testi di Gallica (la modalità testo), ma anche su Google Books. I modernisti e i medievisti riscontreranno meno risultati, dal momento che i caratteri particolari utilizzati in quei periodi storici sono difficilmente riconoscibili dai software. Non bisogna quindi aspettarsi miracoli.

Dopo aver reperito i testi, questi devono essere convertiti in modalità testo, affinché il software di lessicometria possa funzionare. Comunque, ricopiare i testi non basta: la ricostituzione del corpus è indispensabile.

2. Rispettare regole severe nella composizione del corpus

L’analisi lessicometrica è di tipo statistico. Un trattamento lessicometrico darà sempre dei risultati, ma perché abbiano un senso statistico2 e siano utilizzabili per una riflessione storica, bisogna fare attenzione alla costituzione del corpus. Queste precauzioni sono evidenziate da Antoine Prost 3, che definisce tre regole essenziali, secondo le quali il corpus deve essere:

  • omogeneo: i testi devono essere circa della stessa lunghezza, riguardare lo stesso pubblico, trattare lo stesso tema. Nelle mie ricerche quindi non ho potuto comparare in uno stesso studio dei sonetti e delle epistole in dedica, dal momento che si tratta di due testi di natura differente;
  • diacronico: i testi non possono essere scritti lo stesso giorno;
  • contrastato: i testi devono contenere delle differenze, poiché sono proprio le differenze che cerchiamo di osservare.

I software

Esistono molti software di lessicometria, come sottolineato da Claire Lemercier e Claire Zalc4, ma le stesse spiegano5 che i tre software più appropriati per un’analisi lessicometrica sono Alceste6, Lexico37 e Hyperbase. Purtroppo nessuno dei tre è gratuito e Alceste è molto caro. Il costo non è, evidentemente, l’unico aspetto che li differenzia: la grandezza del corpus è anch’essa determinante. Alceste può analizzare corpus piuttosto piccoli, mentre non è lo stesso per Hyperbase. Le differenze riguardano anche le diverse opzioni disponibili. La lemmatizzazione, cioè il processo di semplificazione della forme delle parole8 non è necessaria con Alceste o Hyperbase, mentre lo è con Lexico3. Hyperbase propone un’analisi molto raffinata dei pronomi e dei tempi, Lexico3 non permette, almeno non direttamente, perché questa fase ha bisogno di una nuova lemmatizzazione. Inoltre dobbiamo tenere presente la difficoltà d’uso del software. Lexico3 è molto più semplice di Alceste9.

Questi criteri sono quindi determinanti, ma le differenze non devono spaventare, al contrario: ho utilizzato due software diversi (Alceste e Lexico3) per riscontrare se i risultati ottenuti fossero differenti, ma così non è stato. Ma lemmatizzazioni diverse possono supplire alle eventuali mancanze del software “di base” utilizzato. Per esempio Coocs, sviluppato da William Martinez10, permette di studiare le co-ricorrenze, cosa non permessa da Lexico3.

Dopo aver scelto il software, ci sono ulteriori fasi che spiegherò in dettaglio.

Il problema specifico del greco antico: usare un software lessicometrico su un corpus in greco è piuttosto complicato. L’alfabeto greco, ma soprattutto gli spiriti e gli accenti, hanno reso difficile il trattamento lessicometrico. Alcuni gruppi di ricerca stanno cercando di risolvere questo problema11, ma resta molto complicato usare la lessicometria su questi testi.

Una volta stabilito che il corpus soddisfa i diversi criteri, si può cominciare a preparare i testi per l’analisi.

Le fasi preparatorie all’analisi lessicometrica

  • La codificazione del corpus

Il computer non può comprendere le differenze tra i testi di un corpus. Bisogna quindi segnalargliele attraverso un codice. Nel caso di Lexico3:

<autore=ronsard>

La codificazione segue alcune regole: nessuno spazio tra le parole, nessuna maiuscola, nessun accento. Al di là della semplice ripartizione (o segmentazione) del corpus, la codificazione permette allo storico di individuare dei punti di accesso ai testi, delle problematiche. Avevo infatti deciso di chiedermi se le differenze che notavo nel corpus fossero dovute alle diverse personalità degli autori, o alla data in cui il testo era stato scritto. Ho quindi scelto altre categorie oltre a quella di autore, data di pubblicazione, riedizione ed eventuale titolo dell’opera (se ne possono mettere infinite).

Il momento della codifica è quindi un momento di riflessione in cui ci si interroga sull’oggetto di studio. Spesso si ritorna alla codifica per precisare o eliminare certi codici inutili. Ho per esempio eliminato il codice “metatesto” – utile a indicare se l’epistola di dedica sia seguita da un sonetto – perché non aggiungeva nulla all’analisi.

  • «Chi lemmatizza, accende il dubbio»12

La lemmatizzazione è la seconda fase della maggior parte delle analisi lessicometriche. Ecco in cosa consiste. Le parole assumono diverse forme nella frase. Possono trovarsi al plurale, coniugate, ecc. Queste diverse forme possono però essere ricondotte ad un’unica forma, quella del lemma. In questo modo: “vedo”, “vede”, “vediamo”, “visti”, “vedente”, “vidi”, “vedrà”, “vedrete”, “vedranno” sono forme diverse di “vedere”. La lemmatizzazione consiste nel trovare le diverse forme delle parole, riconducendole ad una sola forma. I verbi sono riportati, nella maggior parte dei casi, all’infinito; gli aggettivi al loro maschile singolare e i nomi al loro singolare. Inoltre, questa procedura trova le parole omografe e vi introduce una differenza affinché il computer possa distinguerle. “Est”, infatti, può essere la terza persona singolare o un punto cardinale. Bisognerà quindi codificare il punto cardinale come Est*. In certi casi, la lemmatizzazione è un’operazione molto difficile. Lavorando sulla Regina Margherita dal punto di vista politico, i titoli che le erano attribuiti risultano molto importanti. Nel momento in cui ho voluto lemmatizzarli, ho visto che la parola “principessa” poteva essere scritta come «Princesse», «PRINCESSE», «princesse». I tre sintagmi hanno lo stesso senso politico, ma la domanda che mi sono posta è: semplificando e adeguando le maiuscole alle minuscole avrei smarrito un significato politico importante. Ho finalmente scoperto che gli editori mettevano le maiuscole in modo aleatorio, in funzione del materiale che avevano, cosa che mi ha permesso di “uniformare”. Questo esempio mostra fino a che punto la lemmatizzazione possa diventare un’operazione complicata.

La lemmatizzazione è una componente più o meno importante nel lavoro del ricercatore. I contemporaneisti hanno spesso la possibilità di utilizzare strumenti automatici; modernisti e medievisti hanno meno fortuna e devono procedere essi stessi all’operazione, lavorando su testi che non seguono regole ortografiche successive alla data di scrittura del documento e che usano parole oggi in disuso e quindi sconosciute ai software.

Tale operazione è stata e rimane tuttora un motivo di diatribe piuttosto accese tra i fautori di questo principio e coloro che lo rigettano in nome delle norme della linguistica.

Lemmatizzare implica perdere una parte importante delle informazioni contenute in un testo. Io sono passata da 12.000 a 6.000 forme. I critici di questa procedura ritengono che questa rappresenti una perdita inaccettabile, perché il ricercatore interviene per scegliere quali parole meritano di essere incluse nella lista, mentre tutte le variazioni potrebbero essere rivelatrici. Perdere la varietà degli items porterebbe a rinunciare all’obiettivo di chi voleva studiare il linguaggio. Per questo i primi studiosi di lessicometria non hanno lemmatizzato i loro testi13.

Io ho scelto la lemmatizzazione per varie ragioni. La critica dei linguisti riguardo alla perdita di informazioni non si applica alla storia. Antoine Prost insiste su questa differenza ontologica tra linguista e storico. «Lo storico [...] esamina il vocabolario per arrivare a considerazioni che non riguardano il linguaggio. [...] Lo storico e il linguista non cercano le stesse cose»14. L’obiettivo dello storico «non è la conoscenza del vocabolario per se stesso, la struttura che costituisce, cioè, il lessico in senso stretto, ma le mentalità e i comportamenti che si manifestano attraverso il linguaggio»15. Questa differenza negli intenti permette allo storico di semplificare l’analisi. Il problema di fondo è: è davvero importante per uno storico sapere se chi parla usa il participio o la terza persona singolare, o sapere che verbo ha utilizzato? È una domanda retorica. Quello che ci interessa non è conoscere la forma della parola utilizzata, ma il lemma scelto. Se nell’analisi del discorso politico è un’informazione importante, è comunque possibile ottenerla attraverso una seconda lemmatizzazione, ritornando al testo non lemmatizzato.

Questa semplificazione ha dei benefici importanti, spesso non considerati. Lemmatizzare permette di evidenziare gli hapax, parole che compaiono una sola volta nel testo. Nonostante la loro analisi sia centrale, senza una lemmatizzazione, gli hapax tendono a confondersi con altre forme particolari dei verbi. Del resto, come sottolineato da Damon Mayaffre16, non lemmatizzare impedisce di introdurre graficamente le differenze tra omografie. Il computer non si preoccupa di sapere se si tratta di un verbo alla terza persona singolare o di un nome. Mayaffre ammette che non tenere conto di questi “doppioni” ha in parte falsato i risultati della sua tesi17. Lemmatizzare non è quindi un “lusso inutile”, ma un momento centrale dell’analisi lessicometrica. Ancora più importante, la lemmatizzazione permette allo storico una maggiore conoscenza del suo corpus, perché lo obbliga ad analizzare ogni parola che contiene. Prima di decidere se lemmatizzare o no una parola, lo storico usa il software per contestualizzarlo e vedere come funziona. Questa operazione, molto lunga18 apporta molto allo storico perché gli permette una diversa lettura del suo testo e una conoscenza, a livello di interpretazione, differente, quella della parola. L’esercizio intellettuale necessario per la lemmatizzazione è quindi uno strumento di avanzamento nella conoscenza del corpus. Questa lettura è necessaria. Antoine Prost invita infatti i suoi colleghi a praticarla per mettere in luce nuove piste di analisi, perché «l’analisi strutturale, al contrario, cerca di ricostituire costellazioni di vocaboli, recuperando i legami di solidarietà, di richiamo, di sostituzione, di esclusione: si scopre in questo modo una struttura che rivela il tempo reale»19.

Infine, la tesi secondo la quale la lemmatizzazione sarebbe automatica, senza tener conto del senso delle parole è un’illusione, perché questa operazione implica una contestualizzazione automatica di ogni parola che si vuol lemmatizzare.

Nonostante i problemi posti dalle diverse fasi della lemmatizzazione, il rapporto tra i rischi e i benefici insito in questa tecnica sembrano far propendere chiaramente in suo favore. Una volta terminata questa fase, i primi risultati finalmente arrivano.

Diversi tipi di risultati

I risultati di un’analisi lessicometrica possono essere molto diversi. Possono essere molto semplici:

  • AFC (Analisi Fattoriale delle Corrispondenze)20

Lo strumento più potente dell’analisi lessicometrica. Permette di visualizzare le ripartizioni delle parole in un corpus. Le parole che si trovano al centro del grafico sono usate in tutti i testi. Le parole che formano una corolla intorno ai titoli sono comuni ad alcuni testi. Le analisi fattoriali permettono quindi di creare dei raggruppamenti di parole nel corpus, di capire perché certi testi si oppongano ad altri sul piano del lessico. Permettono anche di vedere l’evoluzione del vocabolario nel tempo, se si ha avuto cura di codificare la data. Questa prima analisi mostra un certo numero di parole oggettivamente interessanti, con le quali si possono lanciare altri tipi di testi. Ecco i principali strumenti dell’analisi lessicometrica.

Figura 1. I principali strumenti dell’analisi lessicometrica

Nel momento in cui si interpreta una AFC, si vuole capire la formazione di questi gruppi e delle loro opposizioni e si cerca di giustificarle. Si cerca anche di riconoscere modelli di ripartizioni delle parole. Uno di questi modelli è il torque. Potete osservare a destra come vi siano più gruppi di parole raccolte e come le parole siano comuni a ciascun testo, permettendo il passaggio di un vocabolario specifico da un testo all’altro. Diciamo che c’è un torque se questo passaggio si verifica in modo continuo. Ecco un secondo schema di analisi che comprende, esplicitamente, il torque:

Figura 2. Rappresentazione grafica del modello torque

In una tesi si evidenzia il risultato grafico dell’AFC, che non può rappresentare più di due fattori per volta, ma, nel corso della ricerca, si analizzano tabelle relative all’analisi (si veda la Figura 1) e si osserva la ripartizione e il senso delle parole nei primi 10 fattori. Si selezionano poi i fattori che apportano più informazioni e che sono più interessanti per la problematica studiata. Se le AFC sono il primo strumento dell’analisi lessicometrica, ce ne sono altri che completano l’analisi.

Ecco i principali strumenti dell’analisi lessicometrica:

  • La contestualizzazione

Permette di verificare il senso delle parole. Spesso si ha infatti un’impressione di prossimità con il testo, che ci fa scordare che il nostro uso della lingua è diverso da quello degli autori che studiamo. Ho constatato per esempio che il sostantivo “potere” non è quasi mai utilizzato nei testi che studio. Ecco un esempio di contestualizzazione possibile, a partire dal mio corpus, utilizzando Alceste:

Figura 3. Concordanze della parola «dieu» ottenute utilizzando il programma Alceste

  • La rappresentazione della frequenza di apparizione di una parola

Grazie a quest’opzione, si può visualizzare l’utilizzo di una parola e la sua evoluzione nel tempo. L’ho utilizzata per fare degli “zoom” precisi su certi oggetti in modo molto efficace. Si verifica però un problema metodologico se non si è fatta una AFC per identificare la parola che si vuole studiare. Ecco un diagramma ottenuto con Lexico3. Si trattava di capire come variasse l’uso del titolo «Princesse», «Duchesse de Valois» et «Reine» nel corso del tempo. Ho quindi chiesto al software di costruire questo diagramma, che ho potuto interpretare sul piano politico mettendolo in parallelo con le date più importanti della vita di Margherita di Valois:

Figura 4. Frequenza di utilizzo di alcuni termini specifici restituita da una ricerca
effettuata con il programma Lexico3

  • Le co-occorrenze

Strumento molto potente per comprende le relazioni tra le parole. Con Lexico3 non si può avere immediatamente accesso a questo strumento. Il programma Coocs, sviluppato da William Martinez, permette di aggirare agilmente questo problema e propone molte applicazioni. Possiamo quindi vedere quali sono le parole che appaiono più spesso come poli. Possiamo anche averne una rappresentazione schematica. Ecco una rappresentazione possibile delle relazioni tra le parole di un corpus. Questa rappresentazione, in se stessa, è impossibile da analizzare, ma, scegliendo una probabilità di presenza meno forte, è facile ottenere degli “zoom” (si veda qui) su delle relazioni specifiche tra parole e osservare come le parole si incatenino le une alle altre.

Figura 5. Rappresentazione grafica delle relazioni tra parole ottenuta attraverso il programma Coocs

Anche in questo caso la scelta delle parole non è arbitraria, ma riguarda le co-occorrenze di parole significative nella AFC.

  • I segmenti ripetuti

Uno strumento che permette di evidenziare le parole che si muovono insieme in modo ripetuto e di analizzarne le variazioni. Ho potuto vedere come da una lente di ingrandimento le firme delle epistole di dedica del mio corpus e avere una rappresentazione grafica della loro ripartizione nel tempo.

Conclusioni

La lessicometria è un formidabile strumento euristico per gli storici. Permette di comprendere il funzionamento interno di un corpus grazie alla AFC, di vedere quali sono le parole più utilizzate e comprenderne l’evoluzione nel tempo. Questi strumenti purtroppo hanno bisogno di un lungo lavoro preparatorio di lemmatizzazione e di codifica. Questa prospettiva, complementare ai metodi più classici dei database o della lettura documentata dei testi è molto efficace.

Linea di separazione
  1. Mi baserò ancora sulle mie letture e sulle conferenze a cui ho assistito a Paris 1 e all’ENS Ulm. []
  2. Riprendo qui una parte del corso di Benjamin Deruelle, URL: < http://tdhist.univ-paris1.fr/ > [consultato il 8 ottobre 2013]. []
  3. PROST, Antoine, Vocabulaire des proclamations électorales de 1881, 1885 et 1889, Paris, PUF, 1973. []
  4. LEMERCIER, Claire, ZALC, Claire, Méthodes quantitatives pour l’historien, Paris, La Découverte, 2008. []
  5. Sul loro sito «quanti IHMC», URL: < http://www.quanti.ihmc.ens.fr/Lexicometrie-les-logiciels.html > [consultato il 8 ottobre 2013]. []
  6. Software ideato da Max Reinert negli anni Novanta. Si veda all’URL: < http://www.image-zafar.com/index_alceste.htm > [consultato il 8 ottobre 2013].
    Hyperbase fu creato negli anni Ottanta per rendere disponibili i testi sulla Rivoluzione. Si veda all’URL: < http://www.unice.fr/bcl/spip.php?rubrique38 > [consultato il 8 ottobre 2013]. []
  7. Software creato da André Salem et Ludovic Le Bart negli anni Novanta. []
  8. Rinvio al seguito del post per una spiegazione della lemmatizzazione. []
  9. Consiglio il sito segnalato da Philippe Cibois sul blog: < http://textometrie.ens-lyon.fr/spip.php?article96 > [consultato il 8 ottobre 2013]. Troverete diversi manuali di utilizzo di questi software e potrete scegliere quello più appropriato per il vostro tema. Da consultare anche il sito «quanti IHMC», ben costruito. []
  10. Si veda il sito di William Martinez, all’URL: < http://williammartinez.fr/coocs/page.php > [consultato il 8 ottobre 2013]. []
  11. URL, < http://lexicometrica.univ-paris3.fr/thema/thema1/spec1-texte3.pdf > [consultato il 8 ottobre 2013]. []
  12. URL, < http://lexicometrica.univ-paris3.fr/article/numero2/brunet2000.html > [consultato il 8 ottobre 2013]. []
  13. ENS St Cloud. []
  14. PROST, Antoine, Vocabulaire des proclamations électorales, cit., p. 6. []
  15. Ibidem, pp. 5-6. []
  16. MAYAFFRE, Damon, «De la lexicométrie à la logométrie», consultabile all’URL: < http://www.arts.uottawa.ca/astrolabe/articles/art0048/Logometrie.htm#Lemmatiser%20=%20d%E9
    grouper
    > [consultato il 8 ottobre 2013]. []
  17. Ibidem. []
  18. Nel mio caso più di un mese. []
  19. PROST, Antoine, Vocabulaire des proclamations électorales, cit., p. 12. []
  20. I concetti matematici alla base dell’AFC sono piuttosto complessi. Si veda CIBOIS, Philippe, L’Analyse factorielle, analyse en composantes principales et analyse des correspondances, Paris, PUF, 1983; si veda anche il corso di GUERREAU, Alain, «Statistiques pour historiens», corso per l’École des Chartes all’URL: < http://elec.enc.sorbonne.fr/statistiques/stat2004.pdf > [consultato il 8 ottobre 2013]. []

.

.

tag_red , , , , ,

Scrivi un commento