diff --git "a/\303\211dlA/Historique.md" "b/\303\211dlA/Historique.md"
index f6656da8c625d6bb3781c2aaaf1573e4b9dbae6e..5be5997b407ee3fab2b1e5597b1a185d72419d01 100644
--- "a/\303\211dlA/Historique.md"
+++ "b/\303\211dlA/Historique.md"
@@ -65,9 +65,9 @@ Mais depuis 2010, le balancier semble cassÃ© si l'on en croit
 @church_pendulum_2011[p.2], qui s'inquiÃ¨te de ne pas voir les mÃ©thodes
 rationalistes faire leur retour Ã  l'issue de la pÃ©riode d'une vingtaine d'annÃ©es
 qui sÃ©parait les pics d'activitÃ©s dans chacune des deux approches lors des
-oscillations prÃ©cÃ©dentes. Loin de revenir dans les recherches pour combler
-d'Ã©ventuelles lacunes des mÃ©thodes statistiques, elles se retrouvent Ã©clipsÃ©es
-jusque dans les contenus pÃ©dagogiques [@church_pendulum_2011, p.19 et seq.].
+oscillations prÃ©cÃ©dentes. Loin de revenir dans les recherches pour combler les
+lacunes des mÃ©thodes statistiques, elles se retrouvent Ã©clipsÃ©es jusque dans les
+contenus pÃ©dagogiques [@church_pendulum_2011, p.19 et seq.].
 
 Plus d'une dÃ©cennie plus tard, ses inquiÃ©tudes semblent on ne peut plus fondÃ©es:
 l'approche empiriste occupe plus que jamais le devant de la scÃ¨ne et le terme
@@ -111,7 +111,8 @@ d'expÃ©riences de pensÃ©e [@willinsky_wittgenstein_2001, p.197]. L'Ã©cole
 britannique, de Firth Ã  Sinclair, s'inscrit naturellement tout Ã  fait dans cette
 approche. En France aussi, mais de faÃ§on tout Ã  fait diffÃ©rente, les
 mathÃ©matiques s'intÃ©ressent Ã  la linguistique Ã  cette Ã©poque et vont apporter
-Ã©normÃ©ment Ã  la discipline.
+Ã©normÃ©ment Ã  la discipline Ã  travers les contributions de chercheurs comme
+BenzÃ©cri.
 
 Il ne s'agit donc pas d'un mouvement homogÃ¨ne mais bien d'une constellation de
 pratiques, ce qui complique dÃ©jÃ  le choix d'un nom satisfaisant pour cette seule
@@ -149,7 +150,7 @@ Language Processing*) tant l'emploi de l'acronyme anglais Ã©quivalent est massif
 mÃªme chez des francophones quand il s'agit d'[@=AA].
 
 Ainsi, Ã  l'issue des considÃ©rations historiques et rÃ©flexions prÃ©cÃ©dentes la
-place relative des approches couvertes dans les deux sections suivante de cet
+place relative des approches couvertes dans les deux sections suivantes de cet
 Ã©tat de l'art devient claire. La section \ref{sec:EdlA_TAL} s'intÃ©resse au
 versant informatique de la discipline, majoritairement Ã  des mÃ©thodes empiristes
 mais sans exclure quelques techniques rationalistes. La section
diff --git "a/\303\211dlA/Linguistique_de_corpus.md" "b/\303\211dlA/Linguistique_de_corpus.md"
index dae873b451a349b23cb4a5f833645241ed196b4a..e1655c18813a4018d35c9747d8754cdd8808f8a5 100644
--- "a/\303\211dlA/Linguistique_de_corpus.md"
+++ "b/\303\211dlA/Linguistique_de_corpus.md"
@@ -4,14 +4,14 @@ La branche la plus ancienne des mÃ©thodes statistiques prÃ©sentÃ©es Ã  la sectio
 \ref{sec:EdlA_TAL_history} (voir p.\pageref{sec:EdlA_TAL_history}) est nÃ©e bien
 avant que des rÃ©seaux de neurones ne soient utilisables en pratique. On pourrait
 donc la croire Ã©teinte: cette derniÃ¨re section entend montrer qu'il n'en est
-rien. Puisant aux sources les plus thÃ©oriques de la statistique, les linguistes
+rien. Puisant aux sources des mathÃ©matiques et de la statistique, les linguistes
 n'ont pas attendu ces technologies pour mobiliser des approches trÃ¨s variÃ©es sur
 leurs problÃ©matiques de recherche.
 
 ### Du texte au corpus
 
 Un dÃ©nominateur commun Ã  toutes ces approches existe dans la notion de corpus,
-qui peut en premiÃ¨re intention se comprendre comme un Â«ensembleÂ» de textes.
+qui peut en premiÃ¨re intention se comprendre comme une Â«collectionÂ» de textes.
 Avant de dÃ©crire dans le reste de cette partie les diffÃ©rentes maniÃ¨res de
 rÃ©unir un tel ensemble, il est utile de commencer par s'interroger sur la notion
 de Â«texteÂ» puisque c'est par rapport Ã  elle que sera dÃ©finie celle de corpus.
diff --git "a/\303\211dlA/TAL.md" "b/\303\211dlA/TAL.md"
index f8c9126ac4905c3dbf4dc9069c6e48bd62e56a8c..74b6f852b6dfc116c6cc0e2bc5b3ea7665f34330 100644
--- "a/\303\211dlA/TAL.md"
+++ "b/\303\211dlA/TAL.md"
@@ -18,16 +18,16 @@ comme un Â«sac de motsÂ» [@salton1986introduction]. L'ensemble des mots dans un
 corpus (tokens ou lemmes selon les implÃ©mentations) constitue le vocabulaire
 utilisÃ© comme base d'un espace vectoriel de trÃ¨s grande dimension dans lequel
 chaque document est reprÃ©sentÃ©. Pour chaque vecteur de cette base (correspondant
-donc Ã  un mot unique du corpus), la composante associÃ©e dans le vecteur
-reprÃ©sentant un document est un entier positif ou nul Ã©gal au nombre
-d'occurrences du mot (sa frÃ©quence) dans ce document. Le terme anglophone
-consacrÃ© est Â«*Bag of Words*Â», et bien que ce terme soit le seul pour lequel
-l'Ã©quivalent franÃ§ais s'emploie, l'acronyme *BoW* sera Ã©galement utilisÃ© dans ce
-qui suit par soucis d'homogÃ©nÃ©itÃ© avec les autres mÃ©thodes. Cette approche
-produit des reprÃ©sentations vectorielles trÃ¨s grandes (beaucoup de nombres) et
-avec peu de valeurs non nulles (la plupart valent 0) car chaque document
-n'utilise qu'une fraction de l'ensemble du vocabulaire dÃ©fini par le corpus
-entier. On parle de reprÃ©sentation *creuse* (*sparse* en anglais).
+donc Ã  un mot unique du corpus), la composante associÃ©e dans le vecteur qui
+reprÃ©sente un document est un entier positif ou nul Ã©gal au nombre d'occurrences
+du mot (sa frÃ©quence) dans ce document. Le terme anglophone consacrÃ© est Â«*Bag
+of Words*Â», et bien que ce terme soit le seul pour lequel l'Ã©quivalent franÃ§ais
+s'emploie, l'acronyme *BoW* sera Ã©galement utilisÃ© dans ce qui suit par soucis
+d'homogÃ©nÃ©itÃ© avec les autres mÃ©thodes. Cette approche produit des
+reprÃ©sentations vectorielles trÃ¨s grandes (beaucoup de nombres) et avec peu de
+valeurs non nulles (la plupart valent 0) car chaque document n'utilise qu'une
+fraction de l'ensemble du vocabulaire dÃ©fini par le corpus entier. On parle de
+reprÃ©sentation *creuse* (*sparse* en anglais).
 
 La deuxiÃ¨me approche, TF-IDF (*Term Frequency - Inverse Document Frequency*,
 Â«frÃ©quence du terme - frÃ©quence inverse de documentÂ») est un type de
@@ -38,33 +38,32 @@ les *BoW* Â«pursÂ», les vecteurs produits par cette mÃ©thode sont creux, ce qui
 tend Ã  dÃ©grader les performances des algorithmes d'[@=AA] en augmentant leurs
 complexitÃ©s spatiales et temporelles.
 
-\label{edla_word_embeddings}Enfin, les plongements de mots constituent une
-famille de mÃ©thodes fondamentalement diffÃ©rentes des deux prÃ©cÃ©dentes du fait
-qu'elles capturent le contexte des mots dans leurs reprÃ©sentations vectorielles.
-Il y a deux approches pour entraÃ®ner des plongements de mots: CBOW (*Continuous
-Bag of Words*, Â«sacs de mots continusÂ») et *skip-gram* (Â«fenÃªtres Ã  trouÂ»). La
-premiÃ¨re consiste Ã  prÃ©dire un mot en fonction de son contexte. Ã€ l'inverse, une
-architecture *skip-gram* apprend Ã  prÃ©dire le contexte Ã  partir d'un mot. Par
-contraste avec les deux approches prÃ©cÃ©dentes, les plongements de mots
-produisent des vecteurs de plus petites dimensions et denses en coefficients non
-nuls. Initialement pensÃ©e au niveau des mots individuels, *Word2Vec*
-[@mikolov2013efficient] permet dÃ©jÃ  de reprÃ©senter un texte en combinant les
-vecteurs des mots qu'il contient (par exemple en faisant leur moyenne). Peu
-adaptÃ© aux textes longs, on lui prÃ©fÃ¨re souvent la mÃ©thode voisine *Doc2Vec*
-[@le2014distributed] sur ce type d'entrÃ©es. Ces mÃ©thodes de plongements
-nÃ©cessitent un entraÃ®nement sur le corpus sur lequel elles vont Ãªtre utilisÃ©es
-mais d'autres telles que *FastText* [@bojanowski2017enriching] sont disponibles
-prÃ©entraÃ®nÃ©es. On parle pour ces mÃ©thodes de plongement Â«statiqueÂ» parce
-qu'elles produisent un vecteur unique pour reprÃ©senter un mot, en combinant tous
-les diffÃ©rents contextes dans lesquels il peut apparaÃ®tre. Plus rÃ©cemment,
-*BERT* [@devlin2018bert]Â â€”â€¯*Bidirectional Encoder Representations from
-Transformers* (Â«ReprÃ©sentations d'Encodeur Bi-directionnels Ã  partir de
-TransformeursÂ», voir p.\pageref{deep_learning_classifiers})â€¯â€”Â utilise un
-plongement contextuel, oÃ¹ la reprÃ©sentation de chaque mot dÃ©pend du contexte
-dans lequel il apparaÃ®t dans une phrase, pour la phase de vectorisation qu'il
-intÃ¨gre. *BERT* utilise des rÃ©seaux de neurones de type *transformer* et le
-concept de masque pour prÃ©dire les mots qui complÃ¨tent une amorce de phrase
-donnÃ©e.
+\label{edla_word_embeddings} Par contraste avec les deux approches prÃ©cÃ©dentes,
+les plongements de mots produisent des vecteurs de plus petites dimensions et
+denses en coefficients non nuls. Ils constituent une famille de mÃ©thodes
+fondamentalement diffÃ©rentes des deux prÃ©cÃ©dentes du fait qu'elles capturent le
+contexte des mots dans leurs reprÃ©sentations vectorielles. Il y a deux approches
+pour entraÃ®ner des plongements de mots: CBOW (*Continuous Bag of Words*, Â«sacs
+de mots continusÂ») et *skip-gram* (Â«fenÃªtres Ã  trouÂ»). La premiÃ¨re consiste Ã 
+prÃ©dire un mot en fonction de son contexte. Ã€ l'inverse, une architecture
+*skip-gram* apprend Ã  prÃ©dire le contexte Ã  partir d'un mot. Initialement pensÃ©e
+au niveau des mots individuels, *Word2Vec* [@mikolov2013efficient] permet dÃ©jÃ 
+de reprÃ©senter un texte en combinant les vecteurs des mots qu'il contient (par
+exemple en faisant leur moyenne). Peu adaptÃ© aux textes longs, on lui prÃ©fÃ¨re
+souvent la mÃ©thode voisine *Doc2Vec* [@le2014distributed] sur ce type d'entrÃ©es.
+Ces mÃ©thodes de plongements nÃ©cessitent un entraÃ®nement sur le corpus sur lequel
+elles vont Ãªtre utilisÃ©es mais d'autres telles que *FastText*
+[@bojanowski2017enriching] sont disponibles prÃ©entraÃ®nÃ©es. On parle pour ces
+mÃ©thodes de plongement Â«statiqueÂ» parce qu'elles produisent un vecteur unique
+pour reprÃ©senter un mot, en combinant tous les diffÃ©rents contextes dans
+lesquels il peut apparaÃ®tre. Plus rÃ©cemment, *BERT*
+[@devlin2018bert]Â â€”â€¯*Bidirectional Encoder Representations from Transformers*
+(Â«ReprÃ©sentations d'Encodeur Bi-directionnels Ã  partir de TransformeursÂ», voir
+p.\pageref{deep_learning_classifiers})â€¯â€”Â utilise un plongement contextuel, oÃ¹ la
+reprÃ©sentation de chaque mot dÃ©pend du contexte dans lequel il apparaÃ®t dans une
+phrase, pour la phase de vectorisation qu'il intÃ¨gre. *BERT* utilise des rÃ©seaux
+de neurones de type *transformer* et le concept de masque pour prÃ©dire les mots
+qui complÃ¨tent une amorce de phrase donnÃ©e.
 
 ### Classification {#sec:EdlA_classification}
 
@@ -106,13 +105,13 @@ articles Ã  travers 4 Ã©ditions de l'Å“uvre [@grabus_representing_2019].
 
 Dans tous les cas Ã©voquÃ©s ci-dessus, l'ensemble de classes Ã  attribuer aux
 documents est dÃ©fini en amont de l'Ã©tude. Il n'est pas pour autant indÃ©pendant
-du corpus d'Ã©tude mais correspond au contraire Ã  un axe d'Ã©tude que l'on suppose
+du corpus mais correspond au contraire Ã  un axe d'analyse que l'on suppose
 pertinent: un partitionnement suivant une sensibilitÃ© politique peut avoir un
 intÃ©rÃªt pour classer des discours parlementaires ou des professions de foi
 Ã©lectorales, mais serait Ã  priori beaucoup moins adaptÃ© Ã  des prÃ©visions
 mÃ©tÃ©orologiques ou des recettes de cuisine.
 
-Ã€ partir de l'ensemble de classes, un Ã©chantillon des documents doit Ãªtre classÃ©
+Ã€ partir de l'ensemble de classes, un Ã©chantillon des documents doit Ãªtre annotÃ©
 manuellement pour servir de rÃ©fÃ©rence pour l'entraÃ®nement du modÃ¨le de
 classification: il s'agit de classification supervisÃ©e. Plus prÃ©cisÃ©ment, on
 distingue un jeu d'entraÃ®nement qui aide directement Ã  ajuster les coefficients
@@ -138,11 +137,11 @@ adaptÃ©s Ã  l'analyse de donnÃ©es sÃ©quentielles, trouvent un prolongement dans
 de mieux capturer des dÃ©pendances Ã©loignÃ©es dans les sÃ©quences d'entrÃ©es
 [@hochreiter_lstm_1997], ce que les [@=RNN] ne parviennent pas Ã  faire en
 pratique. Une autre technique d'[@=AP] pour garder accÃ¨s aux premiers Ã©lÃ©ments
-d'une sÃ©quence d'entrÃ©e nommÃ©e l'Â«attentionÂ» est au centre de l'architecture des
-transformeurs, un autre modÃ¨le d'[@=AP] qui dÃ©finissait l'Ã©tat de l'art au dÃ©but
-de cette thÃ¨se. Un modÃ¨le tel que *BERT*, basÃ© sur des transformeurs, permet Ã 
-la fois la vectorisation et la classification de ses entrÃ©es. Son trÃ¨s grand
-nombre de paramÃ¨tres requiert des ressources de calcul titanesques pour
+d'une sÃ©quence d'entrÃ©e, nommÃ©e l'Â«attentionÂ», est au centre de l'architecture
+des transformeurs, un autre modÃ¨le d'[@=AP] qui dÃ©finissait l'Ã©tat de l'art au
+dÃ©but de cette thÃ¨se. Un modÃ¨le tel que *BERT*, basÃ© sur des transformeurs,
+permet Ã  la fois la vectorisation et la classification de ses entrÃ©es. Son trÃ¨s
+grand nombre de paramÃ¨tres requiert des ressources de calcul titanesques pour
 entraÃ®ner un tel modÃ¨le Ã  partir de rien. Puisque de tels moyens ne sont Ã 
 l'heure actuelle disponibles qu'Ã  de grands groupes privÃ©s, le modÃ¨le est
 distribuÃ© prÃ©entraÃ®nÃ© sur des tÃ¢ches gÃ©nÃ©rales et ne doit subir qu'un