From 3910d039f3b76418de5d794da450a894d4ce06a2 Mon Sep 17 00:00:00 2001 From: Alice BRENON <alice.brenon@ens-lyon.fr> Date: Thu, 27 Mar 2025 15:38:40 +0100 Subject: [PATCH] =?UTF-8?q?Fix=20the=20inhomogeneity=20in=20the=20typograp?= =?UTF-8?q?hy=20of=20':'=20=E2=80=94=20the=20french=20formatting=20is=20ap?= =?UTF-8?q?plied=20automatically=20by=20LaTeX,=20and=20hence=20the=20space?= =?UTF-8?q?=20is=20unnecessary=20in=20the=20markdown=20version.=20Could=20?= =?UTF-8?q?have=20applied=20it=20to=20the=20markdown=20too,=20but=20there?= =?UTF-8?q?=20were=20many=20more=20occurrences=20without=20the=20space,=20?= =?UTF-8?q?so=20it=20was=20shorter=20to=20do=20it=20this=20way?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- Classification/Application.md | 4 +-- Classification/Relations.md | 14 ++++----- Contrastes/Biographies.md | 42 ++++++++++++------------- Contrastes/Contours.md | 4 +-- Corpus/Encodage.md | 2 +- Corpus/Introduction.md | 10 +++--- "Corpus/\305\222uvres.md" | 2 +- Introduction/Cadre.md | 2 +- Introduction/Enjeu.md | 2 +- "\303\211dlA/Historique.md" | 4 +-- "\303\211dlA/Lexicographie.md" | 2 +- "\303\211dlA/Linguistique_de_corpus.md" | 2 +- "\303\211dlA/TAL.md" | 2 +- 13 files changed, 46 insertions(+), 46 deletions(-) diff --git a/Classification/Application.md b/Classification/Application.md index ad36839..0320746 100644 --- a/Classification/Application.md +++ b/Classification/Application.md @@ -423,7 +423,7 @@ entrées de communes,label=lst:com_du_dep_regex] En lisant les blocs à partir des plus profonds pour remonter à l'expression dans son ensemble, voici comment elle peut s'analyser. D'abord, la lettre 'm' est parfois perçue par l'[@=OCR] comme la séquence "rn" voire "in", ce qui est à -l'origine de la séquence `\(m\|[ri]n\)` qui sert à capturer «un m» : soit +l'origine de la séquence `\(m\|[ri]n\)` qui sert à capturer «un m»: soit `R`~`m`~ cette séquence. L'abréviation n'est pas toujours la même et il y a plusieurs occurrences où les deux 'm' du mot «commune» ont été conservés: c'est là le sens de `R`~`m`~`\{1, 2\}` qui tolère une séquence de 1 ou 2 fois @@ -495,7 +495,7 @@ présence d'articles qui sont de purs renvois sans contenu propre rend égalemen difficile la détermination d'une classe sans ambiguïté. Pour toutes ces raisons, l'évaluation a été plutôt permissive, c'est-à -dire que la «charge de la preuve» a plutôt pesé sur le rejet de la classification proposée par le modèle que sur -son acceptation : le refus d'une annotation suggérée par le modèle devait être +son acceptation: le refus d'une annotation suggérée par le modèle devait être motivé par au moins un superdomaine qui conviendrait mieux de manière évidente. Pour un article qui aurait accepté plusieurs classes, la proposition du modèle a été acceptée si l'une au moins correspondait (même si ça n'était pas forcément diff --git a/Classification/Relations.md b/Classification/Relations.md index a93dd9e..687144f 100644 --- a/Classification/Relations.md +++ b/Classification/Relations.md @@ -44,14 +44,14 @@ plusieurs domaines. Après la question des origines, un deuxième paramètre s'ajoute dans l'équation. Tous les travaux de la section \ref{sec:classifiers_comparison} considèrent en -effet un problème de classification monoclasse : pour les 5% d'articles assignés +effet un problème de classification monoclasse: pour les 5% d'articles assignés à plusieurs domaines par les encyclopédistes (voir la section -\ref{classification_datasets} p.\pageref{classification_datasets}), une -seule classe a été retenue pour entraîner le modèle (correspondant à la cellule -en vert sur la figure). Or d'une part il ne semble pas y avoir d'ordre -d'importance entre les désignants présents en tête d'un article, et d'autre part -les combinaisons de classes apparaissant ensemble au sein de ces 5% possèdent -une certaine cohérence. Il y a ainsi plusieurs articles relevant à la fois de +\ref{classification_datasets} p.\pageref{classification_datasets}), une seule +classe a été retenue pour entraîner le modèle (correspondant à la cellule en +vert sur la figure). Or d'une part il ne semble pas y avoir d'ordre d'importance +entre les désignants présents en tête d'un article, et d'autre part les +combinaisons de classes apparaissant ensemble au sein de ces 5% possèdent une +certaine cohérence. Il y a ainsi plusieurs articles relevant à la fois de l'*Histoire Naturelle* et de la *Botanique*[^bromelia] mais aucun relevant à la fois de la *Pharmacie* et du *Spectacle*. Malgré le choix d'une classe parmi plusieurs pour simplifier la tâche du classifieur automatique, les combinaisons diff --git a/Contrastes/Biographies.md b/Contrastes/Biographies.md index c44ad30..9257d36 100644 --- a/Contrastes/Biographies.md +++ b/Contrastes/Biographies.md @@ -398,7 +398,7 @@ biographies individuelles hors des articles de Géographie (dans la Philosophie) mais qu'en plus il n'y avait pas non plus de «tabou» biographique que Jaucourt aurait enfreint seul et de son propre chef. -[^defense]: «À ceux qui l’auraient désirée moins sèche : qu’il était nécessaire +[^defense]: «À ceux qui l’auraient désirée moins sèche: qu’il était nécessaire de s’en tenir à la seule connaissance géographique des villes qui fût scientifique, à la seule qui nous suffirait pour construire de bonnes cartes des temps anciens» (L'Encyclopédie, T5, p.635) @@ -622,26 +622,26 @@ ne suffisent donc pas à prédire la présence de passages biographiques. En essayant de trouver un juste milieu entre la Ferté-Milon et Paris, pour regarder des villes de taille intermédiaire, on trouve alors très facilement un -grand nombre de biographies : l'entrée pour TOURS (L'Encyclopédie, T16, p.490) -en contient 8 dont deux frères qui sont décrits indépendamment, celle pour -TROYES (L'Encyclopédie, T16, p.719) en contient 9 sans liens entre les -personnes, ROUEN atteint le total de 24. À chaque fois le motif est semblable: -une suite de biographies succintes sans liens entre elles et présentée -implicitement comme un passage obligé des articles («je passe aux simples hommes -de lettre natifs de», «l'abondance m'oblige de m'arrêter à cette liste», «je ne -me propose que d'indiquer ici les principaux»), ce qui est renforcé par l'usage -fréquent de l'ordre alphabétique. Ce que disent en négatif ces énumérations, -c'est qu'elles sont là parce que le lectorat de ces articles s'attendent à les -trouver, plus que pour l'intérêt de la vie individuelle de chaque personne. Ce -qui ne signifie pas qu'elles doivent être anecdotiques: les exemples de la -section \ref{sec:biography_domains} contiennent des savants majeurs de leurs -domaines cités brièvement dans les villes qui les ont vu naître: même Leibnitz, -dont la vraie biographie est à l'article LÉIBNITZIANISME, est mentionné dans -l'article LEIPSIC, en même temps qu'une remarque éclairante sur la motivation -profonde de ces biographies: «Leibnitz seul auroit suffi pour donner du relief à -Leipsic sa patrie». Ces énumérations sont là pour l'anecdote, elles ornent, -donnent davantage d'intérêt aux lieux traités. En cela elle font partie du -discours géographique de l'époque. +grand nombre de biographies: l'entrée pour TOURS (L'Encyclopédie, T16, p.490) en +contient 8 dont deux frères qui sont décrits indépendamment, celle pour TROYES +(L'Encyclopédie, T16, p.719) en contient 9 sans liens entre les personnes, ROUEN +atteint le total de 24. À chaque fois le motif est semblable: une suite de +biographies succintes sans liens entre elles et présentée implicitement comme un +passage obligé des articles («je passe aux simples hommes de lettre natifs de», +«l'abondance m'oblige de m'arrêter à cette liste», «je ne me propose que +d'indiquer ici les principaux»), ce qui est renforcé par l'usage fréquent de +l'ordre alphabétique. Ce que disent en négatif ces énumérations, c'est qu'elles +sont là parce que le lectorat de ces articles s'attendent à les trouver, plus +que pour l'intérêt de la vie individuelle de chaque personne. Ce qui ne signifie +pas qu'elles doivent être anecdotiques: les exemples de la section +\ref{sec:biography_domains} contiennent des savants majeurs de leurs domaines +cités brièvement dans les villes qui les ont vu naître: même Leibnitz, dont la +vraie biographie est à l'article LÉIBNITZIANISME, est mentionné dans l'article +LEIPSIC, en même temps qu'une remarque éclairante sur la motivation profonde de +ces biographies: «Leibnitz seul auroit suffi pour donner du relief à Leipsic sa +patrie». Ces énumérations sont là pour l'anecdote, elles ornent, donnent +davantage d'intérêt aux lieux traités. En cela elle font partie du discours +géographique de l'époque. Toutes ces remarques convergent donc pour dégager un dernier critère à appliquer aux biographies trouvées dans les articles de Géographie: celui de la motivation diff --git a/Contrastes/Contours.md b/Contrastes/Contours.md index 4b156d3..47307cd 100644 --- a/Contrastes/Contours.md +++ b/Contrastes/Contours.md @@ -445,7 +445,7 @@ articles. Le trait le plus visible de la figure \ref{fig:ene_edda} est évidemment la prépondérance de la *Géographie* par opposition aux autres domaines dans la -répartition des entités. Les plus présentes sont celles de lieu : `ENE-Spatial`, +répartition des entités. Les plus présentes sont celles de lieu: `ENE-Spatial`, `NC-Spatial` et surtout `NP-Spatial` qui atteint environ 5%, ce qui est supérieur à la densité moyenne de tous les types d'entités confondus dans l'ensemble de l'*EDdA* ($\Sigma$, valant 4.6%). La ligne *Géographie* dans son @@ -573,7 +573,7 @@ caractères mais sans tenir compte de la casse étant donné que la typographie un peu irrégulière dans l'*EDdA* et que les conventions typographiques varient de toute façon légèrement entre les deux encyclopédies. Cette règle relativement stricte n'est pourtant pas suffisante pour garantir que les paires sont toutes -bien fondées : au lieu qu'elles renvoient bien au «même» objet (concept, lieu, +bien fondées: au lieu qu'elles renvoient bien au «même» objet (concept, lieu, etc.) il se pourrait qu'une entrée vienne à disparaître de la première encyclopédie pour être remplacée dans la suivante par une autre avec la même vedette mais sans lien sémantique avec l'entrée initiale. Si la vedette commune diff --git a/Corpus/Encodage.md b/Corpus/Encodage.md index 99c5bea..f3e3de8 100644 --- a/Corpus/Encodage.md +++ b/Corpus/Encodage.md @@ -606,7 +606,7 @@ raccourci à son initiale «V.» comme cela était déjà visible sur la figure plupart des cas de renvois externes, vers d'autres Å“uvres que *LGE*. Lorsqu'il s'agit bien de renvois entre articles, c'est que le contexte particulier de ce renvoi exige une formulation plus explicite qui sort du «lien» codifié -typographiquement pour revenir à une tournure plus construite : par exemple une +typographiquement pour revenir à une tournure plus construite: par exemple une reprise anaphorique pour éviter une répétition — «Voy. ce mot» à l'article COMBATTANT (La Grande Encyclopédie, T11, p.1153) — ou un renvoi multiple — «voir les mots \textsc{Poste} et \textsc{Télégraphe}» à l'article AFFRANCHISSEMENT (La diff --git a/Corpus/Introduction.md b/Corpus/Introduction.md index a3fb693..a4df5ae 100644 --- a/Corpus/Introduction.md +++ b/Corpus/Introduction.md @@ -2,11 +2,11 @@ La notion de corpus occupe une place centrale dans les [@=HN], représentant l'objet autour duquel s'articulent de nombreux projets. Ce chapitre présente non seulement les tâches qui ont été réalisées le plus tôt dans cette thèse mais également celles qui ont requis le plus de travail. Toutefois, sa place avant -les autres chapitres ne reflète pas un ordre strict de dépendance : au -contraire, de nombreux allers et retours ont été nécessaires entre les données -et les outils utilisés pour les exploiter: ce chapitre est une tentative de -saisir un état satisfaisant d'un effort en réalité continu et pouvant se -poursuivre sans fin. +les autres chapitres ne reflète pas un ordre strict de dépendance: au contraire, +de nombreux allers et retours ont été nécessaires entre les données et les +outils utilisés pour les exploiter: ce chapitre est une tentative de saisir un +état satisfaisant d'un effort en réalité continu et pouvant se poursuivre sans +fin. Il commence par présenter les objets de l'étude et introduire les concepts requis pour décrire ces encyclopédies et les articles qu'elles contiennent, au diff --git "a/Corpus/\305\222uvres.md" "b/Corpus/\305\222uvres.md" index ff26419..83a84a6 100644 --- "a/Corpus/\305\222uvres.md" +++ "b/Corpus/\305\222uvres.md" @@ -35,7 +35,7 @@ Thaumaste que Panurge lui a ouvert «le vray puys et abisme de Encyclopédie». cette époque, le terme renvoie encore principalement au concept abstrait de maîtrise simultanée de toutes les connaissances. C'est cette définition proche de l'étymologie grecque du terme que donne Furetière dans la première édition de -son *Dictionnaire Universel* : un enchaînement de toutes les connaissances, de +son *Dictionnaire Universel*: un enchaînement de toutes les connaissances, de *κÏκλος*, «cercle», et *παιδεία*, «connaissance». L'auteur critique déjà sa poursuite en tant qu'une forme d'hubris («C'est une témérité à un homme de vouloir posséder l'Encyclopédie») mais @basnage_dictionnaire_1702 [p.760] dans diff --git a/Introduction/Cadre.md b/Introduction/Cadre.md index 867bfc5..cb417e0 100644 --- a/Introduction/Cadre.md +++ b/Introduction/Cadre.md @@ -6,7 +6,7 @@ Si l'on en croit André Marcel Berthelot, la Géographie serait la science encyclopédique par excellence: > Le géographe aborde successivement le domaine de plusieurs sciences définies ; -> il en prend les résultats et les place dans sa description synthétique : +> il en prend les résultats et les place dans sa description synthétique: > astronomie, physique, chimie, géologie, botanique, zoologie, anthropologie, > linguistique, sociologie, statistique, démographie, histoire, toutes les > branches des connaissances humaines lui apportent leur contingent de faits diff --git a/Introduction/Enjeu.md b/Introduction/Enjeu.md index e7f0314..d938305 100644 --- a/Introduction/Enjeu.md +++ b/Introduction/Enjeu.md @@ -119,7 +119,7 @@ qu'ils considéraient relever de cette même discipline. Mais en toute rigueur, avec les seuls éléments disponibles — c'est-à -dire des collections d'articles non seulement finies mais surtout disjointes, sans -continuité temporelle — il n'est pas possible de l'affirmer : le nom aurait pu +continuité temporelle — il n'est pas possible de l'affirmer: le nom aurait pu subir un glissement sémantique et désigner des disciplines entièrement distinctes aux deux époques. De plus, l'ensemble des catégories selon lesquelles les articles se répartissent diffère à chaque époque. Cela peut être dû à diff --git "a/\303\211dlA/Historique.md" "b/\303\211dlA/Historique.md" index 371eb34..3e856bb 100644 --- "a/\303\211dlA/Historique.md" +++ "b/\303\211dlA/Historique.md" @@ -127,11 +127,11 @@ centrée sur la linguistique. Pour revenir au terme «[@=TAL]» sur lequel s'ouvrait cette brève section, il est maintenant possible de lui donner un sens. Il semblerait parfait pour désigner -l'ensemble du domaine : l'arrivée des machines dans les tâches linguistiques +l'ensemble du domaine: l'arrivée des machines dans les tâches linguistiques initiée dans les années 1960 et mentionnée ci-dessus consistait effectivement déjà à traiter le langage de manière automatique. Toutefois, le terme reste peu employé par les linguistes et semble en réalité bien plus populaire sur l'autre -versant de la discipline : dans une pratique de l'informatique dont la +versant de la discipline: dans une pratique de l'informatique dont la linguistique représente un objet d'application. Il y est revendiqué autant par des (rares, désormais) héritiers de Chomsky établissant de nouveaux modèles formels de la langue que par des empiristes développant de nouveaux outils diff --git "a/\303\211dlA/Lexicographie.md" "b/\303\211dlA/Lexicographie.md" index 75df43f..da406c7 100644 --- "a/\303\211dlA/Lexicographie.md" +++ "b/\303\211dlA/Lexicographie.md" @@ -56,7 +56,7 @@ ampleur en écrivant à l'article DICTIONNAIRE (L'Encyclopédie, T4, p.958): > \label{dalembert_dictionnaire}un dictionnaire de langues, qui paroît n'être > qu'un dictionnaire de mots, doit être souvent un dictionnaire de choses quand -> il est bien fait : c'est alors un ouvrage très-philosophique. +> il est bien fait: c'est alors un ouvrage très-philosophique. Il n'est pas possible de définir les mots en demeurant au niveau du seul langage, sous peine de produire des tautologies selon diff --git "a/\303\211dlA/Linguistique_de_corpus.md" "b/\303\211dlA/Linguistique_de_corpus.md" index 882585a..e5174d3 100644 --- "a/\303\211dlA/Linguistique_de_corpus.md" +++ "b/\303\211dlA/Linguistique_de_corpus.md" @@ -257,7 +257,7 @@ auteur — Victor Hugo — pour une étude de @brunet_hugometrie_2002. Il intéressant de noter la ressemblance avec les applications de la classification automatique pour déterminer le sujet d'un texte ou l'orientation politique de son auteur (voir la section \ref{sec:EdlA_TAL_text_classification}). Cependant, -les deux démarches sont en réalité tout à fait opposées : alors que la finalité +les deux démarches sont en réalité tout à fait opposées: alors que la finalité des tâches de classification réside complètement dans la production d'une partition des textes, ces études textométriques s'attachent au contraire à identifier les critères qui permettent de rattacher un texte à une des diff --git "a/\303\211dlA/TAL.md" "b/\303\211dlA/TAL.md" index 0196e1f..3d67adb 100644 --- "a/\303\211dlA/TAL.md" +++ "b/\303\211dlA/TAL.md" @@ -282,7 +282,7 @@ l'annotation en [@=POS] est fortement compliquée par une dépendance contextuel aiguë. Des mots différents, auxquels il faut donc attribuer des [@=POS] différentes, peuvent revêtir la même forme et nécessiter le contexte des autres mots de la phrase pour être distingués. Ce peut être le cas par exemple pour des -raisons d'homonymie : «été» peut être le nom d'une saison ou bien une forme du +raisons d'homonymie: «été» peut être le nom d'une saison ou bien une forme du verbe «être». Puisqu'il s'agit de «reconnaître» les mots, cette phase d'analyse est généralement l'occasion d'associer aussi à chaque mot une forme normalisée, son «lemme». L'existence d'amalgames tels que «des» dans «le temps des cerises» -- GitLab