diff --git a/Classification/Application.md b/Classification/Application.md index ad3683988f0ada9d1fdb3b2f2d22f67e3fa16daa..0320746a99be51f3ad192aad0f8c73dcbcab3fbf 100644 --- a/Classification/Application.md +++ b/Classification/Application.md @@ -423,7 +423,7 @@ entrées de communes,label=lst:com_du_dep_regex] En lisant les blocs à partir des plus profonds pour remonter à l'expression dans son ensemble, voici comment elle peut s'analyser. D'abord, la lettre 'm' est parfois perçue par l'[@=OCR] comme la séquence "rn" voire "in", ce qui est à -l'origine de la séquence `\(m\|[ri]n\)` qui sert à capturer «un m» : soit +l'origine de la séquence `\(m\|[ri]n\)` qui sert à capturer «un m»: soit `R`~`m`~ cette séquence. L'abréviation n'est pas toujours la même et il y a plusieurs occurrences où les deux 'm' du mot «commune» ont été conservés: c'est là le sens de `R`~`m`~`\{1, 2\}` qui tolère une séquence de 1 ou 2 fois @@ -495,7 +495,7 @@ présence d'articles qui sont de purs renvois sans contenu propre rend égalemen difficile la détermination d'une classe sans ambiguïté. Pour toutes ces raisons, l'évaluation a été plutôt permissive, c'est-à -dire que la «charge de la preuve» a plutôt pesé sur le rejet de la classification proposée par le modèle que sur -son acceptation : le refus d'une annotation suggérée par le modèle devait être +son acceptation: le refus d'une annotation suggérée par le modèle devait être motivé par au moins un superdomaine qui conviendrait mieux de manière évidente. Pour un article qui aurait accepté plusieurs classes, la proposition du modèle a été acceptée si l'une au moins correspondait (même si ça n'était pas forcément diff --git a/Classification/Relations.md b/Classification/Relations.md index a93dd9ecdd70102d318014e85927b9a8362320e5..687144f99bb1e0a0d9f19e1a7e780f082d2bfa15 100644 --- a/Classification/Relations.md +++ b/Classification/Relations.md @@ -44,14 +44,14 @@ plusieurs domaines. Après la question des origines, un deuxième paramètre s'ajoute dans l'équation. Tous les travaux de la section \ref{sec:classifiers_comparison} considèrent en -effet un problème de classification monoclasse : pour les 5% d'articles assignés +effet un problème de classification monoclasse: pour les 5% d'articles assignés à plusieurs domaines par les encyclopédistes (voir la section -\ref{classification_datasets} p.\pageref{classification_datasets}), une -seule classe a été retenue pour entraîner le modèle (correspondant à la cellule -en vert sur la figure). Or d'une part il ne semble pas y avoir d'ordre -d'importance entre les désignants présents en tête d'un article, et d'autre part -les combinaisons de classes apparaissant ensemble au sein de ces 5% possèdent -une certaine cohérence. Il y a ainsi plusieurs articles relevant à la fois de +\ref{classification_datasets} p.\pageref{classification_datasets}), une seule +classe a été retenue pour entraîner le modèle (correspondant à la cellule en +vert sur la figure). Or d'une part il ne semble pas y avoir d'ordre d'importance +entre les désignants présents en tête d'un article, et d'autre part les +combinaisons de classes apparaissant ensemble au sein de ces 5% possèdent une +certaine cohérence. Il y a ainsi plusieurs articles relevant à la fois de l'*Histoire Naturelle* et de la *Botanique*[^bromelia] mais aucun relevant à la fois de la *Pharmacie* et du *Spectacle*. Malgré le choix d'une classe parmi plusieurs pour simplifier la tâche du classifieur automatique, les combinaisons diff --git a/Contrastes/Biographies.md b/Contrastes/Biographies.md index c44ad300ce48941b3e6f20a2c554f50cff98d518..9257d36880940afb77c401eb887bdcd2727ffe58 100644 --- a/Contrastes/Biographies.md +++ b/Contrastes/Biographies.md @@ -398,7 +398,7 @@ biographies individuelles hors des articles de Géographie (dans la Philosophie) mais qu'en plus il n'y avait pas non plus de «tabou» biographique que Jaucourt aurait enfreint seul et de son propre chef. -[^defense]: «À ceux qui l’auraient désirée moins sèche : qu’il était nécessaire +[^defense]: «À ceux qui l’auraient désirée moins sèche: qu’il était nécessaire de s’en tenir à la seule connaissance géographique des villes qui fût scientifique, à la seule qui nous suffirait pour construire de bonnes cartes des temps anciens» (L'Encyclopédie, T5, p.635) @@ -622,26 +622,26 @@ ne suffisent donc pas à prédire la présence de passages biographiques. En essayant de trouver un juste milieu entre la Ferté-Milon et Paris, pour regarder des villes de taille intermédiaire, on trouve alors très facilement un -grand nombre de biographies : l'entrée pour TOURS (L'Encyclopédie, T16, p.490) -en contient 8 dont deux frères qui sont décrits indépendamment, celle pour -TROYES (L'Encyclopédie, T16, p.719) en contient 9 sans liens entre les -personnes, ROUEN atteint le total de 24. À chaque fois le motif est semblable: -une suite de biographies succintes sans liens entre elles et présentée -implicitement comme un passage obligé des articles («je passe aux simples hommes -de lettre natifs de», «l'abondance m'oblige de m'arrêter à cette liste», «je ne -me propose que d'indiquer ici les principaux»), ce qui est renforcé par l'usage -fréquent de l'ordre alphabétique. Ce que disent en négatif ces énumérations, -c'est qu'elles sont là parce que le lectorat de ces articles s'attendent à les -trouver, plus que pour l'intérêt de la vie individuelle de chaque personne. Ce -qui ne signifie pas qu'elles doivent être anecdotiques: les exemples de la -section \ref{sec:biography_domains} contiennent des savants majeurs de leurs -domaines cités brièvement dans les villes qui les ont vu naître: même Leibnitz, -dont la vraie biographie est à l'article LÉIBNITZIANISME, est mentionné dans -l'article LEIPSIC, en même temps qu'une remarque éclairante sur la motivation -profonde de ces biographies: «Leibnitz seul auroit suffi pour donner du relief à -Leipsic sa patrie». Ces énumérations sont là pour l'anecdote, elles ornent, -donnent davantage d'intérêt aux lieux traités. En cela elle font partie du -discours géographique de l'époque. +grand nombre de biographies: l'entrée pour TOURS (L'Encyclopédie, T16, p.490) en +contient 8 dont deux frères qui sont décrits indépendamment, celle pour TROYES +(L'Encyclopédie, T16, p.719) en contient 9 sans liens entre les personnes, ROUEN +atteint le total de 24. À chaque fois le motif est semblable: une suite de +biographies succintes sans liens entre elles et présentée implicitement comme un +passage obligé des articles («je passe aux simples hommes de lettre natifs de», +«l'abondance m'oblige de m'arrêter à cette liste», «je ne me propose que +d'indiquer ici les principaux»), ce qui est renforcé par l'usage fréquent de +l'ordre alphabétique. Ce que disent en négatif ces énumérations, c'est qu'elles +sont là parce que le lectorat de ces articles s'attendent à les trouver, plus +que pour l'intérêt de la vie individuelle de chaque personne. Ce qui ne signifie +pas qu'elles doivent être anecdotiques: les exemples de la section +\ref{sec:biography_domains} contiennent des savants majeurs de leurs domaines +cités brièvement dans les villes qui les ont vu naître: même Leibnitz, dont la +vraie biographie est à l'article LÉIBNITZIANISME, est mentionné dans l'article +LEIPSIC, en même temps qu'une remarque éclairante sur la motivation profonde de +ces biographies: «Leibnitz seul auroit suffi pour donner du relief à Leipsic sa +patrie». Ces énumérations sont là pour l'anecdote, elles ornent, donnent +davantage d'intérêt aux lieux traités. En cela elle font partie du discours +géographique de l'époque. Toutes ces remarques convergent donc pour dégager un dernier critère à appliquer aux biographies trouvées dans les articles de Géographie: celui de la motivation diff --git a/Contrastes/Contours.md b/Contrastes/Contours.md index 4b156d3018779fffd026caa6f3a4f7d2e15c494b..47307cd9d792e97228504e6da45f619af8926077 100644 --- a/Contrastes/Contours.md +++ b/Contrastes/Contours.md @@ -445,7 +445,7 @@ articles. Le trait le plus visible de la figure \ref{fig:ene_edda} est évidemment la prépondérance de la *Géographie* par opposition aux autres domaines dans la -répartition des entités. Les plus présentes sont celles de lieu : `ENE-Spatial`, +répartition des entités. Les plus présentes sont celles de lieu: `ENE-Spatial`, `NC-Spatial` et surtout `NP-Spatial` qui atteint environ 5%, ce qui est supérieur à la densité moyenne de tous les types d'entités confondus dans l'ensemble de l'*EDdA* ($\Sigma$, valant 4.6%). La ligne *Géographie* dans son @@ -573,7 +573,7 @@ caractères mais sans tenir compte de la casse étant donné que la typographie un peu irrégulière dans l'*EDdA* et que les conventions typographiques varient de toute façon légèrement entre les deux encyclopédies. Cette règle relativement stricte n'est pourtant pas suffisante pour garantir que les paires sont toutes -bien fondées : au lieu qu'elles renvoient bien au «même» objet (concept, lieu, +bien fondées: au lieu qu'elles renvoient bien au «même» objet (concept, lieu, etc.) il se pourrait qu'une entrée vienne à disparaître de la première encyclopédie pour être remplacée dans la suivante par une autre avec la même vedette mais sans lien sémantique avec l'entrée initiale. Si la vedette commune diff --git a/Corpus/Encodage.md b/Corpus/Encodage.md index 99c5bea7821bb2ad680e79a24732736596e732cd..f3e3de875800ba52ce2ac93144343935ca361338 100644 --- a/Corpus/Encodage.md +++ b/Corpus/Encodage.md @@ -606,7 +606,7 @@ raccourci à son initiale «V.» comme cela était déjà visible sur la figure plupart des cas de renvois externes, vers d'autres Å“uvres que *LGE*. Lorsqu'il s'agit bien de renvois entre articles, c'est que le contexte particulier de ce renvoi exige une formulation plus explicite qui sort du «lien» codifié -typographiquement pour revenir à une tournure plus construite : par exemple une +typographiquement pour revenir à une tournure plus construite: par exemple une reprise anaphorique pour éviter une répétition — «Voy. ce mot» à l'article COMBATTANT (La Grande Encyclopédie, T11, p.1153) — ou un renvoi multiple — «voir les mots \textsc{Poste} et \textsc{Télégraphe}» à l'article AFFRANCHISSEMENT (La diff --git a/Corpus/Introduction.md b/Corpus/Introduction.md index a3fb6934ffeec2b6383b22300f8b1e4b820a0450..a4df5ae0da3da57b7260a03678db6559e3dd4c2f 100644 --- a/Corpus/Introduction.md +++ b/Corpus/Introduction.md @@ -2,11 +2,11 @@ La notion de corpus occupe une place centrale dans les [@=HN], représentant l'objet autour duquel s'articulent de nombreux projets. Ce chapitre présente non seulement les tâches qui ont été réalisées le plus tôt dans cette thèse mais également celles qui ont requis le plus de travail. Toutefois, sa place avant -les autres chapitres ne reflète pas un ordre strict de dépendance : au -contraire, de nombreux allers et retours ont été nécessaires entre les données -et les outils utilisés pour les exploiter: ce chapitre est une tentative de -saisir un état satisfaisant d'un effort en réalité continu et pouvant se -poursuivre sans fin. +les autres chapitres ne reflète pas un ordre strict de dépendance: au contraire, +de nombreux allers et retours ont été nécessaires entre les données et les +outils utilisés pour les exploiter: ce chapitre est une tentative de saisir un +état satisfaisant d'un effort en réalité continu et pouvant se poursuivre sans +fin. Il commence par présenter les objets de l'étude et introduire les concepts requis pour décrire ces encyclopédies et les articles qu'elles contiennent, au diff --git "a/Corpus/\305\222uvres.md" "b/Corpus/\305\222uvres.md" index ff264199cce3e3ac5849494acf3f9a42cba60904..83a84a62fb44d1ab830dc5ce018533f4ad926362 100644 --- "a/Corpus/\305\222uvres.md" +++ "b/Corpus/\305\222uvres.md" @@ -35,7 +35,7 @@ Thaumaste que Panurge lui a ouvert «le vray puys et abisme de Encyclopédie». cette époque, le terme renvoie encore principalement au concept abstrait de maîtrise simultanée de toutes les connaissances. C'est cette définition proche de l'étymologie grecque du terme que donne Furetière dans la première édition de -son *Dictionnaire Universel* : un enchaînement de toutes les connaissances, de +son *Dictionnaire Universel*: un enchaînement de toutes les connaissances, de *κÏκλος*, «cercle», et *παιδεία*, «connaissance». L'auteur critique déjà sa poursuite en tant qu'une forme d'hubris («C'est une témérité à un homme de vouloir posséder l'Encyclopédie») mais @basnage_dictionnaire_1702 [p.760] dans diff --git a/Introduction/Cadre.md b/Introduction/Cadre.md index 867bfc52196c1499c044cf1927af2ee47c5bb596..cb417e0f5dc46423dc4234c6bbbb264500f22457 100644 --- a/Introduction/Cadre.md +++ b/Introduction/Cadre.md @@ -6,7 +6,7 @@ Si l'on en croit André Marcel Berthelot, la Géographie serait la science encyclopédique par excellence: > Le géographe aborde successivement le domaine de plusieurs sciences définies ; -> il en prend les résultats et les place dans sa description synthétique : +> il en prend les résultats et les place dans sa description synthétique: > astronomie, physique, chimie, géologie, botanique, zoologie, anthropologie, > linguistique, sociologie, statistique, démographie, histoire, toutes les > branches des connaissances humaines lui apportent leur contingent de faits diff --git a/Introduction/Enjeu.md b/Introduction/Enjeu.md index e7f03141e57c3954d55d5c3cd627cf32bc11e26e..d938305292caeacac6e6cbc6c156c8c73ddca14b 100644 --- a/Introduction/Enjeu.md +++ b/Introduction/Enjeu.md @@ -119,7 +119,7 @@ qu'ils considéraient relever de cette même discipline. Mais en toute rigueur, avec les seuls éléments disponibles — c'est-à -dire des collections d'articles non seulement finies mais surtout disjointes, sans -continuité temporelle — il n'est pas possible de l'affirmer : le nom aurait pu +continuité temporelle — il n'est pas possible de l'affirmer: le nom aurait pu subir un glissement sémantique et désigner des disciplines entièrement distinctes aux deux époques. De plus, l'ensemble des catégories selon lesquelles les articles se répartissent diffère à chaque époque. Cela peut être dû à diff --git "a/\303\211dlA/Historique.md" "b/\303\211dlA/Historique.md" index 371eb34898283e1a3ecf7b1971d588225230df0e..3e856bb26914f7bfc2a6411f4476a09583dda9a0 100644 --- "a/\303\211dlA/Historique.md" +++ "b/\303\211dlA/Historique.md" @@ -127,11 +127,11 @@ centrée sur la linguistique. Pour revenir au terme «[@=TAL]» sur lequel s'ouvrait cette brève section, il est maintenant possible de lui donner un sens. Il semblerait parfait pour désigner -l'ensemble du domaine : l'arrivée des machines dans les tâches linguistiques +l'ensemble du domaine: l'arrivée des machines dans les tâches linguistiques initiée dans les années 1960 et mentionnée ci-dessus consistait effectivement déjà à traiter le langage de manière automatique. Toutefois, le terme reste peu employé par les linguistes et semble en réalité bien plus populaire sur l'autre -versant de la discipline : dans une pratique de l'informatique dont la +versant de la discipline: dans une pratique de l'informatique dont la linguistique représente un objet d'application. Il y est revendiqué autant par des (rares, désormais) héritiers de Chomsky établissant de nouveaux modèles formels de la langue que par des empiristes développant de nouveaux outils diff --git "a/\303\211dlA/Lexicographie.md" "b/\303\211dlA/Lexicographie.md" index 75df43f89c135a7bd788850fe242613642ccf374..da406c792358847edb3a2e164d87204f1560c848 100644 --- "a/\303\211dlA/Lexicographie.md" +++ "b/\303\211dlA/Lexicographie.md" @@ -56,7 +56,7 @@ ampleur en écrivant à l'article DICTIONNAIRE (L'Encyclopédie, T4, p.958): > \label{dalembert_dictionnaire}un dictionnaire de langues, qui paroît n'être > qu'un dictionnaire de mots, doit être souvent un dictionnaire de choses quand -> il est bien fait : c'est alors un ouvrage très-philosophique. +> il est bien fait: c'est alors un ouvrage très-philosophique. Il n'est pas possible de définir les mots en demeurant au niveau du seul langage, sous peine de produire des tautologies selon diff --git "a/\303\211dlA/Linguistique_de_corpus.md" "b/\303\211dlA/Linguistique_de_corpus.md" index 882585a13b9217e66cc553c40b44e8b47de5d56b..e5174d3612a4635a657775c0882d4ba747f5e6ac 100644 --- "a/\303\211dlA/Linguistique_de_corpus.md" +++ "b/\303\211dlA/Linguistique_de_corpus.md" @@ -257,7 +257,7 @@ auteur — Victor Hugo — pour une étude de @brunet_hugometrie_2002. Il intéressant de noter la ressemblance avec les applications de la classification automatique pour déterminer le sujet d'un texte ou l'orientation politique de son auteur (voir la section \ref{sec:EdlA_TAL_text_classification}). Cependant, -les deux démarches sont en réalité tout à fait opposées : alors que la finalité +les deux démarches sont en réalité tout à fait opposées: alors que la finalité des tâches de classification réside complètement dans la production d'une partition des textes, ces études textométriques s'attachent au contraire à identifier les critères qui permettent de rattacher un texte à une des diff --git "a/\303\211dlA/TAL.md" "b/\303\211dlA/TAL.md" index 0196e1ffe5a8781a9d57f3761d68f64d6a5637ac..3d67adb1df8fa4aa2b608d2bb73c9641bc4ba20f 100644 --- "a/\303\211dlA/TAL.md" +++ "b/\303\211dlA/TAL.md" @@ -282,7 +282,7 @@ l'annotation en [@=POS] est fortement compliquée par une dépendance contextuel aiguë. Des mots différents, auxquels il faut donc attribuer des [@=POS] différentes, peuvent revêtir la même forme et nécessiter le contexte des autres mots de la phrase pour être distingués. Ce peut être le cas par exemple pour des -raisons d'homonymie : «été» peut être le nom d'une saison ou bien une forme du +raisons d'homonymie: «été» peut être le nom d'une saison ou bien une forme du verbe «être». Puisqu'il s'agit de «reconnaître» les mots, cette phase d'analyse est généralement l'occasion d'associer aussi à chaque mot une forme normalisée, son «lemme». L'existence d'amalgames tels que «des» dans «le temps des cerises»