From b603fbf13b10d02e4cfb173863c2a70a35cda7ec Mon Sep 17 00:00:00 2001 From: Alice BRENON <alice.brenon@ens-lyon.fr> Date: Sat, 29 Mar 2025 21:19:19 +0100 Subject: [PATCH] Stop using 'partition' for anything that isn't a partition in the sense of corpus linguistics --- Classification/Relations.md | 2 +- Conclusion/Ouverture.md | 4 ++-- Introduction/Plan.md | 4 ++-- "\303\211dlA/Linguistique_de_corpus.md" | 4 ++-- "\303\211dlA/TAL.md" | 12 ++++++------ 5 files changed, 13 insertions(+), 13 deletions(-) diff --git a/Classification/Relations.md b/Classification/Relations.md index 687144f..354f2be 100644 --- a/Classification/Relations.md +++ b/Classification/Relations.md @@ -483,7 +483,7 @@ partie de la composante supérieure (ce qui est assez surprenant avec une perspective contemporaine très théorique de ces deux disciplines). La *Géographie*, quant à elle, se situe bien dans la composante inférieure ce qui semble traduire — si l'on accepte l'interprétation précédentes des deux -partitions — un domaine qui compile des informations plus qu'il ne décrit des +groupes — un domaine qui compile des informations plus qu'il ne décrit des procédés. [^2arêtes]: ce fait peut sembler déconcertant mais correspond aux pluriels entre diff --git a/Conclusion/Ouverture.md b/Conclusion/Ouverture.md index 0092ff3..35077a2 100644 --- a/Conclusion/Ouverture.md +++ b/Conclusion/Ouverture.md @@ -215,8 +215,8 @@ France elle-même) que des colonies mais la nature des statistiques rapportées pourrait différer suivant les lieux. En revanche, la description des populations colonisées se distingue de manière bien plus nette et révèle une vision du monde basée sur une notion de «races» hiérarchisées. Les nombres d'habitants sont -souvent partitionnés suivant ce critère, par exemple aux articles PHILIPPEVILLE -(La Grande Encyclopédie, T26, p.676) — ancien nom de la ville de Skikda — et +souvent divisés suivant ce critère, par exemple aux articles PHILIPPEVILLE (La +Grande Encyclopédie, T26, p.676) — ancien nom de la ville de Skikda — et ZANZIBAR (La Grande Encyclopédie, T31, p.1305). D'autres articles comme CANAQUES (La Grande Encyclopédie, T8, p.1195) ou BAMBARA (La Grande Encyclopédie, T5, p.192) prennent résolument le parti de caractériser les populations par des diff --git a/Introduction/Plan.md b/Introduction/Plan.md index dd1b716..06f2510 100644 --- a/Introduction/Plan.md +++ b/Introduction/Plan.md @@ -30,8 +30,8 @@ l'objet du chapitre \ref{sec:corpus}. La description détaillée des deux œuvre d'une discussion des efforts entrepris pour représenter le corpus et les métadonnées qui lui sont associées. Le chapitre introduit également la notion de domaine de connaissance des articles, centrale dans le lien entre encyclopédies -et géographie et sur laquelle repose un des partitionnements du corpus utilisés -dans les études contrastives. +et géographie et sur laquelle repose un des axes d'investigation suivis dans les +études contrastives. L'importance de cette notion justifie la place centrale qui lui est accordée au chapitre \ref{sec:domains_classification} en tant que focale de tâches de diff --git "a/\303\211dlA/Linguistique_de_corpus.md" "b/\303\211dlA/Linguistique_de_corpus.md" index 1f7d9e7..bafe3d6 100644 --- "a/\303\211dlA/Linguistique_de_corpus.md" +++ "b/\303\211dlA/Linguistique_de_corpus.md" @@ -265,8 +265,8 @@ intéressant de noter la ressemblance avec les applications de la classification automatique pour déterminer le sujet d'un texte ou l'orientation politique de son auteur (voir la section \ref{sec:EdlA_TAL_text_classification}). Cependant, les deux démarches sont en réalité tout à fait opposées: alors que la finalité -des tâches de classification réside complètement dans la production d'une -partition des textes, ces études textométriques s'attachent au contraire à +des tâches de classification réside complètement dans la répartition des textes +dans des groupes cohérents, ces études textométriques s'attachent au contraire à identifier les critères qui permettent de rattacher un texte à une des catégories pour rendre explicite ce qui les caractérise. diff --git "a/\303\211dlA/TAL.md" "b/\303\211dlA/TAL.md" index 3d67adb..0a293a2 100644 --- "a/\303\211dlA/TAL.md" +++ "b/\303\211dlA/TAL.md" @@ -110,10 +110,10 @@ articles à travers 4 éditions de l'œuvre [@grabus_representing_2019]. Dans tous les cas évoqués ci-dessus, l'ensemble de classes à attribuer aux documents est défini en amont de l'étude. Il n'est pas pour autant indépendant du corpus mais correspond au contraire à un axe d'analyse que l'on suppose -pertinent: un partitionnement suivant une sensibilité politique peut avoir un -intérêt pour classer des discours parlementaires ou des professions de foi -électorales, mais serait à priori beaucoup moins adapté à des prévisions -météorologiques ou des recettes de cuisine. +pertinent: observer une sensibilité politique peut avoir un intérêt pour classer +des discours parlementaires ou des professions de foi électorales, mais serait à +priori beaucoup moins adapté à des prévisions météorologiques ou des recettes de +cuisine. À partir de l'ensemble de classes, un échantillon des documents doit être annoté manuellement pour servir de référence pour l'entraînement du modèle de @@ -181,8 +181,8 @@ moments charnière» dans les débats politiques du Royaume-Uni. des discours prononcés lors des premières années de la Révolution Française. L'intérêt de cette approche est qu'elle ne requiert pas de métadonnées sur chaque discours outre celles disponibles à la constitution du corpus d'étude et -utilisées pour le partitionner (dans le cas précédent, le nom du député à qui il -est attribué et la date à laquelle il a été prononcé). +utilisées pour organiser les textes (dans le cas précédent, le nom du député à +qui il est attribué et la date à laquelle il a été prononcé). Après les travaux de classification sur [@=Naive Bayes] évoqués plus haut, une autre étude menée à l'[@=ARTFL] a consisté à utiliser la [@=LDA] pour constituer -- GitLab