diff --git a/Classification/Application.md b/Classification/Application.md index cff6db2720639c643f05502748df7b5d0ac758f1..bf7175ba9d8d3caf3287d1f57efcd0370b50d7f1 100644 --- a/Classification/Application.md +++ b/Classification/Application.md @@ -312,7 +312,7 @@ plusieurs occurrences où les deux 'm' du mot «commune» ont été conservés: là le sens de `R`~`m`~`\{1, 2\}` qui tolère une séquence de 1 ou 2 fois l'expression précédente pour absorber les différentes réalisations possibles de «m» ou «mm». Ce bloc, préfixé du `o` reconnaît évidemment la séquence «omm» (et -les différentes combinaisons qui peuvent le remplacer, donc): ce sera +les différentes combinaisons qui peuvent le remplacer, donc) : ce sera `R`~`omm?`~ dans ce qui suit. L'ensemble `\(R`~`omm?`~`\|ant\)` reconnaît donc la séquence précédente ou bien «ant»: cette disjonction a été ajoutée pour prendre en compte quelques villes qui n'étaient pas mentionnées en tant que @@ -446,7 +446,7 @@ moins probable que $m$ mais pas impossible. La vraisemblance de l'estimation dépend de la taille de l'intervalle que l'on considère autour de $m$. Si l'on prend un intervalle trop petit (par exemple $10^{-6}\%$) il est plus probable que $p$ soit hors de cet intervalle que dedans. En particulier, il est vain de -croire que $p$ puisse être exactement égale à $m$ (intervalle de taille nulle): +croire que $p$ puisse être exactement égale à $m$ (intervalle de taille nulle) : bien que ce soit la valeur la plus vraisemblable, la probabilité de ce nombre précis est nulle. L'ensemble des valeurs réelles possibles pour $p$ suit une distribution en cloche autour de la valeur $m$, la loi normale, dont la diff --git a/Classification/Relations.md b/Classification/Relations.md index 354f2be604474ee6d160a8ac1d0063968ef7fbbc..7a0f8bf461aff77d7692c11947dbc01e25f5e699 100644 --- a/Classification/Relations.md +++ b/Classification/Relations.md @@ -221,7 +221,7 @@ disciplinaire qui pourrait relever de la géographie (voir section \ref{sec:contrasts_objects} p.\pageref{sec:contrasts_objects}). En général, les probabilités de prédiction pour un article donné décroissent très vite pour atteindre 0 après quelques classes (ce qui traduit la certitude d'après le -modèle que l'article ne relève pas des classes suivantes): il est remarquable +modèle que l'article ne relève pas des classes suivantes) : il est remarquable que pour ROCHER le modèle attribue une vraisemblance non nulle à 16 classes différentes, traduisant l'ambiguïté d'un article très pauvre en éléments distinctifs et difficile à situer parmi les domaines de connaissance. Après @@ -244,8 +244,8 @@ articles de *Géographie* prédits comme appartenant à cette classe représenta position des domaines les plus prédits à la place de la *Géographie* par le modèle. Plusieurs domaines présents mais assez rares parmi les faux négatifs (dans les 50% les moins représentés) se classent parmi les faux positifs les -plus fréquents (dans les 33% les mieux représentés): *Droit - Jurisprudence* qui -est le 3^ème^ domaine causant le plus de faux positifs pour le modèle, +plus fréquents (dans les 33% les mieux représentés) : *Droit - Jurisprudence* +qui est le 3^ème^ domaine causant le plus de faux positifs pour le modèle, *Physique*, *Grammaire* et *Belles-lettres*. Deux domaines totalement absents des faux négatifs, *Agriculture* et *Architecture*, sont plutôt bien représentés parmi les faux positifs puisqu'ils sont respectivement les 10^ème^ et 11^ème^ @@ -467,7 +467,7 @@ encore plus d'article de ce domaine vers *Droit - Jurisprudence*. Entre ces deux classes par contre, il y a une réciprocité, car l'*Histoire* est aussi le domaine qui attire le plus de faux négatifs de *Droit - Jurisprudence*. Une autre configuration intéressante est celle de la classe *Mathématiques* dont -partent deux arêtes[^2arêtes] (c'est le seul nœud dans ce cas): les classes +partent deux arêtes[^2arêtes] (c'est le seul nœud dans ce cas) : les classes *Physique* et *Grammaire* attirent autant de faux négatifs de la classe *Mathématiques*. Sans cet équilibre, le graphe serait partagé en deux composantes indépendantes: la partie supérieure de la figure @@ -618,7 +618,7 @@ Et, par extension, la norme d'un vecteur de classe est définie par la racine carrée de son produit scalaire avec lui-même (c'est-à -dire la racine carrée de la somme des carrés de ses coefficients, soit l'équivalent de la norme euclidienne manipulée couramment sur les espaces à 2 ou 3 dimensions, mais -généralisée à l'espace de dimension $|\mathcal{L}|^n$ considéré): +généralisée à l'espace de dimension $|\mathcal{L}|^n$ considéré) : $$\|V\| = \sqrt{\langle V, V \rangle}$$ @@ -629,7 +629,7 @@ supposant que $c_i$ et $c_j$ sont deux classes, leur similarité *cardinale* $\langle c_i, c_j \rangle_{n, k, card}$ peut s'exprimer ainsi (la division par $k$ sert à normaliser le nombre obtenu pour le ramener entre $0$ et $1$ — deux ensembles de $k$ éléments ne peuvent pas avoir plus de $k$ éléments en -commun — pour la rendre comparable indifféremment de $k$): +commun — pour la rendre comparable indifféremment de $k$) : \begin{equation} \label{eq:count_similarity} @@ -920,7 +920,7 @@ nœuds (en nombre — qu'il y ait beaucoup d'arêtes — ou en volume — avec un coefficient élevé). Cette augmentation du poids est tempérée de manière linéaire par l'importance du flux qui quitte le nœud considéré (de même, en nombre ou en volume, ici encore seule la somme des coefficients des arêtes -quittant un nœud donné a une importance): supposant les coefficients de toutes +quittant un nœud donné a une importance) : supposant les coefficients de toutes les autres arêtes fixés, le poids d'un nœud sera d'autant plus faible que ses arêtes sortantes ont des coefficients importants. Une mesure de centralité élevée signifiera donc qu'un nœud est assez bien reconnu (flux de faux négatifs @@ -959,7 +959,7 @@ Cette expression coïncide avec la définition d'un vecteur propre (à gauche) associé à la valeur propre 1. Selon la définition de la matrice de confusion, chaque rangée représente une distribution de probabilité (la probilité qu'un article donné issu de la classe correspondante soit prédit par le modèle dans -chacune des classes possibles): c'est-à -dire que $C$ est stochastique à droite. +chacune des classes possibles) : c'est-à -dire que $C$ est stochastique à droite. En tant que telle, la somme des coefficients d'une rangée doit valoir 1. Étant données les règles de calcul des produits matriciels et en appelant $\boldsymbol{v_1}$ le vecteur de $\mathbb{R}^{38}$ dont tous les coefficients diff --git a/Corpus/Application.md b/Corpus/Application.md index f9c73d7cd59dd5f989868c37db4d8cdbea257654..fc4eed801234a785a4cfa1c1fbf70fd0473f7ba8 100644 --- a/Corpus/Application.md +++ b/Corpus/Application.md @@ -387,7 +387,7 @@ métadonnées mais se manifeste aussi dans chacune des arborescences corresponda sont en effet organisés par œuvre (dans un répertoire dont le nom est la valeur de l'attribut `work` de l'article). Chaque dossier d'œuvre (`EDdA/` ou `LGE/` donc) contient un répertoire par tome, nommé en préfixant la valeur de -l'attribut `volume` d'un 'T' (t majuscule): `T1/`, `T2/`… jusqu'à `T17/` dans +l'attribut `volume` d'un 'T' (t majuscule) : `T1/`, `T2/`… jusqu'à `T17/` dans `EDdA/` et `T31/` dans `LGE/`. À l'intérieur de chaque dossier de tome, chaque article est nommé par son rang, suffixé de l'extension idoine (`.txt`, `.xml`, `.conllu`…). Ainsi, il est extrêmement facile d'accéder aux contenus des diff --git "a/Corpus/\305\222uvres.md" "b/Corpus/\305\222uvres.md" index b1166e342f4d44f093e66bdf0c2fd51aa214c069..6b0f906c3fe4e8da29f588e3e6d764fc9b65f353 100644 --- "a/Corpus/\305\222uvres.md" +++ "b/Corpus/\305\222uvres.md" @@ -866,11 +866,12 @@ pourvues d'attributs mais pas d'un tag (comme `<XREEF="Incorrupticoles">`, sans `<` ouvrant avant leur tag, ainsi que quelques erreurs dans les entités XML. Mais le problème le plus spectaculaire réside dans les quelques occurrences de `&`;, qui représenterait en XML le caractère '&' (esperluette), si seulement -son dernier caractère était un ';' (point virgule): il s'agit malheureusement en -réalité du caractère UTF-8 `U+037e` utilisé en grec pour marquer l'interrogation -à la place de notre '?', quasi identique visuellement. L'irrégularité de ces -erreurs et en particulier l'homographie en jeu dans la dernière incite à penser -que l'encodage de ces fichiers a été réalisé par des opérateurs humains. +son dernier caractère était un ';' (point virgule) : il s'agit malheureusement +en réalité du caractère UTF-8 `U+037e` utilisé en grec pour marquer +l'interrogation à la place de notre '?', quasi identique visuellement. +L'irrégularité de ces erreurs et en particulier l'homographie en jeu dans la +dernière incite à penser que l'encodage de ces fichiers a été réalisé par des +opérateurs humains. Pour corriger ces erreurs ainsi que pour procéder à la division des tomes proprement dite tout en extrayant les métadonnées des articles, quelques scripts @@ -985,7 +986,7 @@ peuvent se positionner les uns par rapport aux autres selon un axe horizontal (l'un est à la gauche de l'autre) mais aussi selon un axe vertical (l'un est au-dessous de l'autre). Le texte quant à lui est une abstraction intrinsèquement linéaire, au moins dans ses réalisations concrètes (avant toute analyse -syntaxique ou sémantique): il est formé d'un flot de morphèmes constituant un +syntaxique ou sémantique) : il est formé d'un flot de morphèmes constituant un flot de mots qui s'assemblent en un flot de phrases (pouvant à leur tour éventuellement former un flot de paragraphes, sections, chapitres suivant la complexité de la production, ou d'articles dans le cadre de cette thèse). diff --git a/Glossaire/TSV.md b/Glossaire/TSV.md index 0df53abb3e9a8855acdd1f4e35e9bf91722b86da..2a59d951a683ab8a6ddc32f0acbbf4cfdd806084 100644 --- a/Glossaire/TSV.md +++ b/Glossaire/TSV.md @@ -11,6 +11,6 @@ ce format est trivial, nécessitant seulement de découper les lignes suivant le tabulations. Il faut en revanche se méfier de l'opération inverse, consistant à produire des fichiers en séparant seulement les cellules par des tabulations sans prendre en compte le caractère d'échappement (guillemets doubles d'après la -RFC 4180): si une cellule contient ce caractère, alors le fichier obtenu ne +RFC 4180) : si une cellule contient ce caractère, alors le fichier obtenu ne serait plus un TSV valide et ne serait pas lu correctement par les outils pour ce format (typiquement, des tableurs). diff --git a/Introduction/Cadre.md b/Introduction/Cadre.md index 0c06e1517aa198ef9dca97b8b8e8c6ba7ed8e3e0..4779231b030be867c0ef9eeffd4021811fd75438 100644 --- a/Introduction/Cadre.md +++ b/Introduction/Cadre.md @@ -78,7 +78,7 @@ nous l'avions, & qui suffira à la postérité pour construire de bonnes cartes nos tems» ainsi qu'il l'écrit à l'article ENCYCLOPÉDIE (L'Encyclopédie, T5, p.646). Cette thématique de la carte reste pourtant présente dans l'œuvre et permet d'introduire une métaphore frappante que d'Alembert file dans le Discours -Préliminaire des Éditeurs (L'Encyclopédie, T1, p.xv): l'Encyclopédie décrit les +Préliminaire des Éditeurs (L'Encyclopédie, T1, p.xv) : l'Encyclopédie décrit les différentes sciences comme autant de «pays» qu'elle situe les uns par rapport aux autres, permettant d'«entrevoir même quelquefois les routes secrètes qui les rapprochent». Ses articles sont des «cartes» qui couvrent en détail des portions diff --git a/template/folio.tex b/template/folio.tex index 97fc867ad02814324a6713446030fe9e89249d64..ceba4e302c2c87e2764d1479c4c508546141c035 100644 --- a/template/folio.tex +++ b/template/folio.tex @@ -88,14 +88,14 @@ compréhension des liens entre biographies et discours géographiques. \multicolumn{2}{|p{17.2cm}|}{Président du Jury : \textbf{(président, nommé au moment de la soutenance)}}\\ &\\ \multicolumn{2}{|p{17.2cm}|}{Composition du Jury :}\\ - \multicolumn{2}{|p{17.2cm}|}{\textsc{Favre} Benoît, Professeur des Universités (Aix-Marseille Université): Rapporteur}\\ - \multicolumn{2}{|p{17.2cm}|}{\textsc{Galleron} Ioana, Professeure des Universités (Université Sorbonne Nouvelle): Rapporteure}\\ - \multicolumn{2}{|p{17.2cm}|}{\textsc{Doucet} Antoine, Professeur des Universités (La Rochelle Université): Examinateur}\\ - \multicolumn{2}{|p{17.2cm}|}{\textsc{Eglin} Véronique, Professeure des Universités (INSA-LYON): Examinatrice}\\ - \multicolumn{2}{|p{17.2cm}|}{\textsc{Puren} Marie, Maîtresse de Conférences (EPITA): Examinatrice}\\ - \multicolumn{2}{|p{17.2cm}|}{\textsc{Laforest} Frédérique, Professeure des Universités (INSA-LYON): Directrice de thèse}\\ - \multicolumn{2}{|p{17.2cm}|}{\textsc{Vigier} Denis, Professeur des Universités (Université Lumière Lyon 2): Co-directeur de thèse}\\ - \multicolumn{2}{|p{17.2cm}|}{\textsc{Moncla} Ludovic, Maître de Conférences (INSA-LYON): Invité}\\ + \multicolumn{2}{|p{17.2cm}|}{\textsc{Favre} Benoît, Professeur des Universités (Aix-Marseille Université) : Rapporteur}\\ + \multicolumn{2}{|p{17.2cm}|}{\textsc{Galleron} Ioana, Professeure des Universités (Université Sorbonne Nouvelle) : Rapporteure}\\ + \multicolumn{2}{|p{17.2cm}|}{\textsc{Doucet} Antoine, Professeur des Universités (La Rochelle Université) : Examinateur}\\ + \multicolumn{2}{|p{17.2cm}|}{\textsc{Eglin} Véronique, Professeure des Universités (INSA-LYON) : Examinatrice}\\ + \multicolumn{2}{|p{17.2cm}|}{\textsc{Puren} Marie, Maîtresse de Conférences (EPITA) : Examinatrice}\\ + \multicolumn{2}{|p{17.2cm}|}{\textsc{Laforest} Frédérique, Professeure des Universités (INSA-LYON) : Directrice de thèse}\\ + \multicolumn{2}{|p{17.2cm}|}{\textsc{Vigier} Denis, Professeur des Universités (Université Lumière Lyon 2) : Co-directeur de thèse}\\ + \multicolumn{2}{|p{17.2cm}|}{\textsc{Moncla} Ludovic, Maître de Conférences (INSA-LYON) : Invité}\\ &\\ \hline \end{tabular} diff --git "a/\303\211dlA/Lexicographie.md" "b/\303\211dlA/Lexicographie.md" index 6660b3277a940ebe50209a823a186f1da813774a..50f490d91d0c236bab2a8a5e3222ab580ee3e384 100644 --- "a/\303\211dlA/Lexicographie.md" +++ "b/\303\211dlA/Lexicographie.md" @@ -49,10 +49,10 @@ dictionnaires de chose au contraire donnent «accès au domaine à décrire», toujours selon @rey_antoine_2006[*ibid*] et, en cela, concernent davantage le référent des signes. Dans les deux cas le dictionnaire constitue ainsi en lui-même un «traité métaphysique sur le sens» [@willinsky_wittgenstein_2001, -p.189-190]\: le genre lexicographique intéresse donc la sémantique la plus +p.189-190] : le genre lexicographique intéresse donc la sémantique la plus abstraite jusqu'à la logique et la philosophie. Le problème du sens des mots représente un sujet de réflexion vertigineux. D'Alembert avait déjà compris son -ampleur en écrivant à l'article DICTIONNAIRE (L'Encyclopédie, T4, p.958): +ampleur en écrivant à l'article DICTIONNAIRE (L'Encyclopédie, T4, p.958) : > \label{dalembert_dictionnaire}un dictionnaire de langues, qui paroît n'être > qu'un dictionnaire de mots, doit être souvent un dictionnaire de choses quand diff --git "a/\303\211dlA/Linguistique_de_corpus.md" "b/\303\211dlA/Linguistique_de_corpus.md" index 6b6c6718e6d7ee5be2f9d9e24778c674c54b68de..6b442deafd97dee9b1dea6cab2936749845796d1 100644 --- "a/\303\211dlA/Linguistique_de_corpus.md" +++ "b/\303\211dlA/Linguistique_de_corpus.md" @@ -99,9 +99,9 @@ symboliques. L'opposition semble dépasser le cadre de la terminologie, n'empêche pas Leech d'utiliser l'hybride *Computer Corpus Linguistics* [@leon_sources_2008, p.26] — «linguistique de corpus par ordinateur». @leon_histoire_2015[p.13] parle quant à elle d'une véritable «guerre des -dénominations» [@leon_histoire_2015, p.130]: en plus des traductions de ces deux -termes on trouve également en français linguistique «quantitative», «appliquée» -et «outillée»… +dénominations» [@leon_histoire_2015, p.130] : en plus des traductions de ces +deux termes on trouve également en français linguistique «quantitative», +«appliquée» et «outillée»… ### Les outils de la linguistique {#sec:EdlA_linguistic_tools} @@ -159,7 +159,7 @@ parti en faveur de la lemmatisation [@brunet_muller_2009, p.1]. Cependant, considérer les seules fréquences souffre de limites intrinsèques comme le fait de ne pas pouvoir saisir les absences [@pincemin_semantique_2022, -p.3]: impossible en effet de compter des «non occurrences» de phénomènes qui ne +p.3] : impossible en effet de compter des «non occurrences» de phénomènes qui ne se réalisent pas dans une partie d'un corpus par rapport à la normale définie par les autres textes avec lesquelles elle serait mise en contraste. En rapportant les fréquences observées à la taille des différentes parties, diff --git "a/\303\211dlA/XML-TEI.md" "b/\303\211dlA/XML-TEI.md" index c83e0570a02a77261c83787d9ae9bceec30ab490..3cf2525f3a06036e8a08cfb2c8a28d0b356783c2 100644 --- "a/\303\211dlA/XML-TEI.md" +++ "b/\303\211dlA/XML-TEI.md" @@ -211,7 +211,7 @@ une certaine popularité comme le *Comic Book Markup Language* (CBML, le «langa [@romary_lex0_2018] pour les ouvrages lexicographiques. Un module est présent depuis la [@=TEI] P3 [@sperbergmcqueen_tei_1999; -@ide_encodingdictionaries_1995]: le module *dictionaries*. Il comprend 33 +@ide_encodingdictionaries_1995] : le module *dictionaries*. Il comprend 33 éléments et se focalise sur les entrées, niveau à partir duquel les ouvrages lexicographiques diffèrent des autres types d'œuvres [@ide_encodingdictionaries_1995, p.168]. Il permet également de représenter les