Skip to content
Snippets Groups Projects
Commit d25197f0 authored by Alice Brenon's avatar Alice Brenon
Browse files

Just proofread the Introduction

parent 08632db2
No related branches found
No related tags found
No related merge requests found
...@@ -23,7 +23,7 @@ s'appliquait à la section \ref{sec:EdlA_TAL} de l'état de l'art: devant la ...@@ -23,7 +23,7 @@ s'appliquait à la section \ref{sec:EdlA_TAL} de l'état de l'art: devant la
prédominance de l'emploi des noms anglophones pour les méthodes d'[@=AA], même prédominance de l'emploi des noms anglophones pour les méthodes d'[@=AA], même
chez des locuteurs français, une exception locale est faite dans toute cette chez des locuteurs français, une exception locale est faite dans toute cette
section à l'emploi exclusif de termes francophones qui est la règle dans le section à l'emploi exclusif de termes francophones qui est la règle dans le
reste de cette thèse. Ce choix se justifie par le soucis de ne pas produire de reste de cette thèse. Ce choix se justifie par le souci de ne pas produire de
formes traduites quelque peu artificielles qui n'auraient de toute façon pas formes traduites quelque peu artificielles qui n'auraient de toute façon pas
cours hors de ces pages. cours hors de ces pages.
...@@ -711,7 +711,7 @@ d'encodage. ...@@ -711,7 +711,7 @@ d'encodage.
[^txt]: on trouve aussi du «text brut» sous d'autres formes, par exemple dans [^txt]: on trouve aussi du «text brut» sous d'autres formes, par exemple dans
une cellule d'un fichier tableur, ou dans une valeur au sein d'un fichier une cellule d'un fichier tableur, ou dans une valeur au sein d'un fichier
JSON; le terme «fichier» (textuel) sera employé par soucis de simplicité JSON; le terme «fichier» (textuel) sera employé par souci de simplicité
mais les remarques faites dans cette section s'appliquent aussi à ces autres mais les remarques faites dans cette section s'appliquent aussi à ces autres
méthodes de stockage de texte méthodes de stockage de texte
......
...@@ -109,7 +109,7 @@ en Allemagne ou en Hollande [@todorov_enseigner_2018, ¶¶1 et 9]. Vers la fin d ...@@ -109,7 +109,7 @@ en Allemagne ou en Hollande [@todorov_enseigner_2018, ¶¶1 et 9]. Vers la fin d
XIX^ème^ siècle la Géographie se hisse enfin au rang de véritable discipline XIX^ème^ siècle la Géographie se hisse enfin au rang de véritable discipline
scientifique grâce à des auteurs comme Vidal de la Blache. scientifique grâce à des auteurs comme Vidal de la Blache.
### Des thématiques faites pour l'informatique {.unnumbered .unlisted} ### Opportunités pour l'informatique {.unnumbered .unlisted}
La conduite d'investigations sur des objets à la fois massifs et historiques La conduite d'investigations sur des objets à la fois massifs et historiques
comme peuvent l'être les œuvres encyclopédiques évoquées soulève cependant un comme peuvent l'être les œuvres encyclopédiques évoquées soulève cependant un
...@@ -139,7 +139,7 @@ intéressantes pour l'informatique elle-même. ...@@ -139,7 +139,7 @@ intéressantes pour l'informatique elle-même.
La mise à disposition des équipes de grandes quantités de données et parfois de La mise à disposition des équipes de grandes quantités de données et parfois de
logiciels d'analyses en ligne requiert des infrastructures complexes qui logiciels d'analyses en ligne requiert des infrastructures complexes qui
soulèvent déjà des questions d'ingénieries non triviales liées entre autres au soulèvent déjà des questions d'ingénierie non triviales liées entre autres au
stockage, à la vitesse d'accès aux données ou même à la prise en charge du stockage, à la vitesse d'accès aux données ou même à la prise en charge du
travail collaboratif. Les efforts entrepris sur ces sujets ont donné naissance à travail collaboratif. Les efforts entrepris sur ces sujets ont donné naissance à
des organisations comme Ortolang [@pierrel_ortolang_2016] ou Huma-Num des organisations comme Ortolang [@pierrel_ortolang_2016] ou Huma-Num
...@@ -168,20 +168,20 @@ ruptures technologiques peuvent s'accompagner d'un bouleversement des usages ...@@ -168,20 +168,20 @@ ruptures technologiques peuvent s'accompagner d'un bouleversement des usages
le rapport aux objets examinés pour comprendre le sens du résultat d'un calcul, le rapport aux objets examinés pour comprendre le sens du résultat d'un calcul,
comme par exemple une prédiction faite par un classifieur automatique. Cet enjeu comme par exemple une prédiction faite par un classifieur automatique. Cet enjeu
est en lien avec la visualisation des données, qui peut demander des efforts de est en lien avec la visualisation des données, qui peut demander des efforts de
développements logiciels mais interroge surtout sur l'interprétation pouvant développement logiciel mais interroge surtout sur l'interprétation pouvant être
être faite des concepts statistiques ou informatiques mobilisés. Enfin, la faite des concepts statistiques ou informatiques mobilisés. Enfin, la question
question des chaînes de traitement peut paraître secondaire, ne constituant des chaînes de traitement peut paraître secondaire, ne constituant qu'un
qu'un assemblage «évident» ou même «nécessaire» des outils requis par un projet assemblage «évident» ou même «nécessaire» des outils requis par un projet donné
donné mais suscite en réalité de nombreuses réflexions sur les formats des mais suscite en réalité de nombreuses réflexions sur les formats des données
données ainsi que sur l'équilibre à trouver entre commodité d'utilisation, ainsi que sur l'équilibre à trouver entre commodité d'utilisation, flexibilité
flexibilité et réutilisabilité des états intermédiaires. Si de très nombreux et réutilisabilité des états intermédiaires. Si de très nombreux projets en
projets en [@=HN] semblent partager une structure commune allant de la [@=HN] semblent partager une structure commune allant de la numérisation de
numérisation de données à l'application d'outils linguistiques automatisés données à l'application d'outils linguistiques automatisés [@jentsch_text_2020],
[@jentsch_text_2020], la diversité des besoins spécifiques d'analyse ou des la diversité des besoins spécifiques d'analyse ou des formats requis en entrée
formats requis en entrée ou en sortie de chaîne pour chaque projet complique en ou en sortie de chaîne pour chaque projet complique en réalité le réemploi de
réalité le réemploi de chaînes existantes. Quelle que soit la direction chaînes existantes. Quelle que soit la direction envisagée, les thématiques
envisagée, les thématiques d'étude choisies apparaissent donc potentiellement d'étude choisies apparaissent donc potentiellement fructueuses pour la recherche
fructueuses pour la recherche informatique. informatique.
### Le projet GEODE {.unnumbered .unlisted} ### Le projet GEODE {.unnumbered .unlisted}
......
...@@ -25,9 +25,9 @@ axe est temporel puisqu'il faut comparer les discours du genre encyclopédique ...@@ -25,9 +25,9 @@ axe est temporel puisqu'il faut comparer les discours du genre encyclopédique
deux époques: le XVIII^ème^ d'une part et le tournant des XIX^ème^ et XX^ème^ deux époques: le XVIII^ème^ d'une part et le tournant des XIX^ème^ et XX^ème^
siècles d'autre part. siècles d'autre part.
Cette thématique de recherche mobilise plusieurs des apports de l'informatiques Cette thématique de recherche mobilise plusieurs des apports de l'informatique
aux [@=HN]. Il est d'abord nécessaire de déterminer un encodage qui convienne à aux [@=HN]. Il est d'abord nécessaire de déterminer un encodage qui convienne à
la fois à l'*EDdA* et à *LGE* malgré leur différences, de façon à pouvoir la fois à l'*EDdA* et à *LGE* malgré leurs différences, de façon à pouvoir
regrouper les deux œuvres au sein d'un même corpus et leur appliquer les mêmes regrouper les deux œuvres au sein d'un même corpus et leur appliquer les mêmes
traitements puis les mêmes analyses. Cette tâche de normalisation, avec celle traitements puis les mêmes analyses. Cette tâche de normalisation, avec celle
d'organisation des textes et des métadonnées représente un important travail d'organisation des textes et des métadonnées représente un important travail
...@@ -66,13 +66,13 @@ francisation d'un mot de la langue parlée dans le pays visité comme PILAU ...@@ -66,13 +66,13 @@ francisation d'un mot de la langue parlée dans le pays visité comme PILAU
L'objet qui intéresse fondamentalement cette thèse est bien sûr la Géographie en L'objet qui intéresse fondamentalement cette thèse est bien sûr la Géographie en
tant que discipline (qu'on distinguera typographiquement en conservant la tant que discipline (qu'on distinguera typographiquement en conservant la
majuscule) mais il ne se réduit pas pas aux discours présents dans une majuscule) mais il ne se réduit pas aux discours présents dans une encyclopédie.
encyclopédie. Les présents travaux s'efforcent de s'en rapprocher en étudiant Les présents travaux s'efforcent de s'en rapprocher en étudiant ces discours,
ces discours, c'est-à-dire la trace textuelle laissée par la discipline (pour c'est-à-dire la trace textuelle laissée par la discipline (pour laquelle on
laquelle on réservera l'emploi sans marquer l'initiale: «géographie»). De la réservera l'emploi sans marquer l'initiale: «géographie»). De la même manière,
même manière, le terme de «discipline» sera pris dans le sens large de «science» le terme de «discipline» sera pris dans le sens large de «science» alors que
alors que l'expression «domaine de connaissance» renverra plus spécifiquement à l'expression «domaine de connaissance» renverra plus spécifiquement à un choix
un choix éditorial de découpage dans une encyclopédie particulière. éditorial de découpage dans une encyclopédie particulière.
La situation est tout à fait analogue à celle en traitement du signal d'un La situation est tout à fait analogue à celle en traitement du signal d'un
processus d'échantillonnage par lequel on tente de connaître une fonction processus d'échantillonnage par lequel on tente de connaître une fonction
...@@ -123,12 +123,12 @@ distinctes aux deux époques. De plus, l'ensemble des catégories selon lesquell ...@@ -123,12 +123,12 @@ distinctes aux deux époques. De plus, l'ensemble des catégories selon lesquell
les articles se répartissent diffère à chaque époque. Cela peut être dû à les articles se répartissent diffère à chaque époque. Cela peut être dû à
l'apparition d'une discipline entière comme par exemple «Industrie» dans *LGE* l'apparition d'une discipline entière comme par exemple «Industrie» dans *LGE*
qui aurait été anachronique dans la deuxième moitié du XVIII^ème^ siècle avant qui aurait été anachronique dans la deuxième moitié du XVIII^ème^ siècle avant
la révolution industrielle. Des redécoupages peut également avoir lieu: ainsi, la révolution industrielle. Des redécoupages peuvent également avoir lieu:
là où la *Géographie* se retrouvait dans le «Systême Figuré» des encyclopédistes ainsi, là où la *Géographie* se retrouvait dans le «Systême Figuré» des
des Lumières aux côté de l'*Uranographie* et de l'*Hydrographie* dans la encyclopédistes des Lumières aux côté de l'*Uranographie* et de l'*Hydrographie*
*Cosmographie*, au sein des sciences mathématiques[^uranographie], elle se dans la *Cosmographie*, au sein des sciences mathématiques[^uranographie], elle
retrouve associée à l'*Histoire* dans l'Avant-Propos de *LGE* qui en dresse le se retrouve associée à l'*Histoire* dans l'Avant-Propos de *LGE* qui en dresse
projet (La Grande Encyclopédie, T1, p.XI), comme l'illustre la figure le projet (La Grande Encyclopédie, T1, p.XI), comme l'illustre la figure
\ref{fig:evolution}[^chronologie]. D'ailleurs, si la liste des collaborateurs du \ref{fig:evolution}[^chronologie]. D'ailleurs, si la liste des collaborateurs du
projet n'associe pas chacun à une discipline précise, il est à noter que sur les projet n'associe pas chacun à une discipline précise, il est à noter que sur les
12 membres dont la qualité contient le mot «géographie», la moitié exactement 12 membres dont la qualité contient le mot «géographie», la moitié exactement
......
...@@ -26,7 +26,7 @@ utilisées par chacune. ...@@ -26,7 +26,7 @@ utilisées par chacune.
La majeure partie du travail de mise en forme et d'encodage du corpus fait La majeure partie du travail de mise en forme et d'encodage du corpus fait
l'objet du chapitre \ref{sec:corpus}. La description détaillée des deux œuvres l'objet du chapitre \ref{sec:corpus}. La description détaillée des deux œuvres
étudiées et de la structure des contenus que l'on peut y trouver y est suivie étudiées et de la structure des contenus que l'on peut y trouver est suivie
d'une discussion des efforts entrepris pour représenter le corpus et les d'une discussion des efforts entrepris pour représenter le corpus et les
métadonnées qui lui sont associées. Le chapitre introduit également la notion de métadonnées qui lui sont associées. Le chapitre introduit également la notion de
domaine de connaissance des articles, centrale dans le lien entre encyclopédies domaine de connaissance des articles, centrale dans le lien entre encyclopédies
...@@ -42,7 +42,7 @@ classifieur retenu à la totalité du corpus afin de pouvoir ajouter aux ...@@ -42,7 +42,7 @@ classifieur retenu à la totalité du corpus afin de pouvoir ajouter aux
métadonnées des articles le domaine dont ils relèvent. métadonnées des articles le domaine dont ils relèvent.
Enfin, le chapitre \ref{sec:contrasts} constitue l'aboutissement des deux Enfin, le chapitre \ref{sec:contrasts} constitue l'aboutissement des deux
précédent et se consacre aux analyses contrastives. Il commence par cerner la précédents et se consacre aux analyses contrastives. Il commence par cerner la
place accordée aux discours géographiques, de manière tout à fait quantitative place accordée aux discours géographiques, de manière tout à fait quantitative
d'abord puis, en s'intéressant aux transferts d'articles entre classes en d'abord puis, en s'intéressant aux transferts d'articles entre classes en
diachronie, de façon plus qualitative. La dernière étude qu'il contient observe diachronie, de façon plus qualitative. La dernière étude qu'il contient observe
...@@ -91,7 +91,7 @@ connaissance. ...@@ -91,7 +91,7 @@ connaissance.
#### Biographies et discours géographiques {.unnumbered .unlisted} #### Biographies et discours géographiques {.unnumbered .unlisted}
Enfin le chapitre \ref{sec:contrasts}, apporte des éléments nouveaux pour Enfin le chapitre \ref{sec:contrasts} apporte des éléments nouveaux pour
comprendre la place des biographies dans les articles de *Géographie*. En effet, comprendre la place des biographies dans les articles de *Géographie*. En effet,
il n'y a pas officiellement de notice biographique dans les pages de l'*EDdA* et il n'y a pas officiellement de notice biographique dans les pages de l'*EDdA* et
la biographie, genre discursif, ne s'intègre pas au «Systême» des domaines de la biographie, genre discursif, ne s'intègre pas au «Systême» des domaines de
...@@ -120,21 +120,20 @@ renvois précisent le numéro de la page où se trouve la figure ou la section ...@@ -120,21 +120,20 @@ renvois précisent le numéro de la page où se trouve la figure ou la section
mentionnée. Ces numéros de page sont parfois omis pour les renvois «proches» à mentionnée. Ces numéros de page sont parfois omis pour les renvois «proches» à
l'intérieur d'une même section ou à quelques pages d'intervalle. l'intérieur d'une même section ou à quelques pages d'intervalle.
En écrivant cette thèse il est en outre apparu que plusieurs sigles et En écrivant cette thèse il est en outre apparu que plusieurs sigles et acronymes
acronymes, par exemple des noms d'organisations ou de techniques, revenaient mais aussi du lexique scientifique revenaient assez souvent pour justifier la
assez souvent pour justifier la création d'un court création d'un court \hyperlink{glossary}{Glossaire} alphabétique de la
\hyperlink{glossary}{Glossaire} alphabétique de la terminologie du manuscrit. À terminologie du manuscrit. À leur première occurrence, les termes sont
leur première occurrence, les termes sont explicités, leurs initiales étant explicités, leurs initiales étant précisées entre parenthèses pour les
précisées entre parenthèses pour les acronymes. Les occurrences suivantes acronymes. Les occurrences suivantes n'utilisent plus que la version courte sous
n'utilisent plus que la version courte sous forme de lien hypertexte également. forme de lien hypertexte également. Ces liens, à la différence des renvois
Ces liens, à la différence des renvois précédents, ne sont jamais accompagnés de précédents, ne sont jamais accompagnés de la page où se trouve l'entrée: du
la page où se trouve l'entrée: du vocabulaire qui ne serait pas défini juste vocabulaire qui ne serait pas défini juste avant son utilisation est à chercher
avant son utilisation est à chercher dans le \hyperlink{glossary}{Glossaire} à dans le \hyperlink{glossary}{Glossaire} à partir de la page \pageref{glossary}.
partir de la page \pageref{glossary}. La version numérique est donc là encore La version numérique est donc là encore avantagée puisque de nombreux lecteurs
avantagée puisque de nombreux lecteurs PDF affichent une prévisualisation de la PDF affichent une prévisualisation de la cible d'un lien au survol avec la
cible d'un lien au survol avec la souris, ce qui suffit le plus souvent pour souris, ce qui suffit le plus souvent pour consulter ces définitions assez
consulter ces définitions assez brèves. Le format PDF est donc celui recommandé brèves. Le format PDF est donc celui recommandé pour lire cette thèse.
pour lire cette thèse.
Le manuscrit ne possède en revanche pas d'Annexe alors que cela est courant dans Le manuscrit ne possède en revanche pas d'Annexe alors que cela est courant dans
ce type de document pour présenter des tableaux de données, des algorithmes ce type de document pour présenter des tableaux de données, des algorithmes
...@@ -162,7 +161,7 @@ exemple d'[@=AA] pour Apprentissage Automatique (l'expression développée est ...@@ -162,7 +161,7 @@ exemple d'[@=AA] pour Apprentissage Automatique (l'expression développée est
parfois utilisée en français mais l'abréviation ML pour «Machine Learning» est parfois utilisée en français mais l'abréviation ML pour «Machine Learning» est
bien plus courante dans la littérature que «[@=AA]») ou pour [@=HN] qui peut bien plus courante dans la littérature que «[@=AA]») ou pour [@=HN] qui peut
surprendre par rapport à DH pour «Digital Humanities» alors qu'«Humanités surprendre par rapport à DH pour «Digital Humanities» alors qu'«Humanités
Numériques» se rencontre couramment. Par soucis d'homogénéité, ce sont pourtant Numériques» se rencontre couramment. Par souci d'homogénéité, ce sont pourtant
les versions francophones qui ont été préférées; dans tous les cas, le les versions francophones qui ont été préférées; dans tous les cas, le
\hyperlink{glossary}{Glossaire} est là (p.\pageref{glossary}) si besoin. Pour \hyperlink{glossary}{Glossaire} est là (p.\pageref{glossary}) si besoin. Pour
certains termes comme les noms de méthodes de classification automatique où certains termes comme les noms de méthodes de classification automatique où
......
...@@ -61,7 +61,7 @@ textes peuvent être assemblés pour former un corpus d'étude. ...@@ -61,7 +61,7 @@ textes peuvent être assemblés pour former un corpus d'étude.
correspond à l'approche de Quirk ou de Leech par exemple [@leon_histoire_2015, correspond à l'approche de Quirk ou de Leech par exemple [@leon_histoire_2015,
p.163] qui assemblent des textes choisis dans un but précis: l'étude est *basée p.163] qui assemblent des textes choisis dans un but précis: l'étude est *basée
sur un corpus*. À l'inverse, l'approche *corpus-driven* de Firth, Sinclair et sur un corpus*. À l'inverse, l'approche *corpus-driven* de Firth, Sinclair et
l'école londonienne avec eux requiert des textes intégraux par soucis l'école londonienne avec eux requiert des textes intégraux par souci
d'objectivité et d'authenticité des productions étudiées: c'est ce qui émerge du d'objectivité et d'authenticité des productions étudiées: c'est ce qui émerge du
corpus qui oriente l'analyse. corpus qui oriente l'analyse.
......
...@@ -22,7 +22,7 @@ donc à un mot unique du corpus), la composante associée dans le vecteur qui ...@@ -22,7 +22,7 @@ donc à un mot unique du corpus), la composante associée dans le vecteur qui
représente un document est un entier positif ou nul égal au nombre d'occurrences représente un document est un entier positif ou nul égal au nombre d'occurrences
du mot (sa fréquence) dans ce document. Le terme anglophone consacré est «*Bag du mot (sa fréquence) dans ce document. Le terme anglophone consacré est «*Bag
of Words*», et bien que ce terme soit le seul pour lequel l'équivalent français of Words*», et bien que ce terme soit le seul pour lequel l'équivalent français
s'emploie, l'acronyme *BoW* sera également utilisé dans ce qui suit par soucis s'emploie, l'acronyme *BoW* sera également utilisé dans ce qui suit par souci
d'homogénéité avec les autres méthodes. Cette approche produit des d'homogénéité avec les autres méthodes. Cette approche produit des
représentations vectorielles très grandes (beaucoup de nombres) et avec peu de représentations vectorielles très grandes (beaucoup de nombres) et avec peu de
valeurs non nulles (la plupart valent 0) car chaque document n'utilise qu'une valeurs non nulles (la plupart valent 0) car chaque document n'utilise qu'une
......
0% Loading or .
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment