Skip to content
GitLab
Explore
Sign in
Primary navigation
Search or go to…
Project
M
manuscrit
Manage
Activity
Members
Labels
Plan
Issues
0
Issue boards
Milestones
Wiki
Code
Merge requests
0
Repository
Branches
Commits
Tags
Repository graph
Compare revisions
Snippets
Build
Pipelines
Jobs
Pipeline schedules
Artifacts
Deploy
Releases
Package Registry
Model registry
Operate
Environments
Terraform modules
Monitor
Incidents
Analyze
Value stream analytics
Contributor analytics
CI/CD analytics
Repository analytics
Model experiments
Help
Help
Support
GitLab documentation
Compare GitLab plans
Community forum
Contribute to GitLab
Provide feedback
Keyboard shortcuts
?
Snippets
Groups
Projects
Show more breadcrumbs
Alice Brenon
manuscrit
Commits
69658be6
Commit
69658be6
authored
2 months ago
by
Alice Brenon
Browse files
Options
Downloads
Patches
Plain Diff
Proofread the conclusion
parent
39bef38f
No related branches found
No related tags found
No related merge requests found
Changes
2
Hide whitespace changes
Inline
Side-by-side
Showing
2 changed files
Conclusion/Bilan.md
+10
-9
10 additions, 9 deletions
Conclusion/Bilan.md
Conclusion/Ouverture.md
+10
-10
10 additions, 10 deletions
Conclusion/Ouverture.md
with
20 additions
and
19 deletions
Conclusion/Bilan.md
+
10
−
9
View file @
69658be6
...
...
@@ -17,7 +17,7 @@ face à des contraintes difficiles à anticiper imposées par les données et le
outils utilisés. Cela se manifeste par exemple dans la décision de croiser les
sources de l'[@=ARTFL] et de l'[@=ENCCRE] pour associer un domaine de
connaissance aux textes des articles, ou encore sur des modifications en cours
de projet de la structure
s
des métadonnées — dont la clef primaire des textes
de projet de la structure des métadonnées — dont la clef primaire des textes
(voir la section
\r
ef{metadata_primary_key} page
\p
ageref{metadata_primary_key}
à ce sujet). L'ensemble de la chaîne de traitement repose donc sur la
composition d'éléments individuellement simples plutôt que sur un bloc
...
...
@@ -41,11 +41,11 @@ existants, et des scripts servent à mettre en forme les données, charger des
librairies ou extraire leurs résultats. L'avantage majeur de la démarche suivie
réside dans la modularité qu'elle offre: en séparant les différentes
représentations des textes et les métadonnées qu'elle leur associe, elle permet
une grande liberté pour les combiner et format
t
er les données en vue de
nouvelles
analyses, parfois propres seulement à un sous-corpus. Enfin, au niveau
des
discours qui composent les articles, la spécificité de la méthode utilisée
se
situe dans la mise en regard d'études quantitatives et qualitatives, là
encore
en utilisant des logiciels répandus en analyse textuelle des données.
une grande liberté pour les combiner et formater les données en vue de
nouvelles
analyses, parfois propres seulement à un sous-corpus. Enfin, au niveau
des
discours qui composent les articles, la spécificité de la méthode utilisée
se
situe dans la mise en regard d'études quantitatives et qualitatives, là
encore
en utilisant des logiciels répandus en analyse textuelle des données.
Dans l'ensemble, le code produit dans le cadre de cette thèse remplit donc
essentiellement trois fonctions: il modélise la structure du corpus pour
...
...
@@ -72,7 +72,8 @@ accès aux mêmes techniques de reproductibilité et ont déjà été portées s
davantage de plateformes. En outre, ces technologies nouvelles permettent de
générer des environnements sous de nombreux formats comme des archives portables
ou des conteneurs qui peuvent être déployés sur la plupart des plateformes
existantes, sans que
`guix`
ou
`nix`
eux-même n'aient besoin d'y être installés.
existantes, sans que
`guix`
ou
`nix`
eux-mêmes n'aient besoin d'y être
installés.
Enfin, les formats aussi suivent cette logique de réemploi et de modularité. Les
représentations intermédiaires des textes utilisent des standards ouverts comme
...
...
@@ -91,7 +92,7 @@ est disponible.
### Les facettes de la disciplinarisation {.unnumbered .unlisted}
L'étude diachronique des changements survenus dans les discours géographiques
joue un double rôle dans ce manuscrit. Elle rev
e
t d'abord une valeur
joue un double rôle dans ce manuscrit. Elle rev
ê
t d'abord une valeur
illustrative, essentielle pour montrer la pertinence des méthodes proposées.
Cependant, elle possède également une valeur intrinsèque dans la perspective du
projet GEODE qui s'intéresse aux changements subis par la Géographie dans les
...
...
@@ -130,7 +131,7 @@ des articles du domaine dans l'*EDdA* étaient extrêmements brefs et constitué
d'une longue phrase nominale. Cette tendance, propre au domaine, s'accroît dans
*LGE*
, où ces articles se font plus nombreux et où le recours presque
systématique aux abréviations se double d'un «figement» des différents
compléments qui composent la phrase nominale, jusqu'à l'obten
s
ion de données
compléments qui composent la phrase nominale, jusqu'à l'obten
t
ion de données
pour ainsi dire tabulaires. Par ailleurs, d'un domaine central et en quelque
sorte «refuge» pour de nombreuses entrées peu scientifiques (mythologie et
phénomènes naturels inexpliqués entre autres), les discours géographiques
...
...
This diff is collapsed.
Click to expand it.
Conclusion/Ouverture.md
+
10
−
10
View file @
69658be6
...
...
@@ -47,11 +47,11 @@ capable de reconnaître ces fonctions. Des F-mesures légèrement supérieures
avéré impossible d'améliorer ces scores, en particulier pour certaines classes
restant à des valeurs nettement inférieures. Cet échec relatif amène plusieurs
pistes de réflexion pour de futurs travaux. Un travail théorique plus poussé
permettrait de vérifier la pertinence des classes choisies
ou au contraire de
les invalider. Il faudrait sans
doute également s'assurer de la représentativité
des exemples annotés pour
l'instant, ou tenter simplement de poursuivre
l'annotation en espérant atteindre un seuil qui permettrait des gains
significatifs grâce à la seule masse de
données.
permettrait de vérifier la pertinence des classes choisies
. Il faudrait sans
doute également s'assurer de la représentativité
des exemples annotés pour
l'instant, ou tenter simplement de poursuivre
l'annotation en espérant atteindre
un seuil qui permettrait des gains significatifs grâce à la seule masse de
données.
Outre les besoins propres à cette étude pour l'instant mise en pause, d'autres
améliorations de la qualité de l'encodage de
*LGE*
paraissent encore
...
...
@@ -61,15 +61,15 @@ permettrait de les décrire. En effet celles-ci se composent souvent de plusieur
mots, dont certains peuvent employer des minuscules ou des petites majuscules,
jusqu'à pouvoir s'étendre sur plusieurs lignes alors que l'encodage actuel ne
conserve que le premier mot en majuscules. Un travail similaire d'identification
des motifs présents
en
fin d
'
articles pourrait donner accès à une métadonnée
des motifs présents
à la
fin d
es
articles pourrait donner accès à une métadonnée
précieuse comme les auteurs des articles, souvent mentionnés et parfois
différents d'une partie à l'autre d'un article (et qu'il pourrait donc être
intéressant d'associer au niveau des paragraphes quand celui-ci sera
disponible). Un tel effort devrait idéalement prendre aussi en compte
l'important travail de bibliographie réalisé dans
*LGE*
, pour pouvoir
les
encoder
correctement et les traiter sépar
em
ment. Il y a en effet peu
d'intérêt à
annoter ce genre de contenu
en syntaxe (ce qui est malheureusement fait dans
l'état
actuel de la chaîne), alors qu'à l'inverse
elle
pourrait constituer des
l'important travail de bibliographie réalisé dans
*LGE*
, pour pouvoir
encoder
ces contenus
correctement et les traiter sépar
é
ment. Il y a en effet peu
d'intérêt à les annoter
en syntaxe (ce qui est malheureusement fait dans
l'état
actuel de la chaîne), alors qu'à l'inverse
ils
pourrai
en
t constituer des
métadonnées précieuses pour comprendre le paysage académique de référence de
l'époque. Enfin, la résolution des renvois représente certainement le problème
le plus délicat pour plusieurs raisons. L'imprécision de l'[@=OCR] d'abord rend
...
...
This diff is collapsed.
Click to expand it.
Preview
0%
Loading
Try again
or
attach a new file
.
Cancel
You are about to add
0
people
to the discussion. Proceed with caution.
Finish editing this message first!
Save comment
Cancel
Please
register
or
sign in
to comment