Skip to content
Snippets Groups Projects
Commit a3152f8c authored by Alice Brenon's avatar Alice Brenon
Browse files

Merge branch 'main' into draft

parents e65656ba 4e78cc1d
No related branches found
No related tags found
No related merge requests found
## Application au corpus d'étude {#sec:classification_application}
## Annotation des articles {#sec:classification_application}
### Classification non supervisée
En complément des méthodes de classification supervisées, des tentatives ont été
faites pour utiliser de l'apprentissage supervisé, permettant d'étudier
faites pour utiliser de l'apprentissage non supervisé, permettant d'étudier
autrement les relations entre les contenus des articles, les systèmes de
classification et les prédictions générées automatiquement. Des techniques de
*clustering* ont ainsi été employées pour grouper automatiquement les articles
......@@ -383,9 +383,10 @@ raisons qui ont orienté le choix du modèle mais les occurrences répétées de
«Com.» pouvant évoquer un désignant mal filtré dans ces articles incorrectement
classés en *Commerce* sont pour le moins troublantes. Il n'est pas facile non
plus de tester cette hypothèse en contrôlant la lemmatisation de cette
abréviation puisque *BERT* attend en entrée le texte de l'article. L'opération
de lemmatisation, si elle a lieu, se produit au fil des couches de neurones
artificiels.
abréviation puisque *BERT* attend en entrée le texte de l'article. Il ne procède
pas à un découpage en mots en interne (il n'y a donc pas de lemmatisation) mais
se contente de grouper des graphèmes qui apparaissent fréquemment ensemble
(algorithme WordPiece).
De manière pragmatique, la solution la plus immédiate pour corriger le problème
au vu de la régularité de ces articles relativement brefs et possédant le motif
......
......@@ -403,13 +403,10 @@ TF-IDF* (1), *BiLSTM + FastText* (2) et *BERT* Multilingue (3).
Au-delà de l'importance du nombre d'articles par classes, ces résultats
soulignent la difficulté à distinguer entre certaines classes pour des raisons
lexicales ou sémantiques. Cela se voit clairement sur les figures
\ref{fig:F1Scores_BERTvsCAMEMBERT} à \ref{fig:res_per_class} pour la classe
*Arts et métiers*. Ce domaine est relativement maltraité par toutes les
méthodes, par comparaison avec d'autres classes ayant un nombre comparable
d'articles. Il est vraisemblable que ce domaine est souvent confondu avec la
classe *Métiers* qui est parmi les domaines les mieux représentés. Cette
hypothèse semble confirmée par la matrice de confusion de la figure
lexicales ou sémantiques comme cela était le cas pour *Arts et métiers* avec
*Métiers*. Ce domaine, parmi les mieux représentés, semble attirer à lui des
articles de nombreuses classes moins fréquentes mais proches sémantiquement.
Cette hypothèse semble confirmée par la matrice de confusion de la figure
\ref{fig:confusion_matrix}.
![Matrice de confusion matrix pour la combinaison *SGD+TF-IDF* sur le jeu de test.](figure/classification/SGD+TF-IDF_domainGroup/confusionMatrix.png){#fig:confusion_matrix width=63%}
......
......@@ -6,22 +6,18 @@ section s'intéresse au contraire aux erreurs qui subsistent dans leurs
prédictions. Faisant en effet l'hypothèse que les erreurs commises par le modèle
reflètent dans une certaine mesure les proximités qui existent entre les
domaines de connaissance elle se propose ainsi de comprendre les relations qui
lient la *Géographie* et les autres domaines de connaissance.
Comme pour la section précédente, le jeu d'étiquettes utilisé pour représenter
les domaines de connaissance dans cette section est celui des 38 *domaines
regroupés* (voir la section \ref{sec:domains_build_classes}
p.\pageref{sec:domain_groups}). En ce qui concerne le modèle dont les erreurs
seront étudiées, deux tendances gouvernent le choix. Il faut qu'elles soient
assez nombreuses pour fournir matière à observation et donc ne pas prendre le
meilleur, mais à l'inverse il est vraisemblable que les prédictions d'un
classifieur obtenant de trop mauvais résultats recèlent davantage de bruit que
de vérités profondes sur les contenus des articles. Pour ces deux raisons, c'est
le modèle *SGD+TF-IDF* entraîné sur tous les articles disponibles (colonne n°3
du tableau \ref{tab:result_1} p.\pageref{tab:result_1}) qui a été retenu pour
cette étude et sera utilisé tout au long de cette section. Ce modèle parvient à
classer correctement 9 630 des 11 702 articles, soit 82%. Ce sont les 2 072
autres, les erreurs, qui intéressent cette étude.
lient la *Géographie* aux autres domaines de connaissance.
Deux tendances gouvernent le choix d'un modèle dont étudier les erreurs. Il faut
qu'elles soient assez nombreuses pour fournir matière à observation et donc ne
pas prendre le meilleur, mais à l'inverse il est vraisemblable que les
prédictions d'un classifieur obtenant de trop mauvais résultats recèlent
davantage de bruit que de vérités profondes sur les contenus des articles. Pour
ces deux raisons, c'est le modèle *SGD+TF-IDF* entraîné sur tous les articles
disponibles (colonne n°3 du tableau \ref{tab:result_1} p.\pageref{tab:result_1})
qui a été retenu pour cette étude et sera utilisé tout au long de cette section.
Ce modèle parvient à classer correctement 9 630 des 11 702 articles, soit 82%.
Ce sont les 2 072 autres, les erreurs, qui intéressent cette étude.
### Des erreurs éloquentes {#sec:model_errors}
......@@ -105,12 +101,7 @@ unique et «correcte» pour un article donné.
Un point de départ simple pour cette étude consiste à étudier les faux négatifs
et les faux positifs des articles de *Géographie*. Sur les 2 621 articles de
cette classe présents dans le jeu de test, 191 ont été mal classés par le
modèle. Dans le formalisme introduit au début de cette partie, une «erreur de
classification» signifie que le modèle n'a pas réussi à prédire le *domaine
regroupé* obtenu à l'issue de la conversion depuis l'*ensemble de domaines*
associé à un article donné par l'[@=ENCCRE], soit après normalisation des
désignants présents dans l'article (1^ère^ source) soit en fonction de son
propre travail éditorial (2^ème^ source).
modèle.
##### Faux négatifs
......
......@@ -24,9 +24,9 @@ autres domaines de connaissance dans la partie du corpus correspondant à *LGE*
p.\pageref{sec:geography_edge_words_count}). Des articles plus longs
apparaissent dans le domaine, particulièrement bref par contraste dans l'*EDdA*.
Une autre conséquence de ces rapprochements peut s'observer en considérant les
occurrences d'EN comme le fait la section \ref{sec:geo_named_entities}
occurrences d'[@=EN] comme le fait la section \ref{sec:geo_named_entities}
(p.\pageref{sec:geo_named_entities}). Alors que les philosophes des Lumières
emploient surtout les EN dans les articles de la classe *Géographie*, le profil
emploient surtout les [@=EN] dans les articles de la classe *Géographie*, le profil
d'utilisation des différents types relevés dans l'annotation géo-sémantique des
articles s'harmonise entre les disciplines. Les noms propres de lieu en
particulier (NP-Spatial) se propagent dans une certaine mesure aux autres
......
......@@ -327,7 +327,7 @@ corrobore également l'hypothèse de sa disciplinarisation.
Intuitivement, la Géographie en tant que science descriptive de l'espace
terrestre renvoie à la notion de lieu et en particulier de lieu nommé. Le
concept d'Entité Nommée (EN) paraît donc un angle d'approche tout à fait
concept d'Entité Nommée ([@=EN]) paraît donc un angle d'approche tout à fait
approprié pour étudier les articles encyclopédiques du corpus et on peut faire
l'hypothèse que ces entités seront particulièrement présentes dans les articles
de *Géographie*.
......@@ -353,10 +353,10 @@ de l'ambiguïté des prépositions et du vocabulaire dans de nombreux
langages — illustrée par exemple pour l'anglais par
@kordjamshidi_spatial_2010[p.3].
Mais les discours géographiques, au-delà de leur densité en EN, présentent aussi
un intérêt dans la manière dont ils les mettent en relation ainsi que dans le
vocabulaire qu'ils utilisent pour les catégoriser. On peut ainsi penser, dans le
contexte précis de ce corpus d'étude à la différence significative entre des
Mais les discours géographiques, au-delà de leur densité en [@=EN], présentent
aussi un intérêt dans la manière dont ils les mettent en relation ainsi que dans
le vocabulaire qu'ils utilisent pour les catégoriser. On peut ainsi penser, dans
le contexte précis de ce corpus d'étude à la différence significative entre des
termes comme «paroisse» et «commune». C'est pourquoi une annotation
géo-sémantique riche a été retenue plutôt qu'une annotation en entités nommées
classiques pour examiner l’hypothèse formulée au début de cette sous-section. Le
......@@ -420,7 +420,7 @@ donc leurs sommes pondérées, c'est-à-dire en fait les décomptes d'entités d
type donné dans toute l'*EDdA*, divisés par le nombre de mots de cette
encyclopédie.
![Densité d'entités dans l'*EDdA* par domaine et par type](figure/entities/EDdA_density.png){#fig:ene_edda width=70%}
![Densité d'entités dans l'*EDdA* par domaine et par type](figure/entities/EDdA_density.png){#fig:ene_edda width=90%}
Les sommes horizontales s'effectuent au contraire sans problème, mais il faut
garder à l'esprit qu'elles représentent un nombre d'entités et pas un nombre de
......@@ -473,12 +473,12 @@ Les autres types d'entités particulières, celles de personnes, présentent une
distribution beaucoup plus homogène entre les domaines. Les `NC-Person` sont
ainsi bien plus uniformément réparties que les `NC-Spatial`, et les `NP-Person`
atteignent une densité proche de 2%, son maximum, dans trois domaines. Il est à
noter que ce dernier type d'EN est bien représenté en *Géographie*, où il très
légèrement plus fréquent qu'en *Histoire* alors que les EN de type *NP-Spatial*
étaient bien moins fréquents en *Histoire* qu'en *Géographie*. Les entités de
personnes n'apparaissent donc pas comme caractéristiques d'un domaine en
particulier mais s'observent avec des combinaisons de densités variées entre les
`NC-Person`, `NP-Person` et `ENE-Person` en fonction des domaines.
noter que ce dernier type d'[@=EN] est bien représenté en *Géographie*, où il
très légèrement plus fréquent qu'en *Histoire* alors que les [@=EN] de type
*NP-Spatial* étaient bien moins fréquents en *Histoire* qu'en *Géographie*. Les
entités de personnes n'apparaissent donc pas comme caractéristiques d'un domaine
en particulier mais s'observent avec des combinaisons de densités variées entre
les `NC-Person`, `NP-Person` et `ENE-Person` en fonction des domaines.
La figure \ref{fig:ene_lge} qui montre les mêmes statistiques mais pour *LGE*
offre un aspect tout à fait différent. La *Géographie* y conserve la place de
......@@ -502,7 +502,7 @@ la totalité de *LGE*, soit environ deux fois et demie plus que dans l'*EDdA*. L
densité totale d'entités dans cette encyclopédie s'est beaucoup accrue,
atteignant 7.5% soit plus d'une fois et demie celle dans les pages de l'*EDdA*.
![Densité des ENE dans *LGE* par domaine et par type d'ENE](figure/entities/LGE_density.png){#fig:ene_lge width=70%}
![Densité des ENE dans *LGE* par domaine et par type d'ENE](figure/entities/LGE_density.png){#fig:ene_lge width=90%}
Il y a donc dans ces encyclopédies deux mouvements simultanés et contraires au
niveau des entités entre le XVIII^ème^ et le XIX^ème^ siècle. D'une part les
......
Ce dernier chapitre qui s'ouvre permet l'aboutissement des efforts déployés dans
les deux précédents en développant des études contrastives en diachronie entre
l'*EDdA* et *LGE*. Le chapitre \ref{sec:corpus} fournit un corpus structuré et
développe la notion de domaine de connaissance, centrale pour la classification
qui est appliquée aux articles au chapitre \ref{sec:domains_classification}.
Ce dernier chapitre qui s'ouvre constitue une mise en pratique des données
préparés dans le cadre de cette thèse. Le chapitre \ref{sec:corpus} fournit en
effet un corpus structuré et développe la notion de domaine de connaissance,
centrale pour la classification qui est appliquée aux articles au chapitre
\ref{sec:domains_classification}. Les analyses contrastives en diachronie
conduites dans le présent chapitre entre l'*EDdA* et *LGE* permettent de
démontrer l'utilité et la pertinence des efforts déployés dans les deux
précédents.
Tout en gardant bien à l'esprit les réserves émises à l'Introduction sur la
différence entre d'une part la Géographie en tant que discipline et d'autre part
les discours qui peuvent relever de la géographie (voir \ref{sec:intro_strategy}
......
......@@ -2,4 +2,4 @@ l'American and French Research on the Treasury of the French Language
(«Recherche américaine et française sur les trésors de la langue française») est
une collaboration du laboratoire ATILF, du CNRS et de l'Université de Chicago.
Le projet donne accès à un vaste corpus de textes anciens en français.
[https://artfl-project.uchicago.edu/](https://artfl-project.uchicago.edu/)
[https://artfl-project.uchicago.edu/](https://artfl-project.uchicago.edu/).
*Entité Nommée* (*Named Entity* en anglais) désigne une unité d'information dans
un texte, souvent un mot ou un groupe de quelques mots qui renvoient à un objet
unique dans le contexte. Plus large que la notion de nom propre, il englobe par
exemple les noms de personne, d'organisation ou d'endroit, les dates ou les
grandeurs pourvues d'une unité.
*Entité Nommée Étendue* désigne un groupe de mots structuré en une construction
qui dépasse le cadre des entités nommées (EN) pour inclure les éléments présents
autour: principalement des noms communs et des relations. Les ENE se bâtissent
qui dépasse le cadre des [@=EN] pour inclure les éléments présents autour:
principalement des noms communs et des relations. Les ENE se bâtissent
récursivement, pouvant inclure d'autres ENE, pour constituer de petits arbres
autours des entités nommées.
......@@ -9,10 +9,10 @@ lieu, constituée d'un nom commun de lieu qui lui donne son type (c'est un
kiosque), d'une relation spatiale «dans» (traduisant l'inclusion), et d'une ENE:
«le parc Sainte-Marie». À son tour, celle-ci se décompose en un nom commun de
lieu (c'est un parc), et un nom propre, «Sainte-Marie», qui sans l'apport des
ENE aurait probablement été la seule EN simple retenue pour toute l'expression.
Il est intéressant de voir que le nom propre apporte pourtant peu d'information
en lui-même, et qu'il n'est possible de percevoir sa dimension spatiale qu'avec
l'ajout du nom commun «parc» (il existe peut-être par exemple une «communauté
Sainte-Marie» qui pourrait être une organisation et pas un lieu) ce qui souligne
l'utilité des ENE pour la désambiguïsation et les tâches de compréhension
automatique.
ENE aurait probablement été la seule [@=EN] simple retenue pour toute
l'expression. Il est intéressant de voir que le nom propre apporte pourtant peu
d'information en lui-même, et qu'il n'est possible de percevoir sa dimension
spatiale qu'avec l'ajout du nom commun «parc» (il existe peut-être par exemple
une «communauté Sainte-Marie» qui pourrait être une organisation et pas un lieu)
ce qui souligne l'utilité des ENE pour la désambiguïsation et les tâches de
compréhension automatique.
*Latent Dirichlet Allocation*, procédé de réduction de dimension permettant de
mettre en évidence des classes de ressemblances présentes dans les données
d'entrée. C'est une technique de [@=Topic Modeling]
d'entrée. C'est une technique de [@=Topic Modeling].
*Universal Dependencies*, sont une convention d'annotation grammaticale
comprenant des jeux d'étiquettes à plusieurs niveaux (morphosyntaxe,
morphologie et syntaxe en dépendance) conçu pour être commun à un grand nombre
des langues humaines les plus étudiées, ce qui permet notamment de pouvoir
travailler sur des corpus multilingues.
[https://universaldependencies.org/](https://universaldependencies.org/)
comprenant des jeux d'étiquettes à plusieurs niveaux (morphosyntaxe, morphologie
et syntaxe en dépendance) conçu pour être commun à un grand nombre des langues
humaines les plus étudiées, ce qui permet notamment de pouvoir travailler sur
des corpus multilingues
([https://universaldependencies.org/](https://universaldependencies.org/)).
......@@ -85,9 +85,9 @@ de la «mappemonde» que constitue le «Systême Figuré des connoissances humai
un «arbre encyclopédique» matérialisé sous forme d'une gravure au tome 1^er^
dans le but de montrer une vue d'ensemble des liens entre sciences.
\label{geo_nations}La relation entre Géographie et encyclopédies sur laquelle
s'ouvrait cette section est donc en réalité à double-sens: à la Géographie comme
science encyclopédique, nourrie de toutes les autres, s'ajoute la pratique
\label{geo_nations}La relation entre Géographie et encyclopédies à l'origine de
cette réflexion est donc en réalité à double-sens: à la Géographie comme science
encyclopédique, nourrie de toutes les autres, s'ajoute la pratique
encyclopédique comme une «géographie des sciences» dont elle révèle le paysage.
Cependant, au-delà de cette relation, la Géographie est soumise aux XVIII^ème^
et XIX^ème^ siècles à des forces transformatrices profondes.
......
## Réflexions prospectives {#sec:intro_forethoughts}
### Stratégie {#sec:intro_strategy .unnumbered .unlisted}
La problématique dégagée dans la section précédente invite à adopter une
démarche contrastive, selon deux axes. Le premier, temporel, est celui de la
diachronie puisqu'il s'agit de comparer les discours du genre encyclopédique à
### Problématique {#sec:intro_issue .unnumbered .unlisted}
Le lien privilégié qui unit les encyclopédies à la Géographie amène à
s'interroger sur les effets qu'ont pu avoir dans ce type d'ouvrages les
changements subis par la discipline après le siècle des Lumières. Puisqu'il y a
lieu de faire l'hypothèse que ces mutations ont eu des conséquences sur la
manière dont on écrit la Géographie, il faut se donner les moyens d'observer
leurs effets, ce qui constitue l'enjeu principal de cette thèse.
La question que soulève immédiatement une telle problématique concerne donc les
moyens d'accéder aux discours géographiques présents dans les encyclopédies du
corpus. De nombreux projets en [@=HN] ont déjà développé des outils pour traiter
des textes antérieurs au XX^ème^ siècle; d'autres s'intéressent à l'importance
d'un ensemble d'articles pour une discipline en particulier mais sans intégrer
d'analyse de discours et sans les opposer aux autres sciences. Ici, l'objectif
est à la fois de pouvoir traiter les textes des encyclopédies dans leur ensemble
à l'aide de méthodes automatiques et, simultanément, d'être à tout moment
capable de restreindre l'étude à des sous-corpus pertinents ou d'adopter une
démarche contrastive, principalement selon deux axes. Le premier, celui du champ
disciplinaire, repose sur la possibilité d'identifier des discours géographiques
par opposition à d'autres qui ne relèveraient pas du même domaine. Le deuxième
axe est temporel puisqu'il faut comparer les discours du genre encyclopédique à
deux époques: le XVIII^ème^ d'une part et le tournant des XIX^ème^ et XX^ème^
siècles d'autre part. Le deuxième axe utilisé pour faire contraster les textes du
corpus, celui du champ disciplinaire, repose sur la possibilité d'identifier des
discours géographiques par opposition à d'autres qui ne relèveraient pas de la
discipline.
La «cartographie» des sciences entreprise par les encyclopédistes se matérialise
par la répartition des articles entre les différentes sciences en fonction des
concepts dont ils traitent. Très simplement, la stratégie qui forme la ligne
directrice de cette thèse va donc consister à partitionner les articles
d'encyclopédie du corpus suivant l'œuvre dont ils sont issus pour la première
dimension et suivant le domaine de connaissance dont ils relèvent pour la
deuxième. Mais il est une évidence apparente qui doit être critiquée sous peine
de fragiliser la démarche dans son ensemble: celle de l'identification implicite
entre d'une part la discipline "géographie" et d'autre part l'ensemble des
articles assignés à cette discipline par le choix éditorial des encyclopédistes.
Si la première peut être initialement définie en tant qu'un ensemble vivant de
pratiques et de savoirs, elle renvoie intuitivement à une notion plus vaste et
plus immatérielle. Au contraire la seconde, purement arbitraire, n'a d'existence
que concrète et contingente au travers des articles qui la constituent. Ces
articles ne sont que l'echo de la discipline, arrivant nécessairement en retard
par rapport à ses progrès: ils sont écrits après réverberation dans un ou
plusieurs des dictionnaires universels dans lesquels les encyclopédistes ont
puisé leurs sources, parfois d'après des récits de voyages passés. Une
expression du XVIII^ème^ siècle illustre parfaitement cette source
d'information: «terme de relation» [@quemada_dictionnaires_1968, p.309], qui
qualifie certaines entrées dans l'*EDdA* et sous-entend le mot «voyage». Il
s'agit en effet du vocabulaire fréquemment utilisé lorsqu'un texte relate un
voyage, le plus souvent une francisation d'un mot de la langue parlée dans le
pays visité comme PILAU (L'Encyclopédie, T12, p.618) emprunté au Turc pour
parler de la cuisson du riz.
siècles d'autre part.
Cette thématique de recherche mobilise plusieurs des apports de l'informatiques
aux [@=HN]. Il est d'abord nécessaire de déterminer un encodage qui convienne à
la fois à l'*EDdA* et à *LGE* malgré leur différences, de façon à pouvoir
regrouper les deux œuvres au sein d'un même corpus et leur appliquer les mêmes
traitements puis les mêmes analyses. Cette tâche de normalisation, avec celle
d'organisation des textes et des métadonnées représente un important travail
d'ingénierie des données. À ces efforts s'ajoutent ceux à fournir pour
identifier les discours pouvant relever de la Géographie. La «cartographie» des
sciences entreprise par les encyclopédistes se matérialise par la répartition
des articles entre les différentes sciences en fonction des concepts dont ils
traitent. À cette échelle, associer un même domaine de connaissance à des
articles des deux encyclopédies prend la forme d'un problème de classification.
Plus près des phrases, l'annotation automatisée des textes et l'écriture de
requêtes basées sur des critères lexicaux ou syntaxiques, faisant appel à la
fois à l'informatique et aux sciences du langage, permet de mettre en évidence
des motifs utiles.
### La Géographie et ses traces {#sec:intro_strategy .unnumbered .unlisted}
Au niveau des articles entiers, une évidence apparente doit toutefois être
critiquée sous peine de fragiliser la démarche dans son ensemble: celle de
l'identification implicite entre d'une part la discipline "géographie" et
d'autre part l'ensemble des articles assignés à cette discipline par le choix
éditorial des encyclopédistes. Si la première peut être initialement définie en
tant qu'un ensemble vivant de pratiques et de savoirs, elle renvoie
intuitivement à une notion plus vaste et plus immatérielle. Au contraire la
seconde, purement arbitraire, n'a d'existence que concrète et contingente au
travers des articles qui la constituent. Ces articles ne sont que l'echo de la
discipline, arrivant nécessairement en retard par rapport à ses progrès: ils
sont écrits après réverberation dans un ou plusieurs des dictionnaires
universels dans lesquels les encyclopédistes ont puisé leurs sources, parfois
d'après des récits de voyages passés. Une expression du XVIII^ème^ siècle
illustre parfaitement cette source d'information: «terme de relation»
[@quemada_dictionnaires_1968, p.309], qui qualifie certaines entrées dans
l'*EDdA* et sous-entend le mot «voyage». Il s'agit en effet du vocabulaire
fréquemment utilisé lorsqu'un texte relate un voyage, le plus souvent une
francisation d'un mot de la langue parlée dans le pays visité comme PILAU
(L'Encyclopédie, T12, p.618) emprunté au Turc pour parler de la cuisson du riz.
L'objet qui intéresse fondamentalement cette thèse est bien sûr la Géographie en
tant que discipline (qu'on distinguera typographiquement en conservant la
......@@ -63,7 +90,7 @@ elle-même, elle est nécessairement irrégulière et probablement lacunaire. C'
la raison pour laquelle les mesures sont réparties aléatoirement sur la figure
\ref{fig:sampling} plutôt qu'espacées entre elles d'un pas constant comme cela
aurait été le cas sur un graphe similaire destiné à illustrer un vrai processus
d'échantillonnage, par exemple d'un signal accoustique. Il s'agit donc de
d'échantillonnage, par exemple d'un signal accoustique. Le problème est donc de
travailler à partir d'une «trace» de la Géographie, passée et finie, sans
pouvoir limiter ni même seulement connaître la quantité d'information perdue par
rapport au «signal» que constituerait la discipline géographique. C'est pourtant
......@@ -79,15 +106,14 @@ distinction à l'esprit.
### Faire correspondre des époques {#sec:mapping_ages .unnumbered .unlisted}
À la lumière de la remarque ci-dessus, apparaît un deuxième questionnement sur
l'identité des objets qu'il s'agit de comparer. En effet, puisqu'il est
impossible d'accéder directement à la Géographie de chaque époque et qu'il faut
se contenter de ses traces sous forme d'ensembles d'articles, il est naturel de
s'interroger sur le bien-fondé d'une mise en regard de ces ensembles au seul
prétexte qu'ils sont estampillés *Géographie* chacun à leur époque.
Intuitivement, l'identité paraît évidente car c'est bien la même discipline qui
a évolué continûment d'une époque à l'autre, et les encyclopédistes de chaque
époque ont choisi les articles qu'ils considéraient relever de cette même
discipline.
l'identité des objets à comparer. En effet, puisqu'il est impossible d'accéder
directement à la Géographie de chaque époque et qu'il faut se contenter de ses
traces sous forme d'ensembles d'articles, il est naturel de s'interroger sur le
bien-fondé d'une mise en regard de ces ensembles au seul prétexte qu'ils sont
estampillés *Géographie* chacun à leur époque. Intuitivement, l'identité paraît
évidente car c'est bien la même discipline qui a évolué continûment d'une époque
à l'autre, et les encyclopédistes de chaque époque ont choisi les articles
qu'ils considéraient relever de cette même discipline.
Mais en toute rigueur, avec les seuls éléments disponibles — c'est-à-dire des
collections d'articles non seulement finies mais surtout disjointes, sans
......
......@@ -51,6 +51,10 @@ cas notoire des biographies dans les articles de géographie.
### Contributions {.unnumbered .unlisted}
Les recherches présentées dans ce manuscrit se situent à l'interface de
l'informatique et des sciences du langage mais la répartition des trois
contributions entre ces deux sciences reste nettement en faveur de la première.
#### Version numérique structurée de *LGE* {.unnumbered .unlisted}
Présentée au chapitre \ref{sec:corpus}, la publication de la première version
......@@ -102,10 +106,10 @@ pour rendre compte des liens qui unissent les biographies et la Géographie.
### Choix {.unnumbered .unlisted}
Le présent manuscrit comporte un certain nombre de choix et de partis pris qu'il
est bon d'avoir en tête avant d'entamer sa lecture et qui tiennent en partie à
son caractère autoréférentiel. Au contact du genre encyclopédique, il a fini par
en prendre certaines caractéristiques.
La rédaction de ce manuscrit a fait l'objet d'un certain nombre de choix et de
partis pris qu'il est bon d'avoir en tête avant d'entamer sa lecture et qui
tiennent en partie à son caractère autoréférentiel. Au contact du genre
encyclopédique, il a fini par en prendre certaines caractéristiques.
Le texte comporte des renvois fréquents, non seulement à des figures mais
également à des sections ou à des passages précis dans le texte pour éviter de
......
......@@ -604,7 +604,7 @@
number = {2},
urldate = {2023-02-16},
journal = {Langue française},
author = {Vigier, Denis and Moncla, Ludovic and Lefort, Isabelle and Joliveau, Thierry and Mac Donough, Katherine},
author = {Vigier, Denis and Moncla, Ludovic and Lefort, Isabelle and Joliveau, Thierry and McDonough, Katherine},
month = jun,
year = {2022},
pages = {59--80},
......@@ -1479,7 +1479,7 @@ Dans leur diversité, les articles des Varia 2023 portent sur un discours de Ma
issn = {1945-3604},
url = {https://journals.colorado.edu/index.php/lilt/article/view/1245},
doi = {10.33011/lilt.v6i.1245},
abstract = {Today's students might be faced with a very different set of challenges from those of the 1990s in the not-too-distant future. What should they do when most of the low hanging fruit has been pretty much picked over?
abstract = {Today's students might be faced with a very different set of challenges from those of the 1990s in the not-too-distant future. What should they do when most of the low hanging fruit has been pretty much picked over?
In the particular case of Machine Translation, the revival of statistical approaches (e.g., Brown et al. (1993)) started out with finite-state methods for pragmatic reasons, but gradually over time, researchers have become more and more receptive to the use of syntax to capture long-distance dependences, especially when there isn't very much parallel corpora, and for language pairs with very different word orders (e.g., translating between a subject-verb-object (SVO) language like English and a verb final language like Japanese). Going forward, we should expect Machine Translation research to make more and more use of richer and richer linguistic representations. So too, there will soon be a day when stress will become important for speech recognition.
Since it isn't possible for textbooks in computational linguistics to cover all of these topics, we should work with colleagues in other departments to make sure that students receive an education that is broad enough to prepare them for all possible futures, or at least all probable futures.},
urldate = {2023-08-28},
......@@ -1792,7 +1792,7 @@ Since it isn't possible for textbooks in computational linguistics to cover all
BOOKTITLE = {{9th Workshop on Geographic Information Retrieval}},
ADDRESS = {Paris, France},
YEAR = {2015},
MONTH = Nov,
MONTH = {Nov},
DOI = {10.1145/2837689.2837700},
KEYWORDS = {geo-semantic tagging ; text annotation ;
expanded named entity},
......@@ -2197,7 +2197,7 @@ Since it isn't possible for textbooks in computational linguistics to cover all
author = "Nadeau, David and Sekine, Satoshi",
title = "A survey of named entity recognition and classification",
journal= "Lingvisticæ Investigationes",
year = "2007",
year = {2007},
volume = "30",
number = "1",
pages = "3-26",
......@@ -2446,7 +2446,7 @@ Since it isn't possible for textbooks in computational linguistics to cover all
type = {ISO},
number = {ISO 8879:1986},
year = {1986},
month = oct,
month = {oct},
date = 15,
}
......@@ -2457,7 +2457,7 @@ Since it isn't possible for textbooks in computational linguistics to cover all
BOOKTITLE = {{First International Workshop on Geographic Information Extraction from Texts (GeoExT)}},
ADDRESS = {Dublin, Ireland},
YEAR = {2023},
MONTH = Apr,
MONTH = {apr},
KEYWORDS = {Geoparsing ; geocoding ; named entity recognition ; toponym disambiguation},
PDF = {https://hal.science/hal-04049794/file/GeoExT___ECIR_2023.pdf},
HAL_ID = {hal-04049794},
......@@ -4064,7 +4064,7 @@ year = {2018},
and Ortolja-Baird, Alexandra",
title="Named-entity recognition for early modern textual documents: a review of capabilities and challenges with strategies for the future",
journal="Journal of Documentation",
year="2021",
year={2021},
month="Jan",
day="01",
publisher="Emerald Publishing Limited",
......
0% Loading or .
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment