Skip to content
GitLab
Explore
Sign in
Primary navigation
Search or go to…
Project
M
manuscrit
Manage
Activity
Members
Labels
Plan
Issues
0
Issue boards
Milestones
Wiki
Code
Merge requests
0
Repository
Branches
Commits
Tags
Repository graph
Compare revisions
Snippets
Build
Pipelines
Jobs
Pipeline schedules
Artifacts
Deploy
Releases
Package Registry
Model registry
Operate
Environments
Terraform modules
Monitor
Incidents
Analyze
Value stream analytics
Contributor analytics
CI/CD analytics
Repository analytics
Model experiments
Help
Help
Support
GitLab documentation
Compare GitLab plans
Community forum
Contribute to GitLab
Provide feedback
Keyboard shortcuts
?
Snippets
Groups
Projects
Show more breadcrumbs
Alice Brenon
manuscrit
Commits
5de4591c
Commit
5de4591c
authored
3 months ago
by
Alice Brenon
Browse files
Options
Downloads
Patches
Plain Diff
Proofread to the end of Chapt.3 Corpus
parent
d0395902
No related branches found
Branches containing commit
No related tags found
No related merge requests found
Changes
4
Hide whitespace changes
Inline
Side-by-side
Showing
4 changed files
Corpus/Application.md
+39
-47
39 additions, 47 deletions
Corpus/Application.md
Corpus/Encodage.md
+20
-20
20 additions, 20 deletions
Corpus/Encodage.md
src/article/LGE/cathète_0.md
+1
-1
1 addition, 1 deletion
src/article/LGE/cathète_0.md
src/article/LGE/gelocus.md
+3
-3
3 additions, 3 deletions
src/article/LGE/gelocus.md
with
63 additions
and
71 deletions
Corpus/Application.md
+
39
−
47
View file @
5de4591c
...
@@ -43,8 +43,8 @@ milieu d'une phrase, divisions au mileu des mots coupés par un retour à la
...
@@ -43,8 +43,8 @@ milieu d'une phrase, divisions au mileu des mots coupés par un retour à la
ligne…). Pour analyser les phrases en syntaxe et morphosyntaxe, un outil doit
ligne…). Pour analyser les phrases en syntaxe et morphosyntaxe, un outil doit
voir au moins toute une phrase d'un coup (il peut en voir plusieurs au sein d'un
voir au moins toute une phrase d'un coup (il peut en voir plusieurs au sein d'un
même paragraphe mais donnera une analyse erronée s'il ne reçoit qu'une phrase
même paragraphe mais donnera une analyse erronée s'il ne reçoit qu'une phrase
partielle); pour class
ifi
er un article, un modèle doit avoir accès à tout le
partielle); pour classer un article, un modèle doit avoir accès à tout le
texte
texte
qu'il contient.
qu'il contient.
Puisque le choix fait pour représenter les articles dans des fichiers texte
Puisque le choix fait pour représenter les articles dans des fichiers texte
consiste à garder la mise en page des lignes telles qu'elles apparaissent dans
consiste à garder la mise en page des lignes telles qu'elles apparaissent dans
...
@@ -78,22 +78,14 @@ produisent pour chaque texte une valeur symbolique, le nom d'une classe dont
...
@@ -78,22 +78,14 @@ produisent pour chaque texte une valeur symbolique, le nom d'une classe dont
relève le texte d'après le modèle. Cette information est stockée dans des
relève le texte d'après le modèle. Cette information est stockée dans des
fichiers de métadonnées tabulaires (voir la sous-section
fichiers de métadonnées tabulaires (voir la sous-section
\r
ef{sec:corpus_structuring_metadata}). L'analyse syntaxique en dépendances
\r
ef{sec:corpus_structuring_metadata}). L'analyse syntaxique en dépendances
universelles (
*Universal Dependencies*
[^UD], [@=UD] dans le reste de cette
universelles ([@=UD]) est effectuée avec la librairie python Stanza[^stanza]
thèse) est effectuée avec la librairie python Stanza
[
^stanza
][
@qi2020stanza
]
,
[@qi2020stanza], qui retourne les articles annotés au format CoNLL-U. Cette
qui retourne une annotation en des articles au format CoNLL-U[^conllu]. Cette
annotation comprend une étiquette morphosyntaxique pour les tokens identifiés,
annotation comprend une étiquette morphosyntaxique pour des tokens identifiés,
exprimée avec les parties de discours propres aux [@=UD], les UPOS[^UPOS].
exprimée avec les parties de discours ([@=POS]) propres aux [@=UD], les
UPOS[^UPOS].
[
^stanza
]:
[
^stanza
]:
[https://stanfordnlp.github.io/stanza/](https://stanfordnlp.github.io/stanza/)
[https://stanfordnlp.github.io/stanza/](https://stanfordnlp.github.io/stanza/)
[
^UD
]:
[https://universaldependencies.org/](https://universaldependencies.org/)
[
^conllu
]:
[https://universaldependencies.org/format.html](https://universaldependencies.org/format.html)
[
^UPOS
]:
[
^UPOS
]:
[https://universaldependencies.org/docs/u/pos/](https://universaldependencies.org/docs/u/pos/)
[https://universaldependencies.org/docs/u/pos/](https://universaldependencies.org/docs/u/pos/)
...
@@ -107,7 +99,7 @@ pages tout en distinguant le rôle de chaque objet et sa relation aux autres. Le
...
@@ -107,7 +99,7 @@ pages tout en distinguant le rôle de chaque objet et sa relation aux autres. Le
introduiraient beaucoup d'ambiguïté dans des fichiers texte, à moins d'en
introduiraient beaucoup d'ambiguïté dans des fichiers texte, à moins d'en
complexifier encore l'encodage. L'option
`-k`
(
`--keep`
en version longue) de
complexifier encore l'encodage. L'option
`-k`
(
`--keep`
en version longue) de
`soprano`
permet de choisir quel type d'éléments conserver et permet de produire
`soprano`
permet de choisir quel type d'éléments conserver et permet de produire
des fichiers ne contenant que le texte des articles
, mais p
ar défaut
,
tous les
des fichiers ne contenant que le texte des articles
. P
ar défaut tous les
éléments sont conservés (en particulier les changements de page, les légendes
éléments sont conservés (en particulier les changements de page, les légendes
d'images, etc.), ce qui prend tout son sens avec le format XML-[@=TEI].
d'images, etc.), ce qui prend tout son sens avec le format XML-[@=TEI].
...
@@ -275,13 +267,13 @@ désignants normalisés. Il est constitué des classes suivantes:
...
@@ -275,13 +267,13 @@ désignants normalisés. Il est constitué des classes suivantes:
Le premier besoin pour attacher des informations additionnelles aux textes sans
Le premier besoin pour attacher des informations additionnelles aux textes sans
devoir dupliquer leur contenu est la détermination d'une information qui
devoir dupliquer leur contenu est la détermination d'une information qui
identifie de manière unique les fichiers, ce qui constitue une clef primaire
identifie de manière unique les fichiers, ce qui constitue une clef primaire
dans le
jargon
des bases de données. En distinguant les articles des
propriétés
dans le
vocabulaire
des bases de données. En distinguant les articles des
qu'on souhaite pouvoir leur associer, c'est l'approche la plus
modulaire
propriétés
qu'on souhaite pouvoir leur associer, c'est l'approche la plus
puisqu'elle permet de croiser entre elles plusieurs métadonnées issues
de
modulaire
puisqu'elle permet de croiser entre elles plusieurs métadonnées issues
traitements différents ou de sélectionner des sous-corpus, par opposition à
une
de
traitements différents ou de sélectionner des sous-corpus, par opposition à
approche en «jeu de données» ou
*datasets*
dans laquelle toutes les
informations
une
approche en «jeu de données» ou
*datasets*
dans laquelle toutes les
requises, texte et métadonnées, seraient groupés ensemble de
manière autonome en
informations
requises, texte et métadonnées, seraient groupé
e
s ensemble de
un objet unique.
manière autonome en
un objet unique.
\l
abel{metadata_primary_key}Les présents travaux optent pour une clef primaire
\l
abel{metadata_primary_key}Les présents travaux optent pour une clef primaire
simple basée sur le rang des articles dans chaque tome des œuvres du corpus,
simple basée sur le rang des articles dans chaque tome des œuvres du corpus,
...
@@ -334,7 +326,7 @@ minimales nécessaires pour référencer par exemple les deux articles de la fig
...
@@ -334,7 +326,7 @@ minimales nécessaires pour référencer par exemple les deux articles de la fig
À cette clef primaire doivent s'ajouter des colonnes pour assurer la navigation
À cette clef primaire doivent s'ajouter des colonnes pour assurer la navigation
et le retour au plein texte. La plus évidente est la vedette (un humain cherche
et le retour au plein texte. La plus évidente est la vedette (un humain cherche
un article à propos d'EVIAN, pas le 3184ème article de l'
*EDdA*
). Pour
un article à propos d'EVIAN, pas le 3
184ème article de l'
*EDdA*
). Pour
outrepasser le problème d'homonymie des vedettes soulevé ci-dessus, une version
outrepasser le problème d'homonymie des vedettes soulevé ci-dessus, une version
normalisée et rendue unique de cette vedette est également stockée, bien qu'elle
normalisée et rendue unique de cette vedette est également stockée, bien qu'elle
n'ait finalement pas été retenue pour constituer la clef primaire. Enfin, le
n'ait finalement pas été retenue pour constituer la clef primaire. Enfin, le
...
@@ -387,7 +379,7 @@ métadonnées mais se manifeste aussi dans chacune des arborescences corresponda
...
@@ -387,7 +379,7 @@ métadonnées mais se manifeste aussi dans chacune des arborescences corresponda
sont en effet organisés par œuvre (dans un répertoire dont le nom est la valeur
sont en effet organisés par œuvre (dans un répertoire dont le nom est la valeur
de l'attribut
`work`
de l'article). Chaque dossier d'œuvre (
`EDdA/`
ou
`LGE/`
de l'attribut
`work`
de l'article). Chaque dossier d'œuvre (
`EDdA/`
ou
`LGE/`
donc) contient un répertoire par tome, nommé en préfixant la valeur de
donc) contient un répertoire par tome, nommé en préfixant la valeur de
l'attribut
`volume`
d'un 'T' (t majuscule) :
`T1/`
,
`T2/`
…
jusqu'à
`T17/`
dans
l'attribut
`volume`
d'un 'T' (t majuscule) :
`T1/`
,
`T2/`
…
jusqu'à
`T17/`
dans
`EDdA/`
et
`T31/`
dans
`LGE/`
. À l'intérieur de chaque dossier de tome, chaque
`EDdA/`
et
`T31/`
dans
`LGE/`
. À l'intérieur de chaque dossier de tome, chaque
article est nommé par son rang, suffixé de l'extension idoine (
`.txt`
,
`.xml`
,
article est nommé par son rang, suffixé de l'extension idoine (
`.txt`
,
`.xml`
,
`.conllu`
…). Ainsi, il est extrêmement facile d'accéder aux contenus des
`.conllu`
…). Ainsi, il est extrêmement facile d'accéder aux contenus des
...
@@ -509,7 +501,7 @@ initiale à d'autres données. Ces quatre critères, résumés au tableau
...
@@ -509,7 +501,7 @@ initiale à d'autres données. Ces quatre critères, résumés au tableau
cumuler pour produire des recherches dignes de confiance.
cumuler pour produire des recherches dignes de confiance.
Les seules expériences de cette thèse pouvant viser à la reproductibilité sont
Les seules expériences de cette thèse pouvant viser à la reproductibilité sont
celles
concernant
*LGE*
exclusivement
. Toutes celles qui intègrent l'
*EDdA*
ne
celles
qui ne portent que sur
*LGE*
. Toutes celles qui intègrent l'
*EDdA*
ne
peuvent par construction viser qu'à la réplicabilité. En pratique, étant donnée
peuvent par construction viser qu'à la réplicabilité. En pratique, étant donnée
la part cruciale qu'a jouée l'
*EDdA*
, notamment dans l'entraînement des modèles
la part cruciale qu'a jouée l'
*EDdA*
, notamment dans l'entraînement des modèles
de classification automatique (voir le chapitre
\r
ef{sec:domains_classification}
de classification automatique (voir le chapitre
\r
ef{sec:domains_classification}
...
@@ -536,28 +528,28 @@ tableau \ref{table:reproducibility_4_flavours}) peut également apporter aux
...
@@ -536,28 +528,28 @@ tableau \ref{table:reproducibility_4_flavours}) peut également apporter aux
phases d'investigation des [@=HN]. La nature irrégulière des objets d'étude gêne
phases d'investigation des [@=HN]. La nature irrégulière des objets d'étude gêne
le développement de traitements s'appliquant parfaitement à toutes les données.
le développement de traitements s'appliquant parfaitement à toutes les données.
À l'échelle mésoscopique du présent corpus — la taille des encyclopédies est
À l'échelle mésoscopique du présent corpus — la taille des encyclopédies est
proverbialement grande
des encyclopédies,
mais les volumes de données en jeu
proverbialement grande mais les volumes de données en jeu
restent très largement
restent très largement
inférieurs aux mégadonnées générées par les collectes
inférieurs aux mégadonnées générées par les collectes
automatiques de
automatiques de
dispositifs numériques — il faut considérer que tout ce qui peut
dispositifs numériques — il faut considérer que tout ce qui peut
arriver
arriver
arrivera. En ce qui concerne les désignants par exemple, il suffit
arrivera. En ce qui concerne les désignants par exemple, il suffit
quasiment
quasiment
d'envisager l'existence d'une régularité et de tenter de la capturer
d'envisager l'existence d'une régularité et de tenter de la capturer
dans un
dans un
motif pour qu'il soit contredit par une donnée du corpus, qu'elle ait
motif pour qu'il soit contredit par une donnée du corpus, qu'elle ait
réellement
réellement
été produite telle quelle par un choix ou une erreur humaine ou
été produite telle quelle par un choix ou une erreur humaine ou
qu'elle émerge à
qu'elle émerge à
cause des bruits générés par les imperfections des différentes
cause des bruits générés par les imperfections des différentes
étapes de
étapes de
traitement (vieillissement du papier et de l'encre, qualité de la
traitement (vieillissement du papier et de l'encre, qualité de la
numérisation,
numérisation,
performances de l'[@=OCR]…). Ainsi, dans ce type d'étude il s'agit
performances de l'[@=OCR]…). Ainsi, dans ce type d'étude il s'agit
en permanence
en permanence
de placer un curseur entre ce qui est acceptable pour répondre à
de placer un curseur entre ce qui est acceptable pour répondre à
une question
une question
précise et ce qui est perfectible en vue d'études futures. Trouver
précise et ce qui est perfectible en vue d'études futures. Trouver
cet équilibre
cet équilibre
engendre un va-et-vient continu entre traitement des données et
engendre un va-et-vient continu entre traitement des données et
analyses. Pour
analyses. Pour
cette raison, les choix faits dans la représentation du corpus et
cette raison, les choix faits dans la représentation du corpus et
en particulier
en particulier
dans la conception des métadonnées favorisent la plus grande
dans la conception des métadonnées favorisent la plus grande
flexibilité, en
flexibilité, en
tâchant de minimiser l'effort nécessaire pour relancer les
tâchant de minimiser l'effort nécessaire pour relancer les
traitements affectés
traitements affectés
par un changement dans une donnée. Cette stratégie repose
par un changement dans une donnée. Cette stratégie repose
sur le constat
sur le constat
empirique qu'il est vain d'espérer que la première version sera
empirique qu'il est vain d'espérer que la première version sera
la bonne et
la bonne et
qu'il vaut mieux considérer toutes les données en aval dans la
qu'il vaut mieux considérer toutes les données en aval dans la
chaîne de
chaîne de
dépendance comme temporaires, susceptibles de mises à jour et donc
dépendance comme temporaires, susceptibles de mises à jour et donc
jetables. La
jetables. La
détermination d'un ensemble de domaines de connaissance présentée à
détermination d'un ensemble de domaines de connaissance présentée à
la
la
sous-section
\r
ef{sec:domains_build_classes}
sous-section
\r
ef{sec:domains_build_classes}
p.
\p
ageref{sec:domains_build_classes} d'une façon très linéaire résulte en
p.
\p
ageref{sec:domains_build_classes} d'une façon très linéaire résulte en
réalité de ce type de négociation entre code et données. Naturellement, pour que
réalité de ce type de négociation entre code et données. Naturellement, pour que
ces allers et retours conduisent à un processus d'amélioration continue plutôt
ces allers et retours conduisent à un processus d'amélioration continue plutôt
...
...
This diff is collapsed.
Click to expand it.
Corpus/Encodage.md
+
20
−
20
View file @
5de4591c
...
@@ -458,7 +458,7 @@ séquentiellement par œuvre et par tome, et à concaténer les trois
...
@@ -458,7 +458,7 @@ séquentiellement par œuvre et par tome, et à concaténer les trois
composantes — en base 10 pour celles qui sont numériques — séparées par le
composantes — en base 10 pour celles qui sont numériques — séparées par le
caractère
`_`
(tiret bas).
caractère
`_`
(tiret bas).

{#fig:cathete-xml-0}

{#fig:cathete-xml-0}
À l'intérieur de cet élément doit se trouver un
`<head/>`
contenant la vedette
À l'intérieur de cet élément doit se trouver un
`<head/>`
contenant la vedette
de l'article. Un élément
`<hi/>`
à l'intérieur permet le cas échéant de
de l'article. Un élément
`<hi/>`
à l'intérieur permet le cas échéant de
...
@@ -489,7 +489,7 @@ tenant compte de ces remarques.
...
@@ -489,7 +489,7 @@ tenant compte de ces remarques.
un
`<usg/>`
ne peut pas apparaître non-plus ni dans un
`<p/>`
ni même
un
`<usg/>`
ne peut pas apparaître non-plus ni dans un
`<p/>`
ni même
directement dans un
`<div/>`
directement dans un
`<div/>`

{#fig:cathete-xml-1}

{#fig:cathete-xml-1}
Ensuite, chaque sens est encodé par un élément
`<div/>`
dont l'attribut
`type`
Ensuite, chaque sens est encodé par un élément
`<div/>`
dont l'attribut
`type`
est défini à la valeur
`sense`
en référence à l'élément
`<sense/>`
du module
est défini à la valeur
`sense`
en référence à l'élément
`<sense/>`
du module
...
@@ -498,7 +498,7 @@ partir de 0 en fonction de son rang parmi les différents sens couverts par
...
@@ -498,7 +498,7 @@ partir de 0 en fonction de son rang parmi les différents sens couverts par
l'article et présente même si la vedette n'en a qu'un seul comme c'est le cas
l'article et présente même si la vedette n'en a qu'un seul comme c'est le cas
pour l'article CATHÈTE à la figure
\r
ef{fig:cathete-xml-2}.
pour l'article CATHÈTE à la figure
\r
ef{fig:cathete-xml-2}.

{#fig:cathete-xml-2}

{#fig:cathete-xml-2}
De plus, chaque ligne de l'article doit commencer par un élément
`<lb/>`
, y
De plus, chaque ligne de l'article doit commencer par un élément
`<lb/>`
, y
compris avant l'élément
`<head/>`
comme le présente la figure
compris avant l'élément
`<head/>`
comme le présente la figure
...
@@ -515,7 +515,7 @@ corps de l'article sont encodées de la façon habituelle avec des `<div/>`
...
@@ -515,7 +515,7 @@ corps de l'article sont encodées de la façon habituelle avec des `<div/>`
contenant des
`<p/>`
pour les paragraphes, qui peuvent éventuellement contenir
contenant des
`<p/>`
pour les paragraphes, qui peuvent éventuellement contenir
des
`<head/>`
locaux pour représenter leurs titres.
des
`<head/>`
locaux pour représenter leurs titres.

{#fig:cathete-xml-3}

{#fig:cathete-xml-3}
Certains articles comme BOUMERANG (La Grande Encyclopédie, T7, p.704) comportent
Certains articles comme BOUMERANG (La Grande Encyclopédie, T7, p.704) comportent
des figures avec des légendes (voir la figure
\r
ef{fig:boumerang-photo}) qui
des figures avec des légendes (voir la figure
\r
ef{fig:boumerang-photo}) qui
...
@@ -543,7 +543,7 @@ l'impossibilité d'utiliser le module *dictionaries*.
...
@@ -543,7 +543,7 @@ l'impossibilité d'utiliser le module *dictionaries*.

{#fig:gelocus_photo width=60%}

{#fig:gelocus_photo width=60%}

{#fig:gelocus-xml}

{#fig:gelocus-xml}
Les éléments péritextes évoqués précédemment à la section
Les éléments péritextes évoqués précédemment à la section
\r
ef{sec:encyclopedia_anatomy} et qui apparaissent sur les pages d'encyclopédies
\r
ef{sec:encyclopedia_anatomy} et qui apparaissent sur les pages d'encyclopédies
...
@@ -649,7 +649,7 @@ n'implémente pas encore toutes les spécifications de l'encodage proposé
...
@@ -649,7 +649,7 @@ n'implémente pas encore toutes les spécifications de l'encodage proposé
précédemment. La figure
\r
ef{fig:cathete-xml-current} montre ainsi l'état actuel
précédemment. La figure
\r
ef{fig:cathete-xml-current} montre ainsi l'état actuel
de l'article CATHÈTE à la fin de la phase d'encodage.
de l'article CATHÈTE à la fin de la phase d'encodage.

{#fig:cathete-xml-current}

{#fig:cathete-xml-current}
La détection des vedettes ne permet pas encore de reconnaître les désignants et
La détection des vedettes ne permet pas encore de reconnaître les désignants et
c'est pourquoi ils apparaissent à l'extérieur de la balise
`<head/>`
. Aucun
c'est pourquoi ils apparaissent à l'extérieur de la balise
`<head/>`
. Aucun
...
@@ -728,7 +728,7 @@ texte. Une version numérique constitue une trace qui permet de fixer un texte e
...
@@ -728,7 +728,7 @@ texte. Une version numérique constitue une trace qui permet de fixer un texte e
de le diffuser (partage, copie, sauvegarde).
de le diffuser (partage, copie, sauvegarde).
Le deuxième aspect de la définition de @rastier_textes_1996[
*ibid*
] insiste sur
Le deuxième aspect de la définition de @rastier_textes_1996[
*ibid*
] insiste sur
l'existence d'un texte dans le cadre d'un pratique sociale. Quel que soit le
l'existence d'un texte dans le cadre d'un
e
pratique sociale. Quel que soit le
support utilisé pour fixer un texte, c'est rarement la trace elle-même mais
support utilisé pour fixer un texte, c'est rarement la trace elle-même mais
plutôt l'objet abstrait qu'elle dénote qui intéresse son lectorat ou les
plutôt l'objet abstrait qu'elle dénote qui intéresse son lectorat ou les
linguistes. Avant même de considérer quelque niveau d'analyse que ce soit sur le
linguistes. Avant même de considérer quelque niveau d'analyse que ce soit sur le
...
@@ -888,15 +888,15 @@ privée de son `'-'` final à la deuxième dans le cas contraire. Mais en pratiq
...
@@ -888,15 +888,15 @@ privée de son `'-'` final à la deuxième dans le cas contraire. Mais en pratiq
l'élimination du tiret dépend du contexte: il fait partie de certains mots
l'élimination du tiret dépend du contexte: il fait partie de certains mots
composés comme «peut-être» ou «pis-aller» et permet de rattacher les enclitiques
composés comme «peut-être» ou «pis-aller» et permet de rattacher les enclitiques
au mot qui les précède comme dans «celui-là» ou «puis-je», ce qui interdit sa
au mot qui les précède comme dans «celui-là» ou «puis-je», ce qui interdit sa
suppression.
Si d
es ressources lexicales peuvent aider dans le premier cas
(
mais
suppression.
D
es ressources lexicales peuvent aider dans le premier cas mais
avec des risques de faux-positifs
,
que faire sans analyse sémantique fine d'un
avec des risques de faux-positifs
(
que faire sans analyse sémantique fine d'un
hypothétique nom propre «Pisaller» ne tenant pas sur le reste d'une ligne et qui
hypothétique nom propre «Pisaller» ne tenant pas sur le reste d'une ligne et qui
aurait donné lieu à la séquence «Pis-
`'\n'`
aller» dans un fichier ?)
, la grand
e
aurait donné lieu à la séquence «Pis-
`'\n'`
aller» dans un fichier ?)
. Dans l
e
variété d'éléments combinables
dans le second cas n'incite pas à opter pour une
second cas, la grande
variété d'éléments combinables
n'incite de toute façon pas
simple vérification d'appartenance à une liste préétablie
d'exceptions connues.
à opter pour une
simple vérification d'appartenance à une liste préétablie
Dans tous les cas
, une analyse fine des dynamiques au niveau
au moins
d'exceptions connues. Par conséquent
, une analyse fine des dynamiques au niveau
morphosyntaxique sinon syntaxique semble donc requise pour déterminer
avec
au moins
morphosyntaxique sinon syntaxique semble donc requise pour déterminer
certitude le sort d'un tiret survenant juste avant une fin de ligne.
avec
certitude le sort d'un tiret survenant juste avant une fin de ligne.
Loin de constituer une base commune pour représenter un texte, le format
`.txt`
Loin de constituer une base commune pour représenter un texte, le format
`.txt`
représente donc en fait un impensé de l'encodage. Dans le cadre des présents
représente donc en fait un impensé de l'encodage. Dans le cadre des présents
...
@@ -915,13 +915,13 @@ paragraphe précédent), mais rend de ce fait l'accès au texte un peu plus
...
@@ -915,13 +915,13 @@ paragraphe précédent), mais rend de ce fait l'accès au texte un peu plus
complexe.
complexe.
À l'issue de cette section, l'ensemble des paramètres clefs pour représenter les
À l'issue de cette section, l'ensemble des paramètres clefs pour représenter les
textes du corpus ont été identifiés et discutés.
La
confronta
tion d
es besoins
textes du corpus ont été identifiés et discutés.
En
confronta
nt l
es besoins
d'encodage définis par l'observation des pages de
*LGE*
et d
es structures
d'encodage définis par l'observation des pages de
*LGE*
avec l
es structures
définies par le schéma d'encodage
*TEI*
,
a montré que le
module
*dictionaries*
définies par le schéma d'encodage
*TEI*
,
les limites du
module
*dictionaries*
n'était pas adapté à la
représent
ation d'
une encyclopédie telle que
*LGE*
. Un
pour
représent
er
une encyclopédie telle que
*LGE*
ont été mises en évidence
. Un
encodage alternatif utilisant des éléments plus généraux de la
*TEI*
— tout
encodage alternatif utilisant des éléments plus généraux de la
*TEI*
— tout
comme l'avait fait l'[@=ARTFL] dans sa version de l'
*EDdA*
, mais en opérant des
comme l'avait fait l'[@=ARTFL] dans sa version de l'
*EDdA*
, mais en opérant des
choix légèrement différents — a été
démon
tré sur quelques articles et une
choix légèrement différents — a été
illus
tré sur quelques articles et une
portion de cet encodage est implémentée dans l'outil
`soprano`
, permettant de
portion de cet encodage est implémentée dans l'outil
`soprano`
, permettant de
générer automatiquement des articles au format XML-[@=TEI] à partir des pages en
générer automatiquement des articles au format XML-[@=TEI] à partir des pages en
ALTO livrées par la BnF. Cet outil permet également de produire des fichiers en
ALTO livrées par la BnF. Cet outil permet également de produire des fichiers en
...
...
This diff is collapsed.
Click to expand it.
src/article/LGE/cathète_0.md
+
1
−
1
View file @
5de4591c
...
@@ -3,7 +3,7 @@ header-includes:
...
@@ -3,7 +3,7 @@ header-includes:
-
\pagestyle{empty}
-
\pagestyle{empty}
- \usepackage{graphicx}
- \usepackage{graphicx}
- \usepackage[left=0cm,top=0cm,right=0cm,nohead,nofoot]{geometry}
- \usepackage[left=0cm,top=0cm,right=0cm,nohead,nofoot]{geometry}
- \geometry{paperwidth=5.
6
cm, paperheight=0.5cm, margin=0cm}
- \geometry{paperwidth=5.
8
cm, paperheight=0.5cm, margin=0cm}
---
---
```
xml
```
xml
...
...
This diff is collapsed.
Click to expand it.
src/article/LGE/gelocus.md
+
3
−
3
View file @
5de4591c
...
@@ -3,12 +3,12 @@ header-includes:
...
@@ -3,12 +3,12 @@ header-includes:
-
\pagestyle{empty}
-
\pagestyle{empty}
- \usepackage{graphicx}
- \usepackage{graphicx}
- \usepackage[left=0cm,top=0cm,right=0cm,nohead,nofoot]{geometry}
- \usepackage[left=0cm,top=0cm,right=0cm,nohead,nofoot]{geometry}
- \geometry{paperwidth=9.
2
cm, paperheight=1.8cm, margin=0cm}
- \geometry{paperwidth=9.
3
cm, paperheight=1.8cm, margin=0cm}
---
---
```
xml
```
xml
<p>
<p>
(V.
<ref
target=
"#
boeuf-0
"
>
Boeuf
</ref>
et
(V.
<ref
target=
"#
LGE_7_247
"
>
Boeuf
</ref>
et
<ref
target=
"#
chevrotain-0
"
>
Chevrotain
</ref>
).
<ref
target=
"#
LGE_10_3368
"
>
Chevrotain
</ref>
).
</p>
</p>
```
```
This diff is collapsed.
Click to expand it.
Alice Brenon
@abrenon
mentioned in commit
2dd3db61
·
3 months ago
mentioned in commit
2dd3db61
mentioned in commit 2dd3db61a70ba114575301cbe9044b97e970bc06
Toggle commit list
Alice Brenon
@abrenon
mentioned in commit
256b1edc
·
3 months ago
mentioned in commit
256b1edc
mentioned in commit 256b1edca54c57bbc4bebc90657f7c8124e5b8e7
Toggle commit list
Preview
0%
Loading
Try again
or
attach a new file
.
Cancel
You are about to add
0
people
to the discussion. Proceed with caution.
Finish editing this message first!
Save comment
Cancel
Please
register
or
sign in
to comment