Skip to content
Snippets Groups Projects
Commit 20ed0d37 authored by Alice Brenon's avatar Alice Brenon
Browse files

Finish writing the part showing that «naître» and «mourir» are worth investigating

parent 4b1377f6
No related branches found
No related tags found
No related merge requests found
......@@ -121,17 +121,25 @@ label=lst:tql_ville]
[^tql]:
[http://phraseotext.univ-grenoble-alpes.fr/lexicoscope_beta/doc/Reference%20TQL.fr.pdf](http://phraseotext.univ-grenoble-alpes.fr/lexicoscope_beta/doc/Reference%20TQL.fr.pdf)
La figure \ref{fig:ville_lemma_geode} représente
l'histogramme des dix mesures les plus élevées. Sur cette figure, le déterminant
«ce» apparaît comme cooccurrent principal de «ville». Il est intéressant de
constater qu'il obtient même un score d'association (22 958) supérieur à celui
de l'adjectif «natal» (18 773): alors que la nature d'un déterminant fait qu'il
peut potentiellement être utilisé avec n'importe quel nom commun (pas seulement
ville), l'ensemble des noms que peut qualifier un adjectif donné est bien plus
restreint par des considérations sémantiques. En effet, «ce» peut déterminer
aussi bien «ville» que «procédé» par exemple, mais la séquence «procédé natal»
n'a aucun sens évident et donc virtuellement aucune chance d'apparaître dans un
texte, à part sous forme de contre-exemple comme dans cette phrase.
La figure \ref{fig:ville_lemma_geode} représente l'histogramme des dix mesures
les plus élevées. Sur cette figure, le déterminant «ce» apparaît comme
cooccurrent principal de «ville». Il est intéressant de constater qu'il obtient
même un score d'association (22 958) supérieur à celui de l'adjectif «natal»
(18 773): alors que la nature d'un déterminant fait qu'il peut potentiellement
être utilisé avec n'importe quel nom commun (pas seulement ville), l'ensemble
des noms que peut qualifier un adjectif donné est bien plus restreint par des
considérations sémantiques. En effet, «ce» peut déterminer aussi bien «ville»
que «procédé» par exemple, mais la séquence «procédé natal» n'a aucun sens
évident et donc virtuellement aucune chance d'apparaître dans un texte, à part
sous forme de contre-exemple comme dans cette phrase. Deux autres mots outils
figurent parmi les cinq premiers cooccurrents. Ce sont le déterminant «le»
(intéressant par comparaison avec «ce») et la préposition «dans» qui suggère
l'emploi du concept de ville comme d'un cadre narratif dans lequel se produit
les événements qui intéressent les articles. Un deuxième adjectif, «petit»,
obtient également un score proche: l'asymétrie que crée cette observation par
rapport au contraire «grand» semble suggérer qu'on qualifie bien plus volontiers
une ville de «petite» que de «grande» dans les pages des encyclopédies du
corpus.
![Les 10 cooccurrents syntaxiques principaux du lemme «ville» annoté comme `NOUN` (nom commun)](figure/histogram/textometry/ville.png){#fig:ville_lemma_geode}
......@@ -147,42 +155,63 @@ label=lst:tql_ce_ville]
\end{lstlisting}
Son exécution sur le même corpus permet d'obtenir la figure
\ref{fig:ce_ville_lemma_geode} qui montre l'association prééminente de la
préposition «dans» avec l'ébauche de motif «cette ville».
![Les 10 cooccurrents syntaxiques principaux du lemme «ville» annoté comme `NOUN` (nom commun)](figure/histogram/textometry/ville.png){#fig:ville_lemma_geode}
\begin{figure}
\centering
\begin{subfigure}[b]{\textwidth}
\includegraphics{figure/histogram/textometry/ce_ville.png}
\caption{Les 10 cooccurrents syntaxiques principaux du motif}
\label{fig:ce_ville_lemma_geode}
\end{subfigure}
\caption{Recherche du motif formé d'une relation syntaxique quelconque entre
le lemme «ce» annoté comme \texttt{DET} et le lemme «ville» annoté comme \texttt{NOUN}}
\label{fig:ville_geode}
\end{figure}
En suivant ce nouveau coocurrent on construit la requête
\ref{fig:ce_ville_lemma_geode} qui retrouve la préposition «dans», mais cette
fois avec la plus forte mesure d'association. Déjà présente sur la figure
\ref{fig:ville_lemma_geode}, la requête \ref{lst:tql_ville} ne pouvait par
construction que rendre compte des intéractions de «ce» et de «dans» avec
«ville» de manière séparée. Cette nouvelle mesure montre qu'en réalité les trois
éléments apparaissent fréquemment ensemble dans le syntagme «dans cette ville».
La préposition «de» suit une trajectoire semblable puis les mesures
d'associations chutent très rapidement à moins de 10% de la valeur obtenue pour
la préposition «dans», obtenues par un ensemble de verbes et de noms.
![Les 10 cooccurrents syntaxiques principaux du motif formé d'une relation syntaxique quelconque entre le lemme «ce» annoté comme `DET` et le lemme «ville» annoté comme `NOUN`](figure/histogram/textometry/ce_ville.png){#fig:ce_ville_lemma_geode}
En suivant ce nouveau coocurrent «dans» on construit la requête
\ref{lst:tql_dans_ce_ville}, dont un équivalent sous forme d'arbre syntaxique en
dépendances est visible à la figure \ref{fig:dans_cette_ville_tree} pour plus de
clarté. Les astérisques sur les deux arêtes partant du nœud `ville_NOUN`
représentent l'absence de contrainte sur les relations qui relient «ville»
respectivement à «dans» et à «ce». En pratique, on peut s'attendre à ce que ces
relations soient réalisées par un `case` pour «dans» et par un `det` pour
«ce»[^UDdeps] mais le motif demeure flexible sur ce point.
«ce»[^UDdeps] mais le motif demeure flexible sur ce point. De plus, travaillant
au niveau de la syntaxe et pas de la réalisation de surface des mots, la requête
inclut des résultats comme «dans ces deux villes» à l'article ARABIE
(L'Encyclopédie, T1, p.570) ou «dans cette dernière ville» à l'article DAEHLING
(La Grande Encyclopédie, T13, p.749).
[^UDdeps]:
[https://universaldependencies.org/u/dep/index.html](https://universaldependencies.org/u/dep/index.html)
\begin{lstlisting}[caption=Requête TQL traduisant ces critères,
label=lst:tql_dans_ce_ville]
<l=dans,c=PREP,#3>&&<l=ce,c=DET,#2>&&<l=ville,c=NOUN,#1>
::(.*,1,2)(.*,1,3)
<l=dans,c=PREP,#3>&&<l=ce,c=DET,#2>&&<l=ville,c=NOUN,#1>::(.*,1,2)(.*,
1,3)
\end{lstlisting}
![Représentation de la syntaxe en dépendance du syntagme «dans cette ville»](figure/syntax/dans_ce_ville.png){#fig:dans_cette_ville_tree width=20%}
![Représentation sous forme d'arbre de syntaxe en dépendance du motif défini par la requête \ref{lst:tql_dans_ce_ville}](figure/syntax/dans_ce_ville.png){#fig:dans_cette_ville_tree width=20%}
En recherchant ce troisième motif, on obtient la figure
\ref{fig:dans_ce_ville_lemma_geode} qui représente les dix coocurrents de «dans
cette ville» avec la plus forte mesure d'association. Sur cette figure, il n'y a
quasiment plus que des verbes et des adjectifs. Le phénomène précédent de
remontée d'un lemme déjà observé au cours du processus se produit à nouveau avec
l'adjectif «dernier» qui n'obtenait que la troisième place sur la figure
\ref{fig:ce_ville_lemma_geode} mais devient le cooccurrent principal de «dans
cette ville». De la même manière, le verbe «mourir» prend le deuxième rang,
alors qu'il n'était que sixième pour «cette ville» seulement. De plus, le
troisième rang est occupé par le verbe «naître» très lié sémantiquement. Absent
jusque-là des histogrammes, il est cependant proche de l'adjectif «natal»
discuté lors de l'analyse de la figure \ref{fig:ville_lemma_geode} et renvoie
directement au procédé utilisé dans l'article WOLSTROPE, à savoir utiliser la
ville de naissance d'une personnalité pour en donner un récit de sa vie.
![Les 10 cooccurrents syntaxiques principaux de «dans» (`ADP`), «ce» (`DET`), et «ville» (`NOUN`)](figure/histogram/textometry/dans_ce_ville.png){#fig:dans_ce_ville_lemma_geode}
Cette observation cruciale présente donc ces deux lemmes inattendus comme des
objets incontournables pour poursuivre l'exploration. Dans TXM
[@heiden_txm_2010], on partitionne d'abord les textes par domaines, en
commençant par se restreindre à l'*EDdA*.
### L'influence des domaines {#sec:biography_domains}
......
0% Loading or .
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment