La figure \ref{fig:ville_lemma_geode} représente l'histogramme des dix mesures
l'histogramme des dix mesures les plus élevées. Sur cette figure, le déterminant
les plus élevées. Sur cette figure, le déterminant «ce» apparaît comme
«ce» apparaît comme cooccurrent principal de «ville». Il est intéressant de
cooccurrent principal de «ville». Il est intéressant de constater qu'il obtient
constater qu'il obtient même un score d'association (22 958) supérieur à celui
même un score d'association (22 958) supérieur à celui de l'adjectif «natal»
de l'adjectif «natal» (18 773): alors que la nature d'un déterminant fait qu'il
(18 773): alors que la nature d'un déterminant fait qu'il peut potentiellement
peut potentiellement être utilisé avec n'importe quel nom commun (pas seulement
être utilisé avec n'importe quel nom commun (pas seulement ville), l'ensemble
ville), l'ensemble des noms que peut qualifier un adjectif donné est bien plus
des noms que peut qualifier un adjectif donné est bien plus restreint par des
restreint par des considérations sémantiques. En effet, «ce» peut déterminer
considérations sémantiques. En effet, «ce» peut déterminer aussi bien «ville»
aussi bien «ville» que «procédé» par exemple, mais la séquence «procédé natal»
que «procédé» par exemple, mais la séquence «procédé natal» n'a aucun sens
n'a aucun sens évident et donc virtuellement aucune chance d'apparaître dans un
évident et donc virtuellement aucune chance d'apparaître dans un texte, à part
texte, à part sous forme de contre-exemple comme dans cette phrase.
sous forme de contre-exemple comme dans cette phrase. Deux autres mots outils
figurent parmi les cinq premiers cooccurrents. Ce sont le déterminant «le»
(intéressant par comparaison avec «ce») et la préposition «dans» qui suggère
l'emploi du concept de ville comme d'un cadre narratif dans lequel se produit
les événements qui intéressent les articles. Un deuxième adjectif, «petit»,
obtient également un score proche: l'asymétrie que crée cette observation par
rapport au contraire «grand» semble suggérer qu'on qualifie bien plus volontiers
une ville de «petite» que de «grande» dans les pages des encyclopédies du
corpus.
{#fig:ville_lemma_geode}
{#fig:ville_lemma_geode}
...
@@ -147,42 +155,63 @@ label=lst:tql_ce_ville]
...
@@ -147,42 +155,63 @@ label=lst:tql_ce_ville]
\end{lstlisting}
\end{lstlisting}
Son exécution sur le même corpus permet d'obtenir la figure
Son exécution sur le même corpus permet d'obtenir la figure
\ref{fig:ce_ville_lemma_geode} qui montre l'association prééminente de la
\ref{fig:ce_ville_lemma_geode} qui retrouve la préposition «dans», mais cette
préposition «dans» avec l'ébauche de motif «cette ville».
fois avec la plus forte mesure d'association. Déjà présente sur la figure
\ref{fig:ville_lemma_geode}, la requête \ref{lst:tql_ville} ne pouvait par
{#fig:ville_lemma_geode}
construction que rendre compte des intéractions de «ce» et de «dans» avec
«ville» de manière séparée. Cette nouvelle mesure montre qu'en réalité les trois
\begin{figure}
éléments apparaissent fréquemment ensemble dans le syntagme «dans cette ville».
\centering
La préposition «de» suit une trajectoire semblable puis les mesures
\begin{subfigure}[b]{\textwidth}
d'associations chutent très rapidement à moins de 10% de la valeur obtenue pour
la préposition «dans», obtenues par un ensemble de verbes et de noms.
\caption{Les 10 cooccurrents syntaxiques principaux du motif}
\label{fig:ce_ville_lemma_geode}
{#fig:ce_ville_lemma_geode}
\end{subfigure}
\caption{Recherche du motif formé d'une relation syntaxique quelconque entre
En suivant ce nouveau coocurrent «dans» on construit la requête
le lemme «ce» annoté comme \texttt{DET} et le lemme «ville» annoté comme \texttt{NOUN}}
\label{fig:ville_geode}
\end{figure}
En suivant ce nouveau coocurrent on construit la requête
\ref{lst:tql_dans_ce_ville}, dont un équivalent sous forme d'arbre syntaxique en
\ref{lst:tql_dans_ce_ville}, dont un équivalent sous forme d'arbre syntaxique en
dépendances est visible à la figure \ref{fig:dans_cette_ville_tree} pour plus de
dépendances est visible à la figure \ref{fig:dans_cette_ville_tree} pour plus de
clarté. Les astérisques sur les deux arêtes partant du nœud `ville_NOUN`
clarté. Les astérisques sur les deux arêtes partant du nœud `ville_NOUN`
représentent l'absence de contrainte sur les relations qui relient «ville»
représentent l'absence de contrainte sur les relations qui relient «ville»
respectivement à «dans» et à «ce». En pratique, on peut s'attendre à ce que ces
respectivement à «dans» et à «ce». En pratique, on peut s'attendre à ce que ces
relations soient réalisées par un `case` pour «dans» et par un `det` pour
relations soient réalisées par un `case` pour «dans» et par un `det` pour
«ce»[^UDdeps] mais le motif demeure flexible sur ce point.
«ce»[^UDdeps] mais le motif demeure flexible sur ce point. De plus, travaillant
au niveau de la syntaxe et pas de la réalisation de surface des mots, la requête
inclut des résultats comme «dans ces deux villes» à l'article ARABIE
(L'Encyclopédie, T1, p.570) ou «dans cette dernière ville» à l'article DAEHLING
{#fig:dans_cette_ville_tree width=20%}
{#fig:dans_cette_ville_tree width=20%}
En recherchant ce troisième motif, on obtient la figure
\ref{fig:dans_ce_ville_lemma_geode} qui représente les dix coocurrents de «dans
cette ville» avec la plus forte mesure d'association. Sur cette figure, il n'y a
quasiment plus que des verbes et des adjectifs. Le phénomène précédent de
remontée d'un lemme déjà observé au cours du processus se produit à nouveau avec
l'adjectif «dernier» qui n'obtenait que la troisième place sur la figure
\ref{fig:ce_ville_lemma_geode} mais devient le cooccurrent principal de «dans
cette ville». De la même manière, le verbe «mourir» prend le deuxième rang,
alors qu'il n'était que sixième pour «cette ville» seulement. De plus, le
troisième rang est occupé par le verbe «naître» très lié sémantiquement. Absent
jusque-là des histogrammes, il est cependant proche de l'adjectif «natal»
discuté lors de l'analyse de la figure \ref{fig:ville_lemma_geode} et renvoie
directement au procédé utilisé dans l'article WOLSTROPE, à savoir utiliser la
ville de naissance d'une personnalité pour en donner un récit de sa vie.
{#fig:dans_ce_ville_lemma_geode}
Cette observation cruciale présente donc ces deux lemmes inattendus comme des
objets incontournables pour poursuivre l'exploration. Dans TXM
[@heiden_txm_2010], on partitionne d'abord les textes par domaines, en
commençant par se restreindre à l'*EDdA*.
### L'influence des domaines {#sec:biography_domains}
### L'influence des domaines {#sec:biography_domains}