diff --git a/Contrastes/Biographies.md b/Contrastes/Biographies.md index 6523405244b35ab8cc0a19a4d623417e3c51f032..94bddffcb2fab40cc07f5afc640255cc7ccabfc5 100644 --- a/Contrastes/Biographies.md +++ b/Contrastes/Biographies.md @@ -121,17 +121,25 @@ label=lst:tql_ville] [^tql]: [http://phraseotext.univ-grenoble-alpes.fr/lexicoscope_beta/doc/Reference%20TQL.fr.pdf](http://phraseotext.univ-grenoble-alpes.fr/lexicoscope_beta/doc/Reference%20TQL.fr.pdf) -La figure \ref{fig:ville_lemma_geode} représente -l'histogramme des dix mesures les plus élevées. Sur cette figure, le déterminant -«ce» apparaît comme cooccurrent principal de «ville». Il est intéressant de -constater qu'il obtient même un score d'association (22 958) supérieur à celui -de l'adjectif «natal» (18 773): alors que la nature d'un déterminant fait qu'il -peut potentiellement être utilisé avec n'importe quel nom commun (pas seulement -ville), l'ensemble des noms que peut qualifier un adjectif donné est bien plus -restreint par des considérations sémantiques. En effet, «ce» peut déterminer -aussi bien «ville» que «procédé» par exemple, mais la séquence «procédé natal» -n'a aucun sens évident et donc virtuellement aucune chance d'apparaître dans un -texte, à part sous forme de contre-exemple comme dans cette phrase. +La figure \ref{fig:ville_lemma_geode} représente l'histogramme des dix mesures +les plus élevées. Sur cette figure, le déterminant «ce» apparaît comme +cooccurrent principal de «ville». Il est intéressant de constater qu'il obtient +même un score d'association (22 958) supérieur à celui de l'adjectif «natal» +(18 773): alors que la nature d'un déterminant fait qu'il peut potentiellement +être utilisé avec n'importe quel nom commun (pas seulement ville), l'ensemble +des noms que peut qualifier un adjectif donné est bien plus restreint par des +considérations sémantiques. En effet, «ce» peut déterminer aussi bien «ville» +que «procédé» par exemple, mais la séquence «procédé natal» n'a aucun sens +évident et donc virtuellement aucune chance d'apparaître dans un texte, à part +sous forme de contre-exemple comme dans cette phrase. Deux autres mots outils +figurent parmi les cinq premiers cooccurrents. Ce sont le déterminant «le» +(intéressant par comparaison avec «ce») et la préposition «dans» qui suggère +l'emploi du concept de ville comme d'un cadre narratif dans lequel se produit +les événements qui intéressent les articles. Un deuxième adjectif, «petit», +obtient également un score proche: l'asymétrie que crée cette observation par +rapport au contraire «grand» semble suggérer qu'on qualifie bien plus volontiers +une ville de «petite» que de «grande» dans les pages des encyclopédies du +corpus. {#fig:ville_lemma_geode} @@ -147,42 +155,63 @@ label=lst:tql_ce_ville] \end{lstlisting} Son exécution sur le même corpus permet d'obtenir la figure -\ref{fig:ce_ville_lemma_geode} qui montre l'association prééminente de la -préposition «dans» avec l'ébauche de motif «cette ville». - -{#fig:ville_lemma_geode} - -\begin{figure} - \centering - \begin{subfigure}[b]{\textwidth} - \includegraphics{figure/histogram/textometry/ce_ville.png} - \caption{Les 10 cooccurrents syntaxiques principaux du motif} - \label{fig:ce_ville_lemma_geode} - \end{subfigure} - \caption{Recherche du motif formé d'une relation syntaxique quelconque entre - le lemme «ce» annoté comme \texttt{DET} et le lemme «ville» annoté comme \texttt{NOUN}} - \label{fig:ville_geode} -\end{figure} - -En suivant ce nouveau coocurrent on construit la requête +\ref{fig:ce_ville_lemma_geode} qui retrouve la préposition «dans», mais cette +fois avec la plus forte mesure d'association. Déjà présente sur la figure +\ref{fig:ville_lemma_geode}, la requête \ref{lst:tql_ville} ne pouvait par +construction que rendre compte des intéractions de «ce» et de «dans» avec +«ville» de manière séparée. Cette nouvelle mesure montre qu'en réalité les trois +éléments apparaissent fréquemment ensemble dans le syntagme «dans cette ville». +La préposition «de» suit une trajectoire semblable puis les mesures +d'associations chutent très rapidement à moins de 10% de la valeur obtenue pour +la préposition «dans», obtenues par un ensemble de verbes et de noms. + +{#fig:ce_ville_lemma_geode} + +En suivant ce nouveau coocurrent «dans» on construit la requête \ref{lst:tql_dans_ce_ville}, dont un équivalent sous forme d'arbre syntaxique en dépendances est visible à la figure \ref{fig:dans_cette_ville_tree} pour plus de clarté. Les astérisques sur les deux arêtes partant du nœud `ville_NOUN` représentent l'absence de contrainte sur les relations qui relient «ville» respectivement à «dans» et à «ce». En pratique, on peut s'attendre à ce que ces relations soient réalisées par un `case` pour «dans» et par un `det` pour -«ce»[^UDdeps] mais le motif demeure flexible sur ce point. +«ce»[^UDdeps] mais le motif demeure flexible sur ce point. De plus, travaillant +au niveau de la syntaxe et pas de la réalisation de surface des mots, la requête +inclut des résultats comme «dans ces deux villes» à l'article ARABIE +(L'Encyclopédie, T1, p.570) ou «dans cette dernière ville» à l'article DAEHLING +(La Grande Encyclopédie, T13, p.749). [^UDdeps]: [https://universaldependencies.org/u/dep/index.html](https://universaldependencies.org/u/dep/index.html) \begin{lstlisting}[caption=Requête TQL traduisant ces critères, label=lst:tql_dans_ce_ville] -<l=dans,c=PREP,#3>&&<l=ce,c=DET,#2>&&<l=ville,c=NOUN,#1> -::(.*,1,2)(.*,1,3) +<l=dans,c=PREP,#3>&&<l=ce,c=DET,#2>&&<l=ville,c=NOUN,#1>::(.*,1,2)(.*, +1,3) \end{lstlisting} -{#fig:dans_cette_ville_tree width=20%} +{#fig:dans_cette_ville_tree width=20%} + +En recherchant ce troisième motif, on obtient la figure +\ref{fig:dans_ce_ville_lemma_geode} qui représente les dix coocurrents de «dans +cette ville» avec la plus forte mesure d'association. Sur cette figure, il n'y a +quasiment plus que des verbes et des adjectifs. Le phénomène précédent de +remontée d'un lemme déjà observé au cours du processus se produit à nouveau avec +l'adjectif «dernier» qui n'obtenait que la troisième place sur la figure +\ref{fig:ce_ville_lemma_geode} mais devient le cooccurrent principal de «dans +cette ville». De la même manière, le verbe «mourir» prend le deuxième rang, +alors qu'il n'était que sixième pour «cette ville» seulement. De plus, le +troisième rang est occupé par le verbe «naître» très lié sémantiquement. Absent +jusque-là des histogrammes, il est cependant proche de l'adjectif «natal» +discuté lors de l'analyse de la figure \ref{fig:ville_lemma_geode} et renvoie +directement au procédé utilisé dans l'article WOLSTROPE, à savoir utiliser la +ville de naissance d'une personnalité pour en donner un récit de sa vie. + +{#fig:dans_ce_ville_lemma_geode} + +Cette observation cruciale présente donc ces deux lemmes inattendus comme des +objets incontournables pour poursuivre l'exploration. Dans TXM +[@heiden_txm_2010], on partitionne d'abord les textes par domaines, en +commençant par se restreindre à l'*EDdA*. ### L'influence des domaines {#sec:biography_domains}