From 2ed423be9da139098baf5a4e6fd0cb0176ca3faf Mon Sep 17 00:00:00 2001 From: Alice BRENON <alice.brenon@ens-lyon.fr> Date: Thu, 3 Apr 2025 09:49:52 +0200 Subject: [PATCH] Fix the sample size in Parallel's evaluation --- Contrastes/Contours.md | 14 ++++++++------ 1 file changed, 8 insertions(+), 6 deletions(-) diff --git a/Contrastes/Contours.md b/Contrastes/Contours.md index 86847c0..9879aeb 100644 --- a/Contrastes/Contours.md +++ b/Contrastes/Contours.md @@ -800,9 +800,11 @@ que la taille de l'échantillon reste suffisamment faible devant celle de l'ensemble de la population: le rapport de 100 considéré comme suffisant impose donc que l'échantillon comporte moins de $3706/100 = 37.06$ paires. À cette condition, il est à nouveau possible d'utiliser la loi normale pour modéliser le -comportement de ces variables. +comportement de ces variables. Cette contrainte impose une taille assez réduite +et, pour maximiser la force de preuve de l'expérience il convient de ne pas +examiner moins de paires. -Un échantillon de 50 paires a donc été extrait aléatoirement puis vérifié et ne +Un échantillon de 37 paires a donc été extrait aléatoirement puis vérifié et ne comportait que deux fausses paires. La première est SPIEGELBERG discutée plus haut (qui s'est retrouvée par hasard dans l'échantillon). La seconde concerne les entrées PLUVIERS, toutes deux en *Géographie* mais ne désignant pas la même @@ -811,15 +813,15 @@ le nom de Pithiviers (L'Encyclopédie, T12, p.805), mais de l'ancien nom d'une commune de la Dordogne désormais appelée Piégut pour *LGE* (La Grande Encyclopédie, T26, p.1146). De même que lors de l'échantillonnage précédent de la section \ref{sec:classifying_lge}, on utilise la moyenne empirique pour -estimer la qualité $q$ dans $\mathcal{P}$ valant $m = \frac{48}{50} = 0.96$. -L'application numérique \ref{eq:parallel_corpus_quality_range_numerical} de la -borne inférieure de la formule \ref{eq:quality_range_algebraic} +estimer la qualité $q$ dans $\mathcal{P}$ valant $m = \frac{35}{37} \approx +0.946$. L'application numérique \ref{eq:parallel_corpus_quality_range_numerical} +de la borne inférieure de la formule \ref{eq:quality_range_algebraic} p.\pageref{eq:quality_range_algebraic} permet d'affirmer avec moins de 5% de risque d'erreur que la qualité réelle dans le sous-corpus Parallèle est d'au moins \begin{equation} - m - z_{97.5\%} \times \sqrt{\frac{m \times (1- m)}{n}} = 90.6\% + m - z_{97.5\%} \times \sqrt{\frac{m \times (1- m)}{n}} = 87.3\% \label{eq:parallel_corpus_quality_range_numerical} \end{equation} -- GitLab