Skip to content
Snippets Groups Projects
Commit 2ed423be authored by Alice Brenon's avatar Alice Brenon
Browse files

Fix the sample size in Parallel's evaluation

parent 209ea32c
No related branches found
No related tags found
No related merge requests found
......@@ -800,9 +800,11 @@ que la taille de l'échantillon reste suffisamment faible devant celle de
l'ensemble de la population: le rapport de 100 considéré comme suffisant impose
donc que l'échantillon comporte moins de $3706/100 = 37.06$ paires. À cette
condition, il est à nouveau possible d'utiliser la loi normale pour modéliser le
comportement de ces variables.
comportement de ces variables. Cette contrainte impose une taille assez réduite
et, pour maximiser la force de preuve de l'expérience il convient de ne pas
examiner moins de paires.
Un échantillon de 50 paires a donc été extrait aléatoirement puis vérifié et ne
Un échantillon de 37 paires a donc été extrait aléatoirement puis vérifié et ne
comportait que deux fausses paires. La première est SPIEGELBERG discutée plus
haut (qui s'est retrouvée par hasard dans l'échantillon). La seconde concerne
les entrées PLUVIERS, toutes deux en *Géographie* mais ne désignant pas la même
......@@ -811,15 +813,15 @@ le nom de Pithiviers (L'Encyclopédie, T12, p.805), mais de l'ancien nom d'une
commune de la Dordogne désormais appelée Piégut pour *LGE* (La Grande
Encyclopédie, T26, p.1146). De même que lors de l'échantillonnage précédent de
la section \ref{sec:classifying_lge}, on utilise la moyenne empirique pour
estimer la qualité $q$ dans $\mathcal{P}$ valant $m = \frac{48}{50} = 0.96$.
L'application numérique \ref{eq:parallel_corpus_quality_range_numerical} de la
borne inférieure de la formule \ref{eq:quality_range_algebraic}
estimer la qualité $q$ dans $\mathcal{P}$ valant $m = \frac{35}{37} \approx
0.946$. L'application numérique \ref{eq:parallel_corpus_quality_range_numerical}
de la borne inférieure de la formule \ref{eq:quality_range_algebraic}
p.\pageref{eq:quality_range_algebraic} permet d'affirmer avec moins de 5% de
risque d'erreur que la qualité réelle dans le sous-corpus Parallèle est d'au
moins
\begin{equation}
m - z_{97.5\%} \times \sqrt{\frac{m \times (1- m)}{n}} = 90.6\%
m - z_{97.5\%} \times \sqrt{\frac{m \times (1- m)}{n}} = 87.3\%
\label{eq:parallel_corpus_quality_range_numerical}
\end{equation}
......
0% Loading or .
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment