Skip to content
GitLab
Explore
Sign in
Primary navigation
Search or go to…
Project
M
manuscrit
Manage
Activity
Members
Labels
Plan
Issues
0
Issue boards
Milestones
Wiki
Code
Merge requests
0
Repository
Branches
Commits
Tags
Repository graph
Compare revisions
Snippets
Build
Pipelines
Jobs
Pipeline schedules
Artifacts
Deploy
Releases
Package Registry
Model registry
Operate
Environments
Terraform modules
Monitor
Incidents
Analyze
Value stream analytics
Contributor analytics
CI/CD analytics
Repository analytics
Model experiments
Help
Help
Support
GitLab documentation
Compare GitLab plans
Community forum
Contribute to GitLab
Provide feedback
Keyboard shortcuts
?
Snippets
Groups
Projects
Show more breadcrumbs
Alice Brenon
manuscrit
Commits
2ed423be
Commit
2ed423be
authored
3 months ago
by
Alice Brenon
Browse files
Options
Downloads
Patches
Plain Diff
Fix the sample size in Parallel's evaluation
parent
209ea32c
No related branches found
No related tags found
No related merge requests found
Changes
1
Hide whitespace changes
Inline
Side-by-side
Showing
1 changed file
Contrastes/Contours.md
+8
-6
8 additions, 6 deletions
Contrastes/Contours.md
with
8 additions
and
6 deletions
Contrastes/Contours.md
+
8
−
6
View file @
2ed423be
...
...
@@ -800,9 +800,11 @@ que la taille de l'échantillon reste suffisamment faible devant celle de
l'ensemble de la population: le rapport de 100 considéré comme suffisant impose
donc que l'échantillon comporte moins de $3706/100 = 37.06$ paires. À cette
condition, il est à nouveau possible d'utiliser la loi normale pour modéliser le
comportement de ces variables.
comportement de ces variables. Cette contrainte impose une taille assez réduite
et, pour maximiser la force de preuve de l'expérience il convient de ne pas
examiner moins de paires.
Un échantillon de
50
paires a donc été extrait aléatoirement puis vérifié et ne
Un échantillon de
37
paires a donc été extrait aléatoirement puis vérifié et ne
comportait que deux fausses paires. La première est SPIEGELBERG discutée plus
haut (qui s'est retrouvée par hasard dans l'échantillon). La seconde concerne
les entrées PLUVIERS, toutes deux en
*Géographie*
mais ne désignant pas la même
...
...
@@ -811,15 +813,15 @@ le nom de Pithiviers (L'Encyclopédie, T12, p.805), mais de l'ancien nom d'une
commune de la Dordogne désormais appelée Piégut pour
*LGE*
(La Grande
Encyclopédie, T26, p.1146). De même que lors de l'échantillonnage précédent de
la section
\r
ef{sec:classifying_lge}, on utilise la moyenne empirique pour
estimer la qualité $q$ dans $
\m
athcal{P}$ valant $m =
\f
rac{
48}{50} = 0.96$.
L'application numérique
\r
ef{eq:parallel_corpus_quality_range_numerical}
de la
borne inférieure de la formule
\r
ef{eq:quality_range_algebraic}
estimer la qualité $q$ dans $
\m
athcal{P}$ valant $m =
\f
rac{
35}{37}
\a
pprox
0.
946$.
L'application numérique
\r
ef{eq:parallel_corpus_quality_range_numerical}
de la
borne inférieure de la formule
\r
ef{eq:quality_range_algebraic}
p.
\p
ageref{eq:quality_range_algebraic} permet d'affirmer avec moins de 5% de
risque d'erreur que la qualité réelle dans le sous-corpus Parallèle est d'au
moins
\b
egin{equation}
m - z_{97.5
\%
}
\t
imes
\s
qrt{
\f
rac{m
\t
imes (1- m)}{n}} =
90.6
\%
m - z_{97.5
\%
}
\t
imes
\s
qrt{
\f
rac{m
\t
imes (1- m)}{n}} =
87.3
\%
\l
abel{eq:parallel_corpus_quality_range_numerical}
\e
nd{equation}
...
...
This diff is collapsed.
Click to expand it.
Preview
0%
Loading
Try again
or
attach a new file
.
Cancel
You are about to add
0
people
to the discussion. Proceed with caution.
Finish editing this message first!
Save comment
Cancel
Please
register
or
sign in
to comment