From d31c005238c8ec1afaff035979afecb48dacd190 Mon Sep 17 00:00:00 2001 From: Alice BRENON <alice.brenon@ens-lyon.fr> Date: Fri, 28 Mar 2025 17:41:16 +0100 Subject: [PATCH] Remove phrase which distracted from the point of the whole sentence --- Corpus/Application.md | 47 +++++++++++++++++++++---------------------- 1 file changed, 23 insertions(+), 24 deletions(-) diff --git a/Corpus/Application.md b/Corpus/Application.md index 1e6e1b0..277f333 100644 --- a/Corpus/Application.md +++ b/Corpus/Application.md @@ -535,30 +535,29 @@ Mais la reproductibilité (au sens large à nouveau, hors de celui défini par l tableau \ref{table:reproducibility_4_flavours}) peut également apporter aux phases d'investigation des [@=HN]. La nature irrégulière des objets d'étude gêne le développement de traitements s'appliquant parfaitement à toutes les données. -À l'échelle mésoscopique du présent corpus — la taille proverbialement grande -des encyclopédies empêche une étude qualitative d'une des œuvres en détail, à -fortiori de deux, mais les volumes de données en jeu restent très largement -inférieurs aux mégadonnées générées par les collectes automatiques de -dispositifs numériques — il faut considérer que tout ce qui peut arriver -arrivera. En ce qui concerne les désignants par exemple, il suffit quasiment -d'envisager l'existence d'une régularité et de tenter de la capturer dans un -motif pour qu'il soit contredit par une donnée du corpus, qu'elle ait réellement -été produite telle quelle par un choix ou une erreur humaine ou qu'elle émerge à -cause des bruits générés par les imperfections des différentes étapes de -traitement (vieillissement du papier et de l'encre, qualité de la numérisation, -performances de l'[@=OCR]…). Ainsi, dans ce type d'étude il s'agit en permanence -de placer un curseur entre ce qui est acceptable pour répondre à une question -précise et ce qui est perfectible en vue d'études futures. Trouver cet équilibre -engendre un va-et-vient continu entre traitement des données et analyses. Pour -cette raison, les choix faits dans la représentation du corpus et en particulier -dans la conception des métadonnées favorisent la plus grande flexibilité, en -tâchant de minimiser l'effort nécessaire pour relancer les traitements affectés -par un changement dans une donnée. Cette stratégie repose sur le constat -empirique qu'il est vain d'espérer que la première version sera la bonne et -qu'il vaut mieux considérer toutes les données en aval dans la chaîne de -dépendance comme temporaires, susceptibles de mises à jour et donc jetables. La -détermination d'un ensemble de domaines de connaissance présentée à la -sous-section \ref{sec:domains_build_classes} +À l'échelle mésoscopique du présent corpus — la taille des encyclopédies est +proverbialement grande des encyclopédies, mais les volumes de données en jeu +restent très largement inférieurs aux mégadonnées générées par les collectes +automatiques de dispositifs numériques — il faut considérer que tout ce qui peut +arriver arrivera. En ce qui concerne les désignants par exemple, il suffit +quasiment d'envisager l'existence d'une régularité et de tenter de la capturer +dans un motif pour qu'il soit contredit par une donnée du corpus, qu'elle ait +réellement été produite telle quelle par un choix ou une erreur humaine ou +qu'elle émerge à cause des bruits générés par les imperfections des différentes +étapes de traitement (vieillissement du papier et de l'encre, qualité de la +numérisation, performances de l'[@=OCR]…). Ainsi, dans ce type d'étude il s'agit +en permanence de placer un curseur entre ce qui est acceptable pour répondre à +une question précise et ce qui est perfectible en vue d'études futures. Trouver +cet équilibre engendre un va-et-vient continu entre traitement des données et +analyses. Pour cette raison, les choix faits dans la représentation du corpus et +en particulier dans la conception des métadonnées favorisent la plus grande +flexibilité, en tâchant de minimiser l'effort nécessaire pour relancer les +traitements affectés par un changement dans une donnée. Cette stratégie repose +sur le constat empirique qu'il est vain d'espérer que la première version sera +la bonne et qu'il vaut mieux considérer toutes les données en aval dans la +chaîne de dépendance comme temporaires, susceptibles de mises à jour et donc +jetables. La détermination d'un ensemble de domaines de connaissance présentée à +la sous-section \ref{sec:domains_build_classes} p.\pageref{sec:domains_build_classes} d'une façon très linéaire résulte en réalité de ce type de négociation entre code et données. Naturellement, pour que ces allers et retours conduisent à un processus d'amélioration continue plutôt -- GitLab