From 8a743a51968375bc57eeb3c0cdbd4d8a64c99217 Mon Sep 17 00:00:00 2001
From: =?UTF-8?q?Fran=C3=A7oise=20Conil?= <francoise.conil@insa-lyon.fr>
Date: Wed, 4 Jan 2023 16:52:09 +0100
Subject: [PATCH] Quelques corrections aux informations sur les encodages
 (typos et formulations)

---
 doc/encodages.md | 29 +++++++++++++++--------------
 1 file changed, 15 insertions(+), 14 deletions(-)

diff --git a/doc/encodages.md b/doc/encodages.md
index bd7a224..f5fd884 100644
--- a/doc/encodages.md
+++ b/doc/encodages.md
@@ -1,6 +1,6 @@
 # Encodages
 
-L'[encodage de caractÃ¨res](https://en.wikipedia.org/wiki/Character_encoding)
+L'[encodage de caractÃ¨res](https://en.wikipedia.org/wiki/Character_encoding),
 c'est associer des nombres Ã  des caractÃ¨res graphiques dont les lettres
 utilisÃ©es dans les diffÃ©rentes Ã©critures.
 
@@ -11,11 +11,11 @@ Aujourd'hui, l'encodage [utf-8](https://en.wikipedia.org/wiki/UTF-8) est
 largement utilisÃ©.
 
 Auparavant, l'encodage [latin1](https://en.wikipedia.org/wiki/ISO/IEC_8859-1)
-Ã©tait trÃ¨s utilisÃ©. Il permettait d'avoir les caractÃ¨res de base et une bonne
-partie des caractÃ¨res accentuÃ©s europÃ©ens.
+Ã©tait trÃ¨s utilisÃ©. Il permettait d'avoir les caractÃ¨res de base et plusieurs
+caractÃ¨res accentuÃ©s europÃ©ens.
 
 Windows utilise historiquement un encodage similaire au latin1 mais diffÃ©rent
-[Windows-1252](https://en.wikipedia.org/wiki/Windows-1252).
+: [Windows-1252](https://en.wikipedia.org/wiki/Windows-1252).
 
 Les pages web que l'on a vues sont encodÃ©es en **utf-8**.
 
@@ -28,12 +28,12 @@ L'article [How does UTF-8 turn â€œðŸ˜‚â€ into â€œF09F9882â€?](https://sethmlar
 explique le fonctionnement de cet encodage qui utilise un nombre variable
 d'octets pour reprÃ©senter les caractÃ¨res.
 
-GrÃ¢ce Ã  Unicode et utf-8, on peut utiliser tous les caaractÃ¨res que l'on
+GrÃ¢ce Ã  Unicode et utf-8, on peut utiliser tous les caractÃ¨res que l'on
 souhaite dans une page, ce qui n'Ã©tait pas possible avec les anciens encodages
-comme latin1 et autres anciens encodages.
+comme latin1.
 
-Le caractÃ¨re "Ã¨" est par exemple associÃ© Ã  l'entier `232`, soit `0xe8` en
-[hexadÃ©cimal](https://fr.wikipedia.org/wiki/Syst%C3%A8me_hexad%C3%A9cimal)
+Prenons comme exemple, le caractÃ¨re "Ã¨" associÃ© Ã  l'entier `232`, soit `0xe8`
+en [hexadÃ©cimal](https://fr.wikipedia.org/wiki/Syst%C3%A8me_hexad%C3%A9cimal)
 
 ```python
 >>> ord("Ã¨")
@@ -46,13 +46,13 @@ En latin1, les caractÃ¨res sont codÃ©s sur un octet et on verra bien `0xe8` pour
 le caractÃ¨re "Ã¨".
 
 ```python
->>> "Ã¨".encode("latin1"
+>>> "Ã¨".encode("latin1")
 b'\xe8'
 ```
 
 En utf-8, les caractÃ¨res dont la valeur est supÃ©rieure ou Ã©gale Ã  `0x80` sont
-codÃ©s sur 2 octets. Une partie des octets sert Ã  indiquer quelle catÃ©gorie de
-caractÃ¨re est encodÃ©.
+codÃ©s sur 2 octets. Une partie des octets sert Ã  indiquer sur combien d'octets
+un caractÃ¨re est encodÃ©.
 
 ```python
 >>> "Ã¨".encode("utf-8")
@@ -66,8 +66,9 @@ dÃ©codant comme du latin1, on obtient des caractÃ¨res erronÃ©s : ouvrir
 Dans l'encodage du caractÃ¨re "Ã¨" sur 2 octets, les 3 premiers bits du premier
 octet sont `110`, les 2 premiers bits du 2Ã¨me octet sont `10`.
 
-Lorsque l'on rÃ©cupÃ¨re les 11 bits qui codent le nombre associÃ© au caractÃ¨re
-"Ã¨", `00011101000` on retrouve bien l'entier 232 (0xe8 en hexadÃ©cimal).
+Lorsque l'on rÃ©cupÃ¨re les 11 autres bits qui codent le nombre associÃ© au
+caractÃ¨re "Ã¨" : `00011` + `101000` => `00011101000`, on retrouve bien l'entier
+232 (0xe8 en hexadÃ©cimal).
 
 ```python
 >>> bin(0xc3a8)
@@ -87,7 +88,7 @@ utf-8 en latin1.
 $ iconv -f utf-8 -t latin1 basic_utf8.html -o basic_latin1.html
 ```
 
-##Â Visualiser l'encodage utilisÃ©
+## Visualiser l'encodage utilisÃ©
 
 Pourquoi le codage est-il diffÃ©rent en latin1 et en utf-8 ? Ã€ cause de la
 longueur variable des caractÃ¨res.
-- 
GitLab