Chapitre 1 : des normes et des langues

vendredi 31 août 2018, par _Eric_

Sommaire

ISO 639, indicatifs de langues
ISO 15924, indicatifs d’écriture
ISO 3166, indicatifs de pays
RFC 5646 et BCP 47, étiquettes de langue

ISO 639, indicatifs de langues

La norme de base concernant les langues est sans conteste la norme ISO 639 qui définit des codes pour la représentation des noms de langues. Les langues sont identifiées par un code unique de 2, 3, ou 4 lettres.

Le standard est composé actuellement de six parties, dont la publication s’est déroulée de 1988 à 2010.

ISO 639-1 (2002) : Codes pour la représentation des noms de langue - Partie 1 : Code alpha-2 ;
ISO 639-2 (1998) : Codes pour la représentation des noms de langue - Partie 2 : Code alpha-3 ;
ISO 639-3 (2007) : Codes pour la représentation des noms de langues - Partie 3 : Code alpha-3 pour un traitement exhaustif des langues ;
ISO 639-4 (2010) : Codes pour la représentation des noms de langue - Partie 4 : Principes généraux pour le codage de la représentation des noms de langue et d’entités connexes, et lignes directrices pour la mise en œuvre ;
ISO 639-5 (2008) : Codes pour la représentation des noms de langue - Partie 5 : Code alpha-3 pour les familles de langues et groupes de langues ;
ISO 639-6 (projet) : Codes pour la représentation des noms de langues - Partie 6 : Code alpha-4 pour un traitement exhaustif des variantes linguistiques (projet abandonné).

Par exemple, « fr » est le code alpha-2 (639-1) du français qui s’écrit « fre » en ISO 639-2 et « fra » en ISO 639-3. Les parties 1 et 3 sont les plus utilisées, la partie 3 ayant l’intérêt de compléter les codes de langue de la partie 1 : moins de 200 codes dans l’ISO 639-1 et presque 8000 dans l’ISO 639-3.

ISO 15924, indicatifs d’écriture

L’ISO 15924 définit un indicatif pour près de 150 écritures différentes. Par exemple le français relève de l’écriture latine (Latn), l’amazighe normalisé au Maroc du tifinaghe (Tfng) et le russe du cyrillique (Cyrl).

ISO 3166, indicatifs de pays

L’ISO 3166-1 définit des codes d’identification pour les pays connus . Elle comprend trois répertoires différents :

ISO 3166-1 alpha-2 : codes à deux lettres pour de nombreuses applications, notamment les domaines de premier niveau pour chaque pays, ou les codes des unités monétaires ISO 4217.
ISO 3166-1 alpha-3 : codes à trois lettres.
ISO 3166-1 numeric-3 : codes à trois chiffres, identiques à ceux définis par la Division statistique des Nations unies, dans la spécification UN M.49.

La France possède le code alpha-2 « FR », le code alpha-3 « FRA » et le code numérique « 250 ».

La norme ISO 3166-2, seconde partie de la norme ISO 3166, permet de désigner les principales subdivisions administratives d’un pays par un code en quelques chiffres ou lettres complétant le code ISO 3166-1 du pays.

RFC 5646 et BCP 47, étiquettes de langue

La RFC 5646 propose de normaliser la construction des étiquettes de langue qui vont permettent d’identifier le langage utilisé dans un texte informatique. Cette construction va s’appuyer sur les éléments standards définis dans les normes présentées dans les chapitres précédents.

Les étiquettes de langue du RFC 5646 consistent en une série de sous-étiquettes séparées par des traits d’union, sans égard à la casse. Une étiquette s’écrit donc langue principale[-extlang][-écriture][-région](-variante)*(-extension)*[-usage privé].

Chaque type de sous-étiquette a une longueur précise et des restrictions quant à son contenu. Certaines sous-étiquettes sont issues directement des normes précédemment citées comme l’ISO 639 pour langue et extlang, l’ISO 15924 pour l’écriture et l’ISO 3166 pour la région. Toutefois, la RFC 5646 ne retient pas toutes les possibilités des normes pour chaque sous-étiquette concernée. Les sous-étiquettes légitimes sont consignées dans un registre unique tenu à jour par l’IANA. Pour la sous-étiquette « langue », l’IANA n’enregistre qu’un seul code 639 par langue, alors que l’ISO peut en avoir normalisé plusieurs (trois pour le français par exemple : « fr », « fra » et « fre »). Si un code ISO à deux lettres est disponible, celui-ci apparaîtra dans le registre plutôt que le code à 3 lettres.

Le registre IANA contient aussi la liste des variantes et extensions enregistrées et indique si une écriture est souhaitable ou pas pour une code de langue donnée.

La Taverne à Tonton