Chapitre 1 : des normes et des langues

, par _Eric_

ISO 639, indicatifs de langues

La norme de base concernant les langues est sans conteste la norme ISO 639 qui définit des codes pour la représentation des noms de langues. Les langues sont identifiées par un code unique de 2, 3, ou 4 lettres.

Le standard est composé actuellement de six parties, dont la publication s’est déroulée de 1988 à 2010.

  1. ISO 639-1 (2002) : Codes pour la représentation des noms de langue - Partie 1 : Code alpha-2 ;
  2. ISO 639-2 (1998) : Codes pour la représentation des noms de langue - Partie 2 : Code alpha-3 ;
  3. ISO 639-3 (2007) : Codes pour la représentation des noms de langues - Partie 3 : Code alpha-3 pour un traitement exhaustif des langues ;
  4. ISO 639-4 (2010) : Codes pour la représentation des noms de langue - Partie 4 : Principes généraux pour le codage de la représentation des noms de langue et d’entités connexes, et lignes directrices pour la mise en œuvre ;
  5. ISO 639-5 (2008) : Codes pour la représentation des noms de langue - Partie 5 : Code alpha-3 pour les familles de langues et groupes de langues ;
  6. ISO 639-6 (projet) : Codes pour la représentation des noms de langues - Partie 6 : Code alpha-4 pour un traitement exhaustif des variantes linguistiques.

Par exemple, « fr » est le code alpha-2 (639-1) du français qui s’écrit « fre » en ISO 639-2 et « fra » en ISO 639-3. Les parties 1 et 3 sont les plus utilisées, la partie 3 ayant l’intérêt de compléter les codes de langue de la partie 1 : moins de 200 codes dans l’ISO 639-1 et presque 8000 dans l’ISO 639-3.

ISO 15924, indicatifs d’écriture

L’ISO 15924 définit un indicatif pour près de 150 écritures différentes. Par exemple le français relève de l’écriture latine (Latn), l’amazighe normalisé au Maroc du tifinaghe (Tfng) et le russe du cyrillique (Cyrl).

ISO 3166, indicatifs de pays

L’ISO 3166-1 définit des codes d’identification pour les pays connus . Elle comprend trois répertoires différents :

  • ISO 3166-1 alpha-2 : codes à deux lettres pour de nombreuses applications, notamment les domaines de premier niveau pour chaque pays, ou les codes des unités monétaires ISO 4217.
  • ISO 3166-1 alpha-3 : codes à trois lettres.
  • ISO 3166-1 numeric-3 : codes à trois chiffres, identiques à ceux définis par la Division statistique des Nations unies, dans la spécification UN M.49.

La France possède le code alpha-2 « FR », le code alpha-3 « FRA » et le code numérique « 250 ».

La norme ISO 3166-2, seconde partie de la norme ISO 3166, permet de désigner les principales subdivisions administratives d’un pays par un code en quelques chiffres ou lettres complétant le code ISO 3166-1 du pays.

RFC 5646, étiquettes de langue

La RFC 5646 propose de normaliser la construction des étiquettes de langue qui vont permettent d’identifier le langage utilisé dans un texte informatique. Cette construction va s’appuyer sur les éléments standards définis dans les normes présentées dans les chapitres précédents.

Les étiquettes de langue du RFC 5646 consistent en une série de sous-étiquettes séparées par des traits d’union, sans égard à la casse. Une étiquette s’écrit donc langue principale[-extlang][-écriture][-région](-variante)*(-extension)*[-usage privé].

Chaque type de sous-étiquette a une longueur précise et des restrictions quant à son contenu. Certaines sous-étiquettes sont issues directement des normes précédemment citées comme l’ISO 639 pour langue et extlang, l’ISO 15924 pour l’écriture et l’ISO 3166 pour la région. Toutefois, la RFC 5646 ne retient pas toutes les possibilités des normes pour chaque sous-étiquette concernée. Les sous-étiquettes légitimes sont consignées dans un registre unique tenu à jour par l’IANA. Pour la sous-étiquette « langue », l’IANA n’enregistre qu’un seul code 639 par langue, alors que l’ISO peut en avoir normalisé plusieurs (trois pour le français par exemple : « fr », « fra » et « fre »). Si un code ISO à deux lettres est disponible, celui-ci apparaîtra dans le registre plutôt que le code à 3 lettres.

Le registre IANA contient aussi la liste des variantes et extensions enregistrées et indique si une écriture est souhaitable ou pas pour une code de langue donnée.

P.-S.

Pour plus d’information sur le contenu des normes se référer :

  • au document « Indiquer la langue, l’écriture, le pays dans des documents informatiques » de Patrick Andries, annexé en pdf à la fin de l’article ;
  • aux pages correspondantes de Wikipedia ISO 639, ISO 15924 et ISO 3166 ;
  • à la page Language tags in HTML and XML du W3C.

Le texte de cet article est fortement inspiré de ces ressources.

Le registre de l’IANA concernant les étiquettes de langue est consultable à l’adresse https://www.iana.org/assignments/la...