Chapitre 3 : étiquettes SPIP alpha-2 et alpha-3

, par _Eric_

Introduction

Dans sa dernière version stable 3.2.1, SPIP définit une liste de 196 langues (fichier inc/lang_liste.php) :

  • 150 sont composées d’une seule sous-étiquette désignant la langue principale sur 2 caractères alphabétiques devant correspondre à l’un des codes alpha-2 de la norme ISO 639-1.
  • 18 sont composées d’une seule sous-étiquette désignant la langue principale sur 3 caractères alphabétiques devant correspondre à l’un des codes alpha-3 de la norme ISO 639-3.

Etiquettes dépréciées, règle R3

L’étiquette de langue « mo »
Cette étiquette dont le nom anglais de référence est « moldovian » est dépréciée depuis 2008 d’après le répertoire IANA qui préconise d’utiliser le code « ro » à la place. Le problème c’est que ce code « ro » est déjà utilisé par SPIP pour la langue roumaine. En fouillant dans les dépôts SVN on ne trouve aucune trace d’un fichier de langue « mo » et sur le site Traduire SPIP, la langue « mo » n’est même pas référencée : Il semble que la langue « mo » puisse être carrément supprimée de la liste, la langue « ro » est a priori suffisante et déjà traduite partiellement.

Etiquettes de famille de langue, règle R1

L’étiquette de langue « bh »
Elle fait référence aujourd’hui à une famille de langues dont le nom anglais est « Bihari Languages ». Cette désignation date de 2009, auparavant le nom était « Bihari ». On comprend qu’à cette date le code a été classé dans les familles de langue et intégré dans l’ISO 639-5.

Si on consulte Wikipedia on découvre que cette famille contient les langues suivantes : bhojpuri « bho », maithili « mai », magahi « mag », bajjika, khortha, angika « anp », panchpargania « tdb », surajpuri, sadri « sck », musasa « smm », kudmali « kyw », majhi « bmj » qui possèdent pour la plupart un code ISO 639-3 de langue individuelle. Une recherche dans Traduire SPIP et dans les dépôts SVN ne permet pas d’identifier une trace de traduction. Deux actions sont possibles : supprimer la langue « bh » ce qui parait le plus évident ou trouver la langue individuelle correspondante.

L’étiquette de langue « cpf »
Elle fait référence aujourd’hui à la famille de langues des créoles et pidgins à base lexicale française. Les langues de cette famille sont nombreuses néanmoins si l’on fait confiance au nom SPIP de cette langue il s’agit du créole réunionnais (kréol réyoné) qui possède un code ISO 639-3 valide IANA, « rcf », depuis 2009. Pour corriger cette étiquette il suffit d’utiliser l’étiquette « rcf » à la place de « cpf ».

L’étiquette de langue « roa »
Elle fait référence aujourd’hui à la famille des langues romanes. Les langues de cette famille sont nombreuses néanmoins si l’on fait confiance au nom SPIP de cette langue il s’agit du picard (ch’ti, chtimi, rouchi) qui possède un code ISO 639-3 valide IANA, « pcd », depuis 2013. Pour corriger cette étiquette il suffit d’utiliser l’étiquette « pcd » à la place de « roa ».

Etiquettes de macro-langage, règle R2

Le tableau ci-dessous donne la liste des étiquettes de langue SPIP valides au sens de l’IANA et des normes ISO 639 mais qui désigne un macro-langage et non une langue individuelle. Ce n’est pas forcément un problème mais chaque étiquette doive être étudiée une par une pour le savoir.

ar ara Arabic x La macro-langue arabe possède quelques 30 langues individuelles identifiées dans l’ISO 639-3. On distingue, par exemple, l’arabe marocain (« ary »), tunisien (« aeb »), omanais (« acx »)...
ay aym Aymara x La macro-langue aymara possède 2 langues individuelles identifiées dans l’ISO 639-3, l’aymara central (« ayr ») et l’aymara méridional (« ayc »).
az aze Azerbaijani La macro-langue azéri possède 2 langues individuelles identifiées dans l’ISO 639-3, l’azéri du nord (« azj ») et l’azéri du sud (« azb »).
et est Estonian x La macro-langue estonienne possède 2 langues individuelles identifiées dans l’ISO 639-3, l’estonien standard (« ekk ») et le võro (« vro »).
fa fas Persian x Le persan est une macro-langue qui possède 2 langues individuelles identifiées dans l’ISO 639-3, le persan iranien (« pes ») et le dari (« prs »). Néanmoins, SPIP possède aussi le dari « prs » comme langue ce qui pourrait indiquer que la désignation « fa » serait plutôt du perse iranien et devrait être renommée en « pes ».
ff ful Fulah x Le peul est une macro-langue qui possède 9 langues individuelles identifiées dans l’ISO 639-3 comme le pular (« fuf »), le peul nigérian (« fuv »)...
gn grn Guarani Le guarani est une macro-langue qui possède 5 langues individuelles dans l’ISO 639-3 comme le guarani paraguayen (« gug »), le guarani mbyá (« gun »)...
ik ipk Inupiaq L’inupiaq est une macro-langue qui possède 2 langues individuelles dans l’ISO 639-3, l’inupiaq du nord-ouest de l’Alaska (« esk ») et celui du nord de l’Alaska (« esi »).
iu iku Inuktitut x L’inuktitut est une macro-langue qui possède 2 langues individuelles dans l’ISO 639-3, l’inuktitut de l’est du Canada (« ike ») et l’inuinnaqtun (« ekt »).
kok Konkani Le konkani est une macro-langue qui possède 2 langues individuelles dans l’ISO 639-3, le konkani de Goa (« gom ») et le konkani lui-même (« knn »). On peut se demander si il ne faudrait pas utiliser « knn » au lieu de « kok » dans SPIP. L’autre solution est de supprimer cette langue qui n’est pas traduite.
ku kur Kurdish x Le kurde est une macro-langue qui possède 3 langues individuelles dans l’ISO 639-3, celle du centre (« ckb »), celle du nord (« kmr ») et celle du sud (« sdh »)
lv lav Latvian x Le letton est une macro-langue qui possède 2 langues individuelles dans l’ISO 639-3, le letton standard (« lvs ») et le latgalien (« ltg »).
man Mandingo Le mandingue est un macro-langage qui possède selon l’ISO 639-3 6 langues individuelles comme le mandinka (« mnk »). Mais le contour des langues mandingues est très flou d’après les spécialistes ce qui fait qu’utiliser l’étiquette « man » est vraiment inadaptée. Comme il n’y a aucune traduction actuellement, il serait judicieux de supprimer cette étiquette.
mg mlg Malagasy x Le malgache est un macro-langage qui possède selon l’ISO 639-3 11 langues individuelles comme le malgache du plateau (« plt ») ou le malgache bara (« bhr »). Le malgache du plateau est considéré comme la langue officielle, elle pourrait donc être utilisée pour désigner l’étiquette de SPIP (à vérifier). Dans ce cas, il serait préférable d’utiliser « plt » au lieu de « mg ».
mn mon Mongolian Le mongol est une macro-langue qui possède 2 langues individuelles dans l’ISO 639-3, le mongol Halh (« khk ») et le mongol peripherial (« mvf »). Il existe un ou deux modules dans TradLang en mongol mais aucune chaine n’est traduite. On pourrait donc supprimer simplement cette étiquette.
ms msa Malay Le malais est une macro-langue qui possède plus de 30 langues individuelles dans l’ISO 639-3 ; le malais en tant que langue individuelle possède l’étiquette « zlm » et le malais standard l’étiquette « zsm ». Néanmoins, il n’existe actuellement aucune traduction ni dans TradLang ni sur la Zone. Il est donc possible de supprimer cette étiquette.
ne nep Nepali x Le népalais est une macro-langue qui possède deux langues individuelles dans l’ISO 639-3, le népalais lui-même en tant que langue individuelle qui possède l’étiquette « npi » et le dotyali qui possède l’étiquette « dty ». Il serait donc préférable d’utiliser l’étiquette « npi » pour désigner la langue individuelle népalais si c’est bien la traduction recherchée (ce qui est probable).
no nno Norwegian x Le norvégien est un macro-langage qui possède deux langues individuelles dans l’ISO 639-3 mais aussi dans l’ISO 639-1, à savoir, le nynorsk « nn » et le Bokmål « nb ». SPIP possède aussi l’étiquette « nb » pour désigner les traductions en Bokmål. Il suffit donc renommer l’étiquette « no » en « nn » pour désigner le nynorsk.
om orm Oromo L’oromo est une macro-langue qui possède 4 langues individuelles dans l’ISO 639-3, le Borana-Arsi-Guji Oromo (« gax »), l’oromo oriental (« hae »), l’oromo du centre ouest (« gaz ») et l’orma (« orc »). Comme il n’existe aucune traduction sur la zone ni dans Tradlang, le plus simple serait de supprimer cette étiquette.
or ori Oriya L’oriya est une macro-langue qui possède 2 langues individuelles dans l’ISO 639-3, l’odia (« ory ») et le Sambalpuri (« spv »). Comme il n’existe aucune traduction sur la zone ni dans Tradlang, le plus simple serait de supprimer cette étiquette.
ps pus Pushto x Le pashto est une macro-langue qui possède 3 langues individuelles dans l’ISO 639-3, le pashto central (« pst »), la pashto du nord (« pbu ») et celui du sud (« pbt »). Il existe quelques traductions de ce langage, il faudrait donc trouver quelle langue exacte a été utilisée pour renommer l’étiquette.
qu que Quechua x Le quechua est une macro-langue qui possède plus de 30 langues individuelles dans l’ISO 639-3 ; Il existe quelques traductions ce qui ne permet pas de supprimer cette étiquette. Néanmoins, il serait intéressant de savoir quelle langue quechua est traduite.
sc srd Sardinian x Le sarde est une macro-langue qui possède 4 langues individuelles dans l’ISO 639-3, le logoudorais (« src ») et le campidanais (« sro ») qui représentent les formes les plus courantes , mais aussi le gallurais (« sdn ») et le sassarais (« sdc »). SPIP propose des traductions pour le logoudorais et le campidanais. Il est donc important de savoir si les traductions en « sc » sont représentatives du gallurais ou sassarais, ou si cela est constitutif d’une erreur (duplication) ce qui amènerait à la supprimer.
sh hbs Serbo-Croatian x Le serbo-croate est aujourd’hui considéré comme une macro-langue composé de 4 langues individuelles qui possèdent une étiquette ISO 639-3 et parfois ISO 639-1, à savoir, le serbe « sr », le croate « hr », le bosniaque « bs » et le monténégrin « cnr ». La problématique est assez complexe car l’étiquette « sh » est considérée comme dépréciée et SPIP déclare des traductions pour les étiquettes « sr », « bs », « hr » mais aussi « sh_latn » et « sh_cyrl ». Les étiquettes composées seront discutées dans l’article suivant mais on peut dire que l’étiquette « sh » est à revoir absolument car elle ne correspond à rien de compréhensible aujourd’hui.
sq sqi Albanian x L’albanais est une macro-langue qui possède 4 langues individuelles dans l’ISO 639-3, le guège (« aln ») et le tosque (« als ») qui représentent les formes les plus courantes , mais aussi l’arbëreshë (« aae ») et l’arvanitika (« aat »). L’albanais standard est basé sur le tosque. Si les traductions SPIP concernent bien le tosque, il serait préférable de renommer l’étiquette en « als ».
sw swa Swahili x Le swahili est une macro-langue qui possède deux langues individuelles dans l’ISO 639-3, le swahili lui-même en tant que langue individuelle qui possède l’étiquette « swh » et le swahili du Congo qui possède l’étiquette « swc ». Il serait donc préférable d’utiliser l’étiquette « swh » pour désigner la langue individuelle swhaili si c’est bien la traduction recherchée (ce qui est probable).
uz uzb Uzbek L’ouzbek est une macro-langue qui possède 2 langues individuelles dans l’ISO 639-3, l’ouzbek du nord (« uzn ») et l’ouzbek du sud (« uzs »). Il n’existe aujourd’hui aucune traduction ni sur la Zone ni dans TradLang. Il est donc possible de supprimer cette étiquette.
yi yid Yiddish Le yiddish est une macro-langue qui possède 2 langues individuelles dans l’ISO 639-3, le yiddish oriental (« ydd ») qui est la forme la plus commune aujourd’hui et le yiddish occidental (« yih »). Il n’existe aujourd’hui aucune traduction ni sur la Zone ni dans TradLang. Il est donc possible de supprimer cette étiquette.
za zha Zhuang Le zhuang est une macro-langue qui possède 16 langues individuelles dans l’ISO 639-3 comme le Yang Zhuang (« zyg »). Les langages ne sont pas tous compréhensibles entre eux ce qui pousse à choisir une langue individuelle plutôt que la macro-langue. Néanmoins, il n’existe aujourd’hui aucune traduction ni sur la Zone ni dans TradLang. Il est donc possible de supprimer cette étiquette.
zh zho Chinois x Le chinois est une macro-langue qui possède 14 langues individuelles dans l’ISO 639-3 comme le mandarin (« cmn »), le cantonais (« yue ») ou le Wu (« wuu »). Le mandarin est la forme la plus répandue et est à la base du chinois standard. Il faudrait donc vérifier que les traductions en chinois de SPIP concernent bien le mandarin et dans ce cas, Il serait préférable d’utiliser l’étiquette « cmn ».