Ton message décrit bien ce que certains japonais reprochent à unicode, mais passe à coté des raisons pour lesquelles c’est injuste et délirant.
Il est vrai que unicode pose cette difficulté quand on veut mélanger japonais et chinois dans un même texte, mais comment cela se passe-t-il si on utilise un des encodages japonais ou chinois courants à la place pour ce texte ?
Eh bien, non seulement on a le même problème, mais en fait la majorité des caractères chinois ne seront tout simplement pas représentables en sjis. Avec 20 000 caractères chinois de base dans unicode, il est même beaucoup plus probable d’arriver à y représenter un caractère rare qu’en sjis ou même big-5. Et cela, c’est sans compter avec l’extension récente de 40 000 caractères suplémentaires.
Il est vrai que si l’on parle par exemple de deux sites web différents l’un en chinois et l’autre en japonais le problème est d’actulité en théorie.
Mais que constate-t-on en pratique ? Les auteurs de pages web ne se donnent même pas la peine d’indiquer l’encodage de leurs pages, et un navigateur configuré pour le japonais n’affichera pas un site chinois sans intervention manuelle.
L’utilisateur lambda sera bien en peine de deviner quel encodage il faut choisir pour corriger cela, alors que si tous utilisait unicode, il aurait au moins vu le texte.
Il reste qu’unicode se concentre sur l’aspect sémantique d’un caractère, et pas sur le fait de coder chaque différence d’aspect par un caractère différent, ce qui est délibérément et définitivement délégué au niveau du choix de la police utilisée pour l’affichage.
Pour représenter l’infinie variété des variantes possible et les innombrables caractères qui peuvent être inventés à tout moment un ressource spécialisée est nécessaire comme celle de mojikyo : http://www.mojikyo.org/html/abroad/index_e.html
Mais ce type de site répond à un besoin de spécialistes et pas à celui d’échanger des données sous une forme correctement standardisée et sera disponibles par avance sur l’ordinateur du destinataire.
Quand a l’inconvénient de compacité, elle oublie un peu vite que c’est surtout dû à des choix par lesquels unicode simplifie énormément la manipulation des chaînes par rapport aux autres encodages.
La forme sur deux octets compense l’inconvenient de représenter l’ASCII sur deux octets par la simplicité d’une longueur fixe, et la forme a longueur variable doit le fait qu’elle représente les caractères chinois sur trois octet au lieu de deux, a des propriété de synchronisation garantie extrêmement utiles dans les déplacement et les recherches de texte.
Je peux rechercher une chaîne dans un texte UTF-8 par comparaison binaire sans connnaître rien aux propriétés d’UTF-8. En EUC-JP, pour faire la même chose, il faut un utilitaire qui sait se synchroniser sur tout le texte.
Salut, Erwann
Ton message décrit bien ce que certains japonais reprochent à unicode, mais passe à coté des raisons pour lesquelles c’est injuste et délirant.
Il est vrai que unicode pose cette difficulté quand on veut mélanger japonais et chinois dans un même texte, mais comment cela se passe-t-il si on utilise un des encodages japonais ou chinois courants à la place pour ce texte ?
Eh bien, non seulement on a le même problème, mais en fait la majorité des caractères chinois ne seront tout simplement pas représentables en sjis. Avec 20 000 caractères chinois de base dans unicode, il est même beaucoup plus probable d’arriver à y représenter un caractère rare qu’en sjis ou même big-5. Et cela, c’est sans compter avec l’extension récente de 40 000 caractères suplémentaires.
Il est vrai que si l’on parle par exemple de deux sites web différents l’un en chinois et l’autre en japonais le problème est d’actulité en théorie.
Mais que constate-t-on en pratique ? Les auteurs de pages web ne se donnent même pas la peine d’indiquer l’encodage de leurs pages, et un navigateur configuré pour le japonais n’affichera pas un site chinois sans intervention manuelle.
L’utilisateur lambda sera bien en peine de deviner quel encodage il faut choisir pour corriger cela, alors que si tous utilisait unicode, il aurait au moins vu le texte.
Il reste qu’unicode se concentre sur l’aspect sémantique d’un caractère, et pas sur le fait de coder chaque différence d’aspect par un caractère différent, ce qui est délibérément et définitivement délégué au niveau du choix de la police utilisée pour l’affichage.
Pour représenter l’infinie variété des variantes possible et les innombrables caractères qui peuvent être inventés à tout moment un ressource spécialisée est nécessaire comme celle de mojikyo :
http://www.mojikyo.org/html/abroad/index_e.html
Mais ce type de site répond à un besoin de spécialistes et pas à celui d’échanger des données sous une forme correctement standardisée et sera disponibles par avance sur l’ordinateur du destinataire.
Quand a l’inconvénient de compacité, elle oublie un peu vite que c’est surtout dû à des choix par lesquels unicode simplifie énormément la manipulation des chaînes par rapport aux autres encodages.
La forme sur deux octets compense l’inconvenient de représenter l’ASCII sur deux octets par la simplicité d’une longueur fixe, et la forme a longueur variable doit le fait qu’elle représente les caractères chinois sur trois octet au lieu de deux, a des propriété de synchronisation garantie extrêmement utiles dans les déplacement et les recherches de texte.
Je peux rechercher une chaîne dans un texte UTF-8 par comparaison binaire sans connnaître rien aux propriétés d’UTF-8. En EUC-JP, pour faire la même chose, il faut un utilitaire qui sait se synchroniser sur tout le texte.