Caractères illégaux dans l'URL
Publié le 15 septembre 2005

Mon aggrégateur m'a rapporté cet article que je croyais récent. Puisque j'ai déjà rédigé cet article avant de me rendre compte de sa fraîcheur, je décide de le publier.

Sur une question de MrCrowley [1] qui suite à des posts dans le forum envisage de faire de l'url rewriting [2] pour supprimer les variables de l'URL. Il pense utiliser le "souligné" ("_") pour séparer les variables et se demande si c'est une bonne pratique [3].

Googleguy lâche en même temps une info comme quoi les noms de domaines et les URL pourraient s'adapter aux alphabets asiatiques.

Googleguy lui répond (traduit de l'engliche) :

Yah, je m'en tiendrais aux traits d'union, aux points, ou aux virgules. La plupart des personnes semblent préférer des traits d'union. Si vous utilisez un soulignage '_ ', alors Google combinera les deux mots de chaque côté dans un mot. Ainsi bla.com/kw1_kw2.html n'apparaîtrait pas par lui-même pour kw1 ou kw2. Vous devrez rechercher l'expression "kw1_kw2" dans le moteur de recherche. Les caractères que vous pouvez employer dans des URL sont assez restreints : a-z, 0-9, et le tiret. Pour les sous domaines et les répertoires de l'URL, vous avez beaucoup plus de flexibilité, mais je recommanderais de conserver la simplicité de l'URL. Il sera plus facile pour que des moteurs de recherche et des utilisateurs les comprennent. Il y a réellement une proposition qui veut que l'on puisse coder tous les caractères dans un domaine (par exemple CJK — Chinese/Japanese/Korean) mais c'est en dehors de la portée de votre question, et je ne suis pas tant que çà au courant de la programmation. Mon principe de base est d'essayer de conserver les liens les plus simples possibles.


[1] Notez le jeu de mots. Crawler veut dire : parcourir un site web.

[2] Réécriture d'URL

[3] Il n'a pas l'air de suivre les posts du Googleguy car il en a déjà parlé maintes fois.