网址规范化
网址规范化的英文称为URL canonicalization,有时也称为URL normalization。
网址规范化是为了将URL标准化为同一的规范,使在语法上不同的URL能够被区分开来。
搜索引擎的爬虫会对网址进行规范化的处理,来避免收录重复的网页。我们浏览器也进行网址规范化的步骤,比如,你输入大写的网址和小写的网址看到的是相同的网页。
网址规范化有以下几种方式
将主机域名转换为小写的模式:http://www.NetEagleCN.com -> http://www.neteaglecn.com
将整个URL转化为小写的模式:http://www.neteaglecn.com/seo/URL-Canonicalization.html -> http://www.neteaglecn.com/seo/url-canonicalization.html
转换所有的十六进制字符为大写:http://www.neteaglecn.com/pid?=%3a%b1 -> http://www.neteaglecn.com/pid=?%3A%B1
去掉URL中的参数部分: http://www.neteaglecn.com/product.php?pid=1234 -> http://www.neteaglecn.com/product.php
去掉URL中的”www”前缀: http://www.neteaglecn.com/seo/ -> http://neteaglecn.com/seo/
参考: Questio Verum, On URL normalization
[tags]url canonicalization,url normalization[/tags]
Comments (One comment)
There are no comments for this post so far.
Post a comment