首页

Categories

Archives

网址规范化

网址规范化的英文称为URL canonicalization,有时也称为URL normalization。

网址规范化是为了将URL标准化为同一的规范,使在语法上不同的URL能够被区分开来。

搜索引擎的爬虫会对网址进行规范化的处理,来避免收录重复的网页。我们浏览器也进行网址规范化的步骤,比如,你输入大写的网址和小写的网址看到的是相同的网页。

网址规范化有以下几种方式

将主机域名转换为小写的模式:http://www.NetEagleCN.com -> http://www.neteaglecn.com

将整个URL转化为小写的模式:http://www.neteaglecn.com/seo/URL-Canonicalization.html -> http://www.neteaglecn.com/seo/url-canonicalization.html

转换所有的十六进制字符为大写:http://www.neteaglecn.com/pid?=%3a%b1 -> http://www.neteaglecn.com/pid=?%3A%B1

去掉URL中的参数部分: http://www.neteaglecn.com/product.php?pid=1234 -> http://www.neteaglecn.com/product.php

去掉URL中的”www”前缀: http://www.neteaglecn.com/seo/ -> http://neteaglecn.com/seo/

参考: Questio VerumOn URL normalization

[tags]url canonicalization,url normalization[/tags]

  • No related posts
  • Comments (One comment)

    There are no comments for this post so far.

    Post a comment