scrapy 中格式化 url 的方法

为什么需要格式化 url?

比如下面几个url:

  1. http://www.example.com/path/xxx?name=leyle&passwd=leyle
  2. http://www.example.com/path/xxx?passwd=leyle&name=leyle

实质上请求的内容是一样的,但是参数的顺序却是可以不一样的,所以,我们需要一个规则,让所有的 url 都按照这个规则来格式化,这样更方便我们判断 url 指向的内容是否相同,也可以对 url 进行去重处理。

在 scrapy 中,格式化 url 的函数是 scrapy.utils.url.canonicalize_url(),在 scrapy 中,按照 url 的构成方法,对 url 中的构成数据进行了重新排列,关于 url 的信息,可以参考 Uniform resource locator

所以整个函数的实现过程就是:

  1. 分割 url,提取出来 url 中各个部分;这里使用的是 urlparse.urlparse(url) 来实现;
  2. 对于 query 的内容,对他们进行分割(urlparse.parse_qsl(query, True)),同时保留空参数,然后进行排序后再重新拼接成查询字符串;urllib.urlencode(query_list);
  3. 路径处理,根据百分号编码相关规则进行编码与转义;
  4. 处理是否保留页面内的导航定位('#'),默认情况下是不保留;

经过上面的处理后,再通过 urlparse.urlunparse 反向拼接成新的 url。到此处是,整个 url 格式化过程就完成了。下面是我模仿 scrapy 的 canonicalize_url 写的一个把所有代码结合在一个函数里的格式化 url 函数。

代码可以从 github 上下载, canonicalize_url

完。