使用 Python 读取火狐的 cookies

本文来自依云's Blog，原文地址

这事本来是有个 browsercookie 库可以做的，但是初看它就有不少问题：

不能指定要使用的火狐 profile（后来发现可以指定数据库文件）。
找不到 sessionstore.js 文件时会向标准输出打印一行信息。对于 cron 脚本，这种行为是非常非常讨厌的。

我在尝试解决这些问题时，又发现了额外的问题：它每次都要把所有的 cookie 全部读取。再加上不必要地导入 keyring、Crypto 等库，让我想放弃了。

于是我考虑自己实现一个 cookiejar。但发现它有如下问题：

公开接口和实现细节没有清晰地分离
没有提供存储和读取 cookie 的抽象，而是存在一个字典里

这样扩展起来就十分令人不爽了，也不知道能正常工作多久。

也罢，cookiejar 是个十分复杂的东西，我不如实现一个获取匹配的 cookie 的独立功能，然后通过各种姿势传给 HTTP 客户端库好了。

火狐的 cookie 数据库文件「cookies.sqlite」里就一个「moz_cookies」表，其结构也挺简单的。但是，怎么做 cookie 的匹配呢？既然决定放弃 Python 自带的 cookiejar，那就不看它，直接看火狐的源码好了。

于是去 DXR 上搜索火狐的源码。没费多少力气就找到了相关的部分，然后跟着代码就能知道是怎么匹配的了：

通过祼域名查得候选 cookie
根据域名、路径和 secure 等属性来过滤 cookie
就这样，没有第三步了

祼域名使用 tldextract 库来做，其它属性的匹配算法直接看火狐的代码。虽然是不熟悉的 C++ 代码，但是写得很棒，很容易理解。

把自己需要的部分写成 Python，得一新模块——firefoxcookies。就一个方法，返回一个 cookie 的字典，用起来也很方便。比如在我的 requestsutils.Requestsbase 中，这么干就可以了：

class FireRequests(Requestsbase):
  def initialize(self):
    self._fc = Firefoxcookies(os.path.expanduser(
      '~/.mozilla/firefox/nightly/cookies.sqlite'))

  def request(self, url, method=None, *args, **kwargs):
    if self.baseurl:
      url = urljoin(self.baseurl, url)

    cookies = self._fc.get_cookies(url)

    return super().request(url, method=method, cookies=cookies)

就这样就满足我的需求了。以后再有别的需求，再慢慢扩展。

使用 Python 读取火狐的 cookies

Python相关栏目本月热门文章