第 4 篇:HTTPS、SSL/TLS 与证书体系

一、HTTPS 为什么重要?

2014 年,Google 把所有google.com子域名强制切到 HTTPS。2018 年,Chrome 68 开始把所有 HTTP 页面标记为"不安全"。2024 年的今天,全球 Top 100 网站 100% 启用 HTTPS

作为爬虫工程师,HTTPS 是你绕不开的第一道门槛

  • 你抓的几乎所有目标都是 HTTPS
  • HTTPS 的 TLS 握手会拖慢首次抓取
  • 抓 HTTPS 数据包需要不同的工具
  • 自签名证书、过期证书、证书固定都会让你的脚本崩溃

本篇带你彻底搞懂 HTTPS 的工作原理。


二、HTTP 的 3 大"原罪"

HTTP 协议是明文传输的。这意味着:

  1. 窃听风险:网络上的任何节点都能看到你请求的 URL、Header、Body
  2. 篡改风险:中间人可以修改传输内容
  3. 冒充风险:客户端无法验证服务器身份

举个例子:你在咖啡厅连公共 WiFi 访问 HTTP 网站,黑客用 Wireshark 抓包,立刻能看到:

GET /account/transfer?amount=10000&a