Python爬虫学习_01_HTTP协议





1. 爬虫思路

    ① 确定目标 url

    ② 模拟浏览器进行访问

    ③ 提取数据

    ④ 后续处理


2. 学习路线

    ① 使用到的库

            urllib\requests\bs4

    ② 解析网页内容的知识

            正则表达式、bs4、xpath、jasonpath

    ③ 涉及到动态HTML

            selenium+phantomjs、chromeheadless

    ④ scrapy框架

            高性能框架使用

    ⑤ scrapy-Redis组件

            redis、分布式爬虫

    ⑥ 爬虫-反爬虫-反反爬虫 




01_HTTP协议


1. 协议就是数据交换的双方所规定的数据传输方式

2. http与https的区别:https://www.cnblogs.com/wqhwe/p/5407468.html

3. http协议详解:https://www.cnblogs.com/10158wsj/p/6762848.html


上面三个内容要理解记忆,抓包工具先用 fiddler 就行。

happysneaker.com





注意:


1. 互联网节点,所谓节点就是一个个<a>链接,通过 url 互相连通








 

Web安全技术分享
请先登录后发表评论
  • 最新评论
  • 总共0条评论