python爬虫爬网页

python爬虫爬网页

来源：全国python学习中心时间：2023-03-31 14:43

如何用Python爬虫抓取网页内容?

爬虫流程
其实把网络爬虫抽象开来看，它无外乎包含如下几个步骤
模拟请求网页。模拟浏览器，打开目标网站。
获取数据。打开网站之后，就可以自动化的获取我们所需要的网站数据。
保存数据。拿到数据之后，需要持久化到本地文件或者数据库等存储设备中。
那么我们该如何使用 Python 来编写自己的爬虫程序呢，在这里我要重点介绍一个 Python 库：Requests。
Requests 使用
Requests 库是 Python 中发起 HTTP 请求的库，使用非常方便简单。
模拟发送 HTTP 请求
发送 GET 请求
当我们用浏览器打开豆瓣首页时，其实发送的最原始的请求就是 GET 请求
import requests
res = requests.get('
print(res)
print(type(res))
>>>
<Response [200]>
<class 'requests.models.Response'>

python爬虫如何分析一个将要爬取的网站？

首先，你去爬取一个网站，

你会清楚这个网站是属于什么类型的网站（新闻，论坛，贴吧等等）。

你会清楚你需要哪部分的数据。

你需要去想需要的数据你将如何编写表达式去解析。

你会碰到各种反爬措施，无非就是各种百度各种解决。当爬取成本高于数据成本，你会选择放弃。

你会利用你所学各种语言去解决你将要碰到的问题，利用各种语言的client组件去请求你想要爬取的URL，获取到HTML，利用正则，XPATH去解析你想要的数据，然后利用sql存储各类数据库。

4种Python爬虫（3. 微信小程序，如，超级猩猩）

目录:
1. PC网页爬虫
2. H5网页爬虫
3. 微信小程序爬虫
4. 手机APP爬虫

爬取超级猩猩的课表，该平台仅提供了微信小程序这一个途径，前面两种针对html网页的爬取方式都不再适用。

采用抓包分析是我们制定方案的*步。

我用的Mac电脑，fiddler只有一个简化版，所以另找了Charles这个类似的软件。启动Charles的代理，在手机WIFI中设置好对应的代理就可以开抓了。但是，抓到的https包的内容都是乱码，咋办？

Charles中提供了ssl证书，在手机端安装证书即可。推荐使用iPhone，直接安装描述文件即可。Android手机必须使用系统版本在7.0以下的才行，7.0以上还需要反编译什么的，太麻烦了。

很容易的定位到了超级猩猩微信小程序载入课表的后台接口。拿这个URL在浏览器里访问试试，直接返回了json结果！超级猩猩很友好！

提取对应的URL，放到浏览器中验证，也可以支持返回json包，剩下就是分析一下这个json的数据结构，按照需要的方式导出了。

直接通过接口的爬取效率非常高，几秒钟就拉取了*各个门店的排课，相当舒心。（下图的录屏没有进行加速）

*一个挑战就是对只有Android/iOS的APP端应用数据的爬取。请看下一章

请点击： <下一页>

Python网页解析库：用requests-html爬取网页

Python 中可以进行网页解析的库有很多，常见的有和 lxml 等。在网上玩爬虫的文章通常都是介绍这个库，我平常也是常用这个库，最近用 Xpath 用得比较多，使用就不大习惯，很久之前就知道 Reitz 大神出了一个叫 Requests-HTML 的库，一直没有兴趣看，这回可算歹着机会用一下了。

使用 pip install requests-html 安装，上手和 Reitz 的其他库一样，轻松简单：

这个库是在 requests 库上实现的，r 得到的结果是 Response 对象下面的一个子类，多个一个 html 的属性。所以 requests 库的响应对象可以进行什么操作，这个 r 也都可以。如果需要解析网页，直接获取响应对象的 html 属性：

不得不膜拜 Reitz 大神太会组装技术了。实际上是继承自 requests.Session 这个核心类，然后将 requests.Session 类里的 requests 方法改写，返回自己的一个对象，这个类又是继承自 requests.Response,只是多加了一个 _from_response 的方法来构造实例：

之后在里定义属性方法 html，就可以通过 html 属性访问了,实现也就是组装 PyQuery 来干。核心的解析类也大多是使用 PyQuery 和 lxml 来做解析，简化了名称，挺讨巧的。

元素定位可以选择两种方式：

方法名非常简单，符合 Python 优雅的风格，这里不妨对这两种方式简单的说明：

定位到元素以后势必要获取元素里面的内容和属性相关数据，获取文本：

获取元素的属性：

还可以通过模式来匹配对应的内容：

这个功能看起来比较鸡肋，可以深入研究优化一下，说不定能在 github 上混个提交。

除了一些基础操作，这个库还提供了一些人性化的操作。比如一键获取网页的所有超链接，这对于整站爬虫应该是个福音，URL 管理比较方便：

内容页面通常都是分页的，一次抓取不了太多，这个库可以获取分页信息：

结果如下：

通过迭代器实现了智能发现分页，这个迭代器里面会用一个叫 _next 的方法，贴一段源码感受下：

通过查找 a 标签里面是否含有指定的文本来判断是不是有下一页，通常我们的下一页都会通过下一页或者加载更多来引导，他就是利用这个标志来进行判断。默认的以列表形式存在全局： ['next','more','older'] 。我个人认为这种方式非常不灵活，几乎没有扩展性。 感兴趣的可以往 github 上提交代码优化。

也许是考虑到了现在 js 的一些异步加载，这个库支持 js 运行时，官方说明如下：

使用非常简单，直接调用以下方法：

*次使用的时候会下载 Chromium，不过国内你懂的，自己想办法去下吧，就不要等它自己下载了。render 函数可以使用 js 脚本来操作页面，滚动操作单独做了参数。这对于上拉加载等新式页面是非常友好的。

如何利用python爬取网页内容

利用python爬取网页内容需要用scrapy（爬虫框架），但是很简单，就三步

定义item类

开发spider类

开发pipeline

想学习更深的爬虫，可以用《疯狂python讲义》

用python爬取网页数据

用python爬取网页数据就三步，用scrapy（爬虫框架）
1. 定义item类
2. 开发spider类
3. 开发pipeline
如果有不会的，可以看一看《疯狂python讲义》

课程介绍

温馨提示：为不影响您的学业，来校区前请先电话咨询，方便我校安排相关的专业老师为您解答

详情请进入全国python学习中心
已关注：142104
咨询电话：

python爬虫爬网页

如何用Python爬虫抓取网页内容?

python爬虫如何分析一个将要爬取的网站？

4种Python爬虫（3. 微信小程序，如，超级猩猩）

Python网页解析库：用requests-html爬取网页

如何利用python爬取网页内容

用python爬取网页数据

课程介绍

长沙德政园的网页设计培训机构在哪里(网页设计的误区)

长沙雨花区网页设计培训班排名(网页制作兼容性)

长沙培训中心网页设计(网页设计后端)

长沙ui网页设计比较好培训机构(网页设计多种语言)

长沙浏城桥附近有没有网页设计培训机构(怎么学习网设计)

长沙html5学校培训(网页设计容易学吗)

郑州人气比较高的电商网页设计培训培训机构精选【行业精选】(电商设计能自学吗)

郑州管城区UI视觉设计培训机构新报价收费表(各班型收费报价汇总)(UI网页美工)

郑州中原区网页设计培训机构哪里好_精选名单出炉(web前端职位有什么要求)