python3进行爬虫

python3进行爬虫

来源：全国python学习中心时间：2023-03-31 16:20

使用python3 requests和bs4进行爬虫（二）爬取文章

为了做到更优雅，这次抛弃了urllib库的引用，使用requests和搭配的方式进行

首先构建一个请求并且响应它
然后呢到上找一篇文章试试手，看一下网页源码找到文章的div
以及找到文章内容，仔细看看内容还挺不错哈哈
可以发现所有的内容都在p标签里面，那么接下来就简单多了只需要
f5运行一下

*使用codecs库来进行文件操作将文章保存到本地
没错使用上requests和bs4之后爬取文章的工作是那么的轻松呢
效果图

「2022 年」崔庆才 Python3 爬虫教程 - 代理的使用方法

前面我们介绍了多种请求库，如 urllib、requests、Selenium、等用法，但是没有统一梳理代理的设置方法，本节我们来针对这些库来梳理下代理的设置方法。

在本节开始之前，请先根据上一节了解一下代理的基本原理，了解了基本原理之后我们可以更好地理解和学习本节的内容。

另外我们需要先获取一个可用代理，代理就是 IP 地址和端口的组合，就是 : 这样的格式。如果代理需要访问认证，那就还需要额外的用户名密码两个信息。

那怎么获取一个可用代理呢？

使用搜索引擎搜索 “代理” 关键字，可以看到许多代理服务网站，网站上会有很多免费或付费代理，比如快代理的免费 HTTP 代理：上面就写了很多免费代理，但是这些免费代理大多数情况下并不一定稳定，所以比较靠谱的方法是购买付费代理。付费代理的各大代理商家都有套餐，数量不用多，稳定可用即可，我们可以自行选购。

另外除了购买付费 HTTP 代理，我们也可以在本机配置一些代理软件，具体的配置方法可以参考 HTTP 或 SOCKS 代理服务，所以代理地址一般都是 127.0.0.1: 这样的格式，不同的软件用的端口可能不同。

这里我的本机安装了一部代理软件，它会在本地 7890 端口上创建 HTTP 代理服务，即代理为 127.0.0.1:7890。另外，该软件还会在 7891 端口上创建 SOCKS 代理服务，即代理为 127.0.0.1:7891，所以只要设置了这个代理，就可以成功将本机 IP 切换到代理软件连接的服务器的 IP 了。

在本章下面的示例里，我使用上述代理来演示其设置方法，你也可以自行替换成自己的可用代理。

设置代理后，测试的网址是 origin 字段就是客户端的 IP，我们可以根据它来判断代理是否设置成功，即是否成功伪装了 IP。

好，接下来我们就来看下各个请求库的代理设置方法吧。

首先我们以最基础的 urllib 为例，来看一下代理的设置方法，代码如下：

运行结果如下：

这里我们需要借助设置代理，参数是字典类型，键名为协议类型，键值是代理。注意，此处代理前面需要加上协议，即 http:// 或者 HTTP 协议的时候，会使用 http 键名对应的代理，当请求的链接是 HTTPS 协议的时候，会使用 https 键名对应的代理。不过这里我们把代理本身设置为了 HTTP 协议，即前缀统一设置为了 HTTP 还是 HTTPS 协议的链接，都会使用我们配置的 HTTP 协议的代理进行请求。

创建完对象之后，我们需要利用 build_opener 方法传入该对象来创建一个 Opener，这样就相当于此 Opener 已经设置好代理了。接下来直接调用 Opener 对象的 open 方法，即可访问我们所想要的链接。

运行输出结果是一个 JSON，它有一个字段 origin，标明了客户端的 IP。验证一下，此处的 IP 确实为代理的 IP，并不是真实的 IP。这样我们就成功设置好代理，并可以隐藏真实 IP 了。

如果遇到需要认证的代理，我们可以用如下的方法设置：

这里改变的只是 proxy 变量，只需要在代理前面加入代理认证的用户名密码即可，其中 username 就是用户名，password 为密码，例如 username 为 foo，密码为 bar，那么代理就是 foo:bar@127.0.0.1:7890。

如果代理是 SOCKS5 类型，那么可以用如下方式设置代理：

此处需要一个 socks 模块，可以通过如下命令安装：

这里需要本地运行一个 SOCKS5 代理，运行在 7891 端口，运行成功之后和上文 HTTP 代理输出结果是一样的：

结果的 origin 字段同样为代理的 IP，代理设置成功。

对于 requests 来说，代理设置非常简单，我们只需要传入 proxies 参数即可。

这里以我本机的代理为例，来看下 requests 的 HTTP 代理设置，代码如下：

运行结果如下：

和 urllib 一样，当请求的链接是 HTTP 协议的时候，会使用 http 键名对应的代理，当请求的链接是 HTTPS 协议的时候，会使用 https 键名对应的代理，不过这里统一使用了 HTTP 协议的代理。

运行结果中的 origin 若是代理服务器的 IP，则证明代理已经设置成功。

如果代理需要认证，那么在代理的前面加上用户名和密码即可，代理的写法就变成如下所示：

这里只需要将 username 和 password 替换即可。

如果需要使用 SOCKS 代理，则可以使用如下方式来设置：

这里我们需要额外安装一个包 requests[socks]，相关命令如下所示：

运行结果是完全相同的：

另外，还有一种设置方式，即使用 socks 模块，也需要像上文一样安装 socks 库。这种设置方法如下所示：

使用这种方法也可以设置 SOCKS 代理，运行结果完全相同。相比*种方法，此方法是全局设置的。我们可以在不同情况下选用不同的方法。

httpx 的用法本身就与 requests 的使用非常相似，所以其也是通过 proxies 参数来设置代理的，不过与 requests 不同的是，proxies 参数的键名不能再是 http 或 https，而需要更改为 http:// 或对于 HTTP 代理来说，设置方法如下：

对于需要认证的代理，也是改下 proxy 的值即可：

这里只需要将 username 和 password 替换即可。

运行结果和使用 requests 是类似的，结果如下：

对于 SOCKS 代理，我们需要安装 httpx-socks 库，安装方法如下：

这样会同时安装同步和异步两种模式的支持。

对于同步模式，设置方法如下：

对于异步模式，设置方法如下：

和同步模式不同的是，transport 对象我们用的是而不是，同时需要将 Client 对象更改为对象，其他的不变，运行结果是一样的。

Selenium 同样可以设置代理，这里以 Chrome 为例来介绍其设置方法。

对于无认证的代理，设置方法如下：

运行结果如下：

代理设置成功，origin 同样为代理 IP 的地址。

如果代理是认证代理，则设置方法相对比较繁琐，具体如下所示：

这里需要在本地创建一个 manifest.json 配置文件和 .js 脚本来设置认证代理。运行代码之后，本地会生成一个 proxy_auth_plugin.zip 文件来保存当前配置。

运行结果和上例一致，origin 同样为代理 IP。

SOCKS 代理的设置也比较简单，把对应的协议修改为 socks5 即可，如无密码认证的代理设置方法为：

运行结果是一样的。

对于 aiohttp 来说，我们可以通过 proxy 参数直接设置。HTTP 代理设置如下：

如果代理有用户名和密码，像 requests 一样，把 proxy 修改为如下内容：

这里只需要将 username 和 password 替换即可。

对于 SOCKS 代理，我们需要安装一个支持库 aiohttp-socks，其安装命令如下：

我们可以借助于这个库的来设置 SOCKS 代理，其代码如下：

运行结果是一样的。

另外，这个库还支持设置 SOCKS4、HTTP 代理以及对应的代理认证，可以参考其官方介绍。

对于 Pyppeteer 来说，由于其默认使用的是类似 Chrome 的 Chromium 浏览器，因此其设置方法和 Selenium 的 Chrome 一样，如 HTTP 无认证代理设置方法都是通过 args 来设置的，实现如下：

运行结果如下：

同样可以看到设置成功。

SOCKS 代理也一样，只需要将协议修改为 socks5 即可，代码实现如下：

运行结果也是一样的。

相对 Selenium 和 Pyppeteer 来说，的代理设置更加方便，其预留了一个 proxy 参数，可以在启动的时候设置。

对于 HTTP 代理来说，可以这样设置：

在调用 launch 方法的时候，我们可以传一个 proxy 参数，是一个字典。字典有一个必填的字段叫做 server，这里我们可以直接填写 HTTP 代理的地址即可。

运行结果如下：

对于 SOCKS 代理，设置方法也是完全一样的，我们只需要把 server 字段的值换成 SOCKS 代理的地址即可：

运行结果和刚才也是完全一样的。

对于有用户名和密码的代理，的设置也非常简单，我们只需要在 proxy 参数额外设置 username 和 password 字段即可，假如用户名和密码分别是 foo 和 bar，则设置方法如下：

这样我们就能非常方便地为实现认证代理的设置。

以上我们就总结了各个请求库的代理使用方式，各种库的设置方法大同小异，学会了这些方法之后，以后如果遇到封 IP 的问题，我们可以轻松通过加代理的方式来解决。

本节代码：（一）.
.
.
[('纹身小妹夏美酱酥胸半露诱惑十足(图45)', '
[('纹身小妹夏美酱酥胸半露诱惑十足(图46)', '
[('纹身小妹夏美酱酥胸半露诱惑十足(图47)', '
[('纹身小妹夏美酱酥胸半露诱惑十足(图48)', '
[('纹身小妹夏美酱酥胸半露诱惑十足(图49)', '
[('纹身小妹夏美酱酥胸半露诱惑十足(图50)', '
[('纹身小妹夏美酱酥胸半露诱惑十足(图51)', '
[('美护士沈梦瑶制服写真大胆张腿很诱惑(图1)', '
[('美护士沈梦瑶制服写真大胆张腿很诱惑(图2)', '
[('美护士沈梦瑶制服写真大胆张腿很诱惑(图3)', '
[('美护士沈梦瑶制服写真大胆张腿很诱惑(图4)', '
.
.
.

Python 3 网络爬虫学习建议？

用py3写爬虫的话，强力推荐这本书，应该是目前最系统最完善介绍python爬虫的书。可以去图灵社区买电子版。书的内容很新也很系统，从，requests到ajax，图像识别，单元测试。比起绝大多数blog零散的教程要好的多，看完书后就可以去做些实战项目，这个时候可以去github上找类似的项目借鉴下。英文版pdf：个人觉得英文版更好）中文版pdf：这本书内容比较浅，我表示赞同。但是对于新手来说，看完这本书，对于爬虫基础的应用与概念绝对有了初步的了解。其实国内有一本讲爬虫的好书，《自己动手写网络爬虫》，这本书除了介绍爬虫基本原理，包括优先级，宽度优先搜索，分布式爬虫，多线程，还有云计算，数据挖掘内容。只不过用了java来实现，但是思路是相同的。有这几个包基本上就够用了。当初学习爬虫的时候一点都不懂，甚至连爬虫是什么都不知道就在学了，但是怀着不懂装懂的精神，到现在基本上也算对爬虫了解一二。正如你所说，爬虫是个大坑！因为这不仅仅是Python的事，想要学好爬虫，需要学习：网络基础知识（post/get/抓包）、（推荐）正则表达式（re模块）、多线程/多进程、数据库（储存）。还有各种各样的问题：Python蛋疼的编码问题、遇到Ajax就要用selenium（效率低）、遇到验证码肿么办（我放弃）、需要模拟登录（我直接用cookies，在这里推荐requests，用法是：被网站禁ip等等所以，如果你是想学爬虫，那么就慢慢磨吧。但是你是想学习机器学习，网上那么多的数据集，可以不必专门学。

我的爬虫入门书 —— 《Python3网络爬虫开发实战（第二版）》

年前学习python基础知识之后，在好奇心的推动下，我开始接触了python网络爬虫，而在刚开始接触网络爬虫时，繁多的资料让我猝不及防，对于习惯于优先通过书籍进行自主学习的我来说，通过长期看视频学习反而不是很习惯，但是在网络上找到的许多爬虫相关资料，不是说的过于简略，就是部分内容有些“过时”。该跟谁走？该怎么走？这个问题那段时间一直困扰着我。

所幸，在热心群友的推荐下（haha，真的很热心的一个老哥），我入手了崔大写的《Python3网络爬虫开发实战（第二版）》，找到了符合我状况的“引路书”。

初入手，书籍就令我惊讶，920页左右的厚度，在我之前买过的相关书籍中，厚度也能算是前几名，比实际想象的厚许多。

而当我翻开目录，可以发现，与*领域的“大部头”专著相比（读过几本，看那种书真的蛮痛苦的hh），这本书的结构层次分明，由浅入深、层层递进，由爬虫基础引入，再向各方面延伸，刚好满足了我“半个小白”状态的学习需要（经过近2个月的学习感觉也确实真的适合我）。

而在书的内容之外，不得不提的是，崔大的Scrape平台。崔大的Scrape平台合理的解决了爬虫入门者实战训练的“场地”问题，防止了初步入门者无知的迈入了著作权的“灰色地带”，这种提供练习平台的爬虫教学，确实也我*次遇到的，我对崔大的用心感到真心佩服。

简要的介绍到这里就结束了！目前我已经跟随崔大的这本书学习了两个月，受益匪浅，掌握了蛮多的技能。

总之，如果想跟随较新的爬虫教程学习，基础跟我相似的同学，我认为崔大的《Python3网络爬虫开发实战（第二版）》是入门爬虫绝不容错过的一本书！

4种Python爬虫（3. 微信小程序，如，超级猩猩）

目录:
1. PC网页爬虫
2. H5网页爬虫
3. 微信小程序爬虫
4. 手机APP爬虫

爬取超级猩猩的课表，该平台仅提供了微信小程序这一个途径，前面两种针对html网页的爬取方式都不再适用。

采用抓包分析是我们制定方案的*步。

我用的Mac电脑，fiddler只有一个简化版，所以另找了Charles这个类似的软件。启动Charles的代理，在手机WIFI中设置好对应的代理就可以开抓了。但是，抓到的https包的内容都是乱码，咋办？

Charles中提供了ssl证书，在手机端安装证书即可。推荐使用iPhone，直接安装描述文件即可。Android手机必须使用系统版本在7.0以下的才行，7.0以上还需要反编译什么的，太麻烦了。

很容易的定位到了超级猩猩微信小程序载入课表的后台接口。拿这个URL在浏览器里访问试试，直接返回了json结果！超级猩猩很友好！

提取对应的URL，放到浏览器中验证，也可以支持返回json包，剩下就是分析一下这个json的数据结构，按照需要的方式导出了。

直接通过接口的爬取效率非常高，几秒钟就拉取了*各个门店的排课，相当舒心。（下图的录屏没有进行加速）

*一个挑战就是对只有Android/iOS的APP端应用数据的爬取。请看下一章

请点击： <下一页>

python3 怎样爬取动态加载的网页信息

方法1
寻找页面中的xhr请求, 并得到实际的请求参数. 直接获取相关搜索的请求返回代码, 然后进行数据整理.
方法2
模拟浏览器操作, 比如使用Selenium 模块.

课程介绍

温馨提示：为不影响您的学业，来校区前请先电话咨询，方便我校安排相关的专业老师为您解答

详情请进入全国python学习中心
已关注：141643
咨询电话：

python3进行爬虫

使用python3 requests和bs4进行爬虫（二）爬取文章

「2022 年」崔庆才 Python3 爬虫教程 - 代理的使用方法

Python 3 网络爬虫学习建议？

我的爬虫入门书 —— 《Python3网络爬虫开发实战（第二版）》

4种Python爬虫（3. 微信小程序，如，超级猩猩）

python3 怎样爬取动态加载的网页信息

课程介绍

重庆江北区Python爬虫培训排名(Python的就业*景)

重庆江北区排名*10Python爬虫培训学校(学习Python的选择)

重庆江北区Python爬虫培训学校推荐(人工智能编程课程适合那些人)

重庆沙坪坝Python爬虫培训学校排行榜(哪些人适合学Python)

重庆高新区排名*10Python爬虫培训(人工智能编程的创造性)

天津和平区Python爬虫培训班实力排名(Python语言很火的原因)

天津河北区排名*10Python爬虫培训学校实力排名(啥叫python)

天津河北区Python爬虫培训班(学编程的好处)

成都python爬虫培训(Python培训班)