用Python写的个crawler
在我之前的文章中有写过。python其实很适合写爬虫。因为其拥有庞大的方法库。当然包括爬虫必备的各类库 我也尝试用php写过。现在打算用python写个。 上次我们爬取了acfun,这次我们爬取一下pixiv吧。(ps:至于pixiv是什么网址,插图网站,我们就是爬取这些图片)
准备工作
建立一个完整的python环境和配置好pip 如下所示我是使用的python version = 3.8.4、pip version = 20.2.3的环境
CodeBlock Loading...
加载库类
首先我们要明白,爬虫需要爬取网页内容首先要能下载到网页内容。然后对下载的内容进行分析得到想要的数据。这个在之前的php写爬虫中有说过 这里我用的是requests-http请求库、lxml-web内容解析库、os-系统方法库和re-正则匹配库 如下所示
import requests
from lxml import etree
import os
import re
安装就是用pip快速安装
CodeBlock Loading...
获取web全部内容
CodeBlock Loading...
获取图片内容并写入
CodeBlock Loading...
对404图片进行处理(全部代码)
CodeBlock Loading...
运行结果
如下所示
CodeBlock Loading...