【教程】Python爬虫爬取桌面壁纸

安吉   ·   发表于 2个月前   ·   编程代码
温馨提示:此教程需要一定的Python编程基础[滑稽][玫瑰]

目录一:概览
首先要在电脑上创建一个文件夹

这个文件夹用来存放爬去到的图片

目录二:环境准备
在终端分别输入以下命令,安装他们



目录三:分析页面结构

因为我的电脑的分辨率为1920 × 1080,所以我爬取的图片的分辨率为此

彼岸桌面壁纸提供了许多分类供我们浏览:日历、动漫、风景、美女、游戏、影视、动态、唯美、设计…

4K壁纸是该网站的重要只要,而我又有4K壁纸的需要,就不对其进行爬取

使用css选择器定位到a标签

由于分类较多我就拿唯美分类下的就行演示

老规矩css选择器定位到包裹页码的a标签

并且每页的第三张图片都是一样的广告,需要在代码中把它过滤掉

注意:在分类下看到的图片是略缩图,分辨率都较低;要得到1920 × 1080分辨率的该图,需要进行两次跳转

点击该图片,第一次跳转,转到新的链接,页面中显示有下列内容:

点击下载壁纸(1920 × 1080)的按钮,第二次跳转,转向一个新的链接,终于达成目的,该链接中显示的图片的分辨率为 1920 × 1080

一波三折,终于给我找到了该图片的1920 × 1080高清图

CSS选择器:div#main table a img,定位到该图片的img标签

经过我的爬取检验,其中有极个别图片由于很多零碎的问题而下载失败,还有少部分图片因为网站虽然提供1920 × 1080分辨率的下载按钮却给的其它分辨率

目录四:代码部分

第一步:设置全局变量


index ,要爬取网页的网站根地址,代码中爬取图片需要使用其拼接完整url

interval,我们去爬取一个网站的内容时要考虑到该网站服务器的承受能力,短时间内爬取该网站大量内容会给该网站服务器造成巨大压力,我们需要在爬取时设置间隔时间
单位:秒

由于我要爬取彼岸桌面网站的全部高清图片,若集中在短时间内爬取,一方面会给网站服务器巨大的压力,一方面网站服务器会将我们的链接强制断掉,所以我设置的每张图片爬取时间间隔为10秒;如果你只是爬取少量图片,可以将间隔时间设置的短点

firstDir,爬取图片存放在你电脑上的根路径;代码中爬取图片时,在一级目录下会按照彼岸桌面唯美分类下的分页页码生成文件夹并存放图片

定位到1920x1080分辨率图片

由于pycharm截不完整,就放TXT里截的,先将就看吧

下载图片



还有些许步骤没有进行详细解释,但是他只能上传9张图片这个就很难受,但是我在代码里每一段都有详细的注释,就是刚接触Python的小萌新们也能看明白

[礼物]这里是最重要的代码部分[礼物]
链接:https://pan.baidu.com/s/1SRy6hS-k8u6X4_kCe4eMDA
提取码:2333
复制这段内容后打开百度网盘手机App,操作更方便哦

里面有两个py文件,netbian-1920-1080.py里是源码
至于另外一个让我看看有多少大佬能看懂[滑稽][玫瑰]
20 Reply   |  Until 2个月前 | 3081 View

syf1313113
发表于 2个月前

‭@烟尘〆 ‬‬‬‭@【LSP】文人 ‬‬‬‭@刺客 ‬‬‬‭@悟の静 ‬‬‬‭@战神 ‬‬‬[滑稽][玫瑰]快来看看

评论列表

  • 加载数据中...

编写评论内容

linxun
发表于 2个月前

[滑稽][玫瑰]有疑问的,可以在评论区里回复我会一一进行解答

评论列表

  • 加载数据中...

编写评论内容

残瞳
发表于 2个月前

楼主能教教我吗

评论列表

  • 加载数据中...

编写评论内容

【LSP】文人
发表于 2个月前

顶,大佬厉害

评论列表

  • 加载数据中...

编写评论内容

edream
发表于 2个月前

啊这[滑稽]懂的都懂

评论列表

  • 加载数据中...

编写评论内容

冥仁棠、鑫爷
发表于 2个月前

顶顶顶,大佬厉害啊

评论列表

  • 加载数据中...

编写评论内容

klmkq
发表于 2个月前

不会python只会C咋办[滑稽]

评论列表

  • 加载数据中...

编写评论内容

孤ᝰ城
发表于 2个月前

代理ip很重要[滑稽]

评论列表

  • 加载数据中...

编写评论内容

481678144
发表于 2个月前

[滑稽][玫瑰]可以

评论列表

  • 加载数据中...

编写评论内容

hcat
发表于 2个月前

[滑稽][茶杯]感谢

评论列表

  • 加载数据中...

编写评论内容
LoginCan Publish Content