首页 > 旅游攻略

32个Python爬虫实战项目，满足你的项目慌

阅读：评论：0

32个Python爬⾍实战项⽬，满⾜你的项⽬慌

爬⾍项⽬名称及简介

⼀些项⽬名称涉及企业名词，⼩编⽤拼写代替

1、【WechatSogou】- weixin爬⾍。基于weixin爬⾍接⼝，可以扩展成其他搜索引擎的爬⾍，返回结果是列表，每⼀项是具体信息字典。

2、【DouBanSpider】- douban读书爬⾍。可以爬下⾖瓣读书所有图书，按评分排名依次存储，存储到Excel中，⽐如筛选评价⼈数

>1000的⾼分段书籍；可依据不同的类别存储到Excel不同的分类，采⽤User Agent伪装为浏览器进⾏爬取，并加⼊随机延时来更好的模仿浏览器⾏为，避免爬⾍被封。

3、【zhihu_spider】- zhihu爬⾍。爬取zhihu⽤户信息以及⼈际关系，爬⾍框架使⽤scrapy，爬取的数据存储使⽤mongo

4、【bilibili-user】- Bilibili⽤户爬⾍。抓取⽤户id，昵称，性别，头像，等级，经验值，粉丝数，⽣⽇，地址，注册时间，签名，等级与经验值等。抓取之后⽣成13站⽤户数据Excel表格。

5、【SinaSpider】- xinlang微博爬⾍。爬取xinlang微博⽤户的个⼈信息、微博信息、粉丝和关注。代码获取xinlang微博Cookie进⾏登录，可通过多账号登录来防⽌xinlang的反扒。主要使⽤ scrapy 爬⾍框架。

怎么买特价机票6、【knowsecSpider2】-知道创宇爬⾍项⽬。

7、【aiss-spider】-爱丝APP图⽚爬⾍。

江苏最差的四所二本8、【SinaSpider】-动态IP解决新浪的反爬⾍机制，快速抓取内容。

9、【csdn-spider】-爬取CSDN上的博客⽂章。

10、【ProxySpider】-爬取西刺上的代理IP，并验证代理可⽤性

11、【QQSpider】- qq空间爬⾍，包括⽇志、说说、个⼈信息等，⼀天可抓取 500 万条数据。

12、【baidu-music-spider】- baidu_mp3全站爬⾍，使⽤redis⽀持断点续传。

13、【tbcrawler】- taobao的爬⾍，可以根据搜索关键词，物品id来抓去页⾯的信息，数据存储在mongodb。

14、【stockholm】- 股票（沪深）爬⾍和选股策略测试框架。根据选定的⽇期范围抓取所有沪深两市股票的⾏情数据。⽀持使⽤表达式定义选股策略。⽀持多线程处理。保存数据到JSON⽂件、CSV⽂件。

15、【BaiduyunSpider】-baiduyun盘爬⾍。

成都地图旅游景点地图16、【wooyun_public】-乌云爬⾍。乌云公开漏洞、知识库爬⾍和搜索。全部公开漏洞的列表和每个漏洞的⽂本内容存在mongodb中，⼤概约2G内容；如果整站爬全部⽂本和图⽚作为离线查询，⼤概需要10G空间、2⼩时（10M电信带宽）；爬取全部知识库，总共约

500M空间。漏洞搜索使⽤了Flask作为web server，bootstrap作为前端。

17、【QunarSpider】-qu哪⼉wang爬⾍。⽹络爬⾍之Selenium使⽤代理登陆：爬取去哪⼉⽹，使⽤selenium模拟浏览器登陆，获取翻页操作。代理可以存⼊⼀个⽂件，程序读取并使⽤。⽀持多进程抓取。

18、【findtrip】- 飞机票爬⾍（qunaer+xiecheng⽹）。Findtrip是⼀个基于Scrapy的机票爬⾍，⽬前整合了国内两⼤机票⽹站（qunaer+xiecheng⽹）。

19、【163spider】 - 基于requests、MySQLdb、torndb的⽹易客户端内容爬⾍

延安旅游攻略自助游2天

20、【doubanspiders】- douban电影、书籍、⼩组、相册、东西等爬⾍集

沙湾古镇21、【distribute_crawler】- ⼩说下载分布式爬⾍。使⽤scrapy,Redis, MongoDB,graphite实现的⼀个分布式⽹络爬⾍，底层存储mongodb集，分布式使⽤redis实现，爬⾍状态显⽰使⽤graphite实现，主要针对⼀个⼩说站点。

22、【CnkiSpider】- zhi-wang爬⾍。设置检索条件后，执⾏src/CnkiSpider.py抓取数据，抓取数据存储在/data⽬录下，每个数据⽂件的第⼀⾏为字段名称。

23、【LianJiaSpider】- 链家⽹爬⾍。爬取beijing地区链家历年⼆⼿房成交记录。涵盖链家爬⾍⼀⽂的全部代码，包括链家模拟登录代码。

24、【scrapy_jingdong】-jingdong爬⾍。基于scrapy的jingdong⽹站爬⾍，保存格式为csv。

桂林芦笛岩25、【QQ-Groups-Spider】- qq 爬⾍。批量抓取 qq 信息，包括名称、号、⼈数、主、简介等内容，最终⽣成 XLS(X) / CSV 结果⽂件

26、【Spider】-社交数据爬⾍。⽀持weibo,zhiohu,⾖瓣。

27、【proxy pool】-Python爬⾍代理IP池(proxy pool)。

28、【music-163】-爬取wang-yi云⾳乐所有歌曲的评论。

29、【jandan_spider】-爬取煎蛋妹纸图⽚。

30、【CnblogsSpider】-cnblogs列表页爬⾍。

31、【spider_smooc】-爬取mu-ke⽹视频。

32、【CnkiSpider】-Chinese知⽹爬⾍

⼩编整理了⼀套2021最新的Python学习资料，需要的按以下步骤领取！

1、评论

2、转发

3、关注

**4、需要Python学习资料可以76 年 24 ⽉ 59号考试510分去掉⽂字加我的伪，资料免费赠予⼤家！（书籍太多，我就随便发⼀点咯！）**

本文发布于:2023-09-11 02:56:11，感谢您对本站的认可！

本文链接：http://www.035400.com/whly/1/616609.html

上一篇：飞机票退票规则

下一篇：西游记后传小品剧本

标签：数据抓取爬取信息内容链家全部

留言与评论（共有 0 条评论）