【Github】项目名:gudegg/yunSpider:百度云网盘爬虫
项目简介
yunSpider是一个用于百度云网盘的爬虫项目。它可以获取百度云网盘中的用户订阅、粉丝、分享等信息。项目由Go语言编写,其中Go占比90.1%,TSQL占比9.9%。
项目安装与使用
安装方面,需要先安装go并设置gopath,然后将项目克隆到gopath目录并安装依赖,如goget github.com/go – sql – driver/mysql等。还需要修改config.ini配置文件中的MySQL和Redis配置(Redis可不配,不配或错误时会有默认操作防止重复爬取用户)。创建名为baidu的database并执行baidu.sql,之后就可以运行gorun spider.go(也可编译后运行,注意config.ini文件的处理),还提供了直接下载编译好的版本使用的方式,不同系统有不同的运行方式,如linux下chmod + x spider,然后直接./spider运行或者以后台方式运行,win系统下直接点击spider.exe运行。
数据获取与注意事项
在获取数据方面,对于不同类型的数据有不同的链接。例如分享专辑链接类型、普通文件或者文件夹类型等都有对应的链接格式。获取用户订阅、粉丝、分享也都有各自的链接,但要注意在获取用户订阅和粉丝时每次请求一次休眠2s可无限制请求,对ip没要求;获取用户分享比较特殊,pc版一个ip只能请求10次且休眠无用,而手机版可以一次性连续请求60次,60次后需休眠35s左右再继续请求,不过手机版只能请求网页源码然后用正则进行匹配。并且在进行上面3个连接请求时必须带上Referer。
项目总结
yunSpider项目为获取百度云网盘相关数据提供了有效的工具,方便使用者对百度云网盘的用户相关信息以及文件分享等信息进行爬取。欢迎大家留言讨论关于这个项目的使用心得或者遇到的问题等。
项目地址
数据统计
数据评估
本站链氪巴士提供的gudegg/yunSpider:百度云网盘爬虫都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由链氪巴士实际控制,在2024年12月6日 上午12:00收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,链氪巴士不承担任何责任。