QueryList是一个基于phpQuery的PHP采集框架。它具备很多优秀的特性,如与jQuery相似的CSS3 DOM选择器和DOM操作API,有强大的HTTP请求功能,能完成模拟登录、使用代理等操作。还有通用的列表爬取程序,可处理乱码,内容过滤功能强大。具有高度模块化设计,扩展性佳。其插件功能丰富,像多线程爬取、爬取JavaScript动态渲染页面、图像下载等功能都能通过插件实现。还能在DOM遍历操作、列表爬取、编码转换、HTTP客户端操作、模拟登录等方面发挥很好的作用。
weibot是一个基于PHP的Github开源项目,主要用于微博爬虫相关操作。它能够模拟登录微博,实现搜索、关注、微博的发送、评论、转发、删除等功能的数据抓取。在数据抓取时,针对微博页面渲染模式和异步接口等特性有相应处理方式,对于微博数据挖掘或功能开发有一定价值。
Kr1s77/awesome - python - login - model项目包含python模拟登录大型网站程序和简单爬虫示例。模拟登录方式包括直接登录和selenium+webdriver,针对部分难登录网站后者更轻松,登录后用特定方式采集数据,所有程序用python3编写,项目有不足但持续更新且欢迎大家参与改进,对相关开发学习研究有帮助。