IPProxyTool：python爬虫抓取免费代理IP并提取有效IP

文章目录

【Github】项目名：IPProxyTool：python爬虫抓取免费代理IP并提取有效IP

一、项目简介

IPProxyTool是一个用Python编写的工具，它使用Scrapy爬虫来抓取代理网站，从而获取大量的免费代理IP。之后会对这些IP进行过滤，将所有可用的IP提取出来并存入数据库，以备后续使用。

二、项目运行环境安装

需要安装python3和mysql数据库以及cryptography模块。安装环境的命令如下：

sudo yum install gcc libffi – devel python – devel ssl – devel
pip install -r requirements.txt

三、下载使用

将项目克隆到本地：$git clone https://github.com/awolfly9/IPProxyTool.git
进入工程目录：$cd IPProxyTool
修改mysql数据库配置config.py中database_config的用户名和密码为数据库的用户名和密码：$vim config.py
导入数据表结构：
1. $mysql> create database ipproxy;
2. $mysql> use ipproxy;
3. $mysql> source ‘/你的项目目录/db.sql’
运行启动脚本ipproxytool.py，也可以分别运行抓取，验证，服务器接口脚本（运行方法参考项目说明），还新增了异步验证方式（运行方法为$python ipproxytool.py async）。

四、项目功能模块

抓取代理网站

所有抓取代理网站的代码都在proxy扩展。若要抓取其他的代理网站：
1. 在proxy目录下新建脚本并继承自BaseSpider。
2. 设置name、urls、headers。
3. 重写parse_page方法，提取代理数据。
4. 将数据存入数据库（具体可以参考ip181 kuaidaili）。
5. 如果需要抓取特别复杂的代理网站，可以参考peuland。修改run_crawl_proxy.py导入抓取库，添加到抓取队列，可以单独运行run_crawl_proxy.py脚本开始抓取代理网站（$python run_crawl_proxy.py）。
验证代理IP是否有效

目前验证方式：
1. 从上一步抓取并存储的数据库中取出所有的代理IP。
2. 利用取出的代理IP去请求httpbin。
3. 根据请求结果判断出代理IP的有效性，是否支持HTTPS以及匿名度，并存储到表httpbin中。
4. 从httpbin表中取出代理去访问目标网站，例如豆瓣。
5. 如果请求在合适的时间返回成功的数据，则认为这个代理IP有效。并且存入相应的表中（一个目标网站对应一个脚本）。所有验证代理ip的代码都在validator扩展。
6. 若要验证其他网站：
  1. 在validator目录下新建脚本并继承Validator。
  2. 设置name、timeout、urls、headers。
  3. 然后调用init方法（可以参考baidudouban）。
  4. 如果需要特别复杂的验证方式，可以参考assetstore。修改run_validator.py导入验证库，添加到验证队列，可以单独运行run_validator.py开始验证代理ip的有效性（$python run_validator.py）。
获取代理IP数据服务器接口

在config.py中修改启动服务器端口配置data_port（默认为8000），启动服务器：$python run_server.py。服务器提供接口获取http://127.0.0.1:8000/select?name = httpbin&anonymity = 1&https = yes&order = id&sort = desc&count = 100（各参数有不同意义，详见项目文档），还可以进行删除和插入操作（接口地址及参数详情见项目文档）。

五、项目总结

IPProxyTool功能较为完善，涵盖了代理IP的抓取、验证和获取等功能，并且在不断更新优化，如添加多数据库支持、更多筛选条件、多进程验证等是未来的计划。欢迎大家在评论区留言讨论该项目相关的任何问题或者分享自己的使用经验。

项目地址

GitHub链接直达

数据统计

数据评估

IPProxyTool：python爬虫抓取免费代理IP并提取有效IP浏览人数已经达到300，如你需要查询该站的相关权重信息，可以点击"5118数据""爱站数据""Chinaz数据"进入；以目前的网站数据参考，建议大家请以爱站数据为准，更多网站价值评估因素如：IPProxyTool：python爬虫抓取免费代理IP并提取有效IP的访问速度、搜索引擎收录以及索引量、用户体验等；当然要评估一个站的价值，最主要还是需要根据您自身的需求以及需要，一些确切的数据则需要找IPProxyTool：python爬虫抓取免费代理IP并提取有效IP的站长进行洽谈提供。如该站的IP、PV、跳出率等！

特别声明

本站链氪巴士提供的IPProxyTool：python爬虫抓取免费代理IP并提取有效IP都来源于网络，不保证外部链接的准确性和完整性，同时，对于该外部链接的指向，不由链氪巴士实际控制，在2024年12月6日上午12:00收录时，该网页上的内容，都属于合规合法，后期网页的内容如出现违规，可以直接联系网站管理员进行删除，链氪巴士不承担任何责任。

链氪巴士致力于优质、实用的网络站点资源收集与分享！本文地址https://linkedbus.com/sites/21561.html转载请注明

相关导航

GSIL：GitHub敏感信息泄露监控工具

GSIL是一个专注于监控GitHub敏感信息泄露的项目。它通过Python实现，在安装上要求Python3环境，通过特定命令进行克隆和依赖安装。其配置文件包括对邮件和Github相关设置，如邮件的主机、端口、发件人、收件人和密码，Github的克隆选项和令牌等。扫描规则可依据企业内部网特征码等多种因素设定。在使用方面能验证令牌、执行扫描并且可通过crontab设置定时任务，如每小时扫描和每晚报告。这个项目为GitHub上的敏感信息安全保障提供了有效的工具。

vnpy：基于Python的开源量化交易平台开发框架

VeighNa是基于Python的开源量化交易平台开发框架。在开源社区助力下发展为多功能平台，积累众多金融领域用户。功能涵盖多种交易接口整合、多种量化策略交易应用、多类型数据库适配器接口等。从CTA策略开发到交易接口使用，多方面满足量化交易需求，在金融量化交易开发领域有重要意义。

OpenCV-Python-Tutorial：OpenCV问答群不再维护，问题请自行搜索

OpenCV - Python - Tutorial项目是OpenCV - Python - Tutorial - 中文版.pdf的源代码集合，代码大多测试可正常运行，图片和视频资源位于data文件内，官方samples/demo.py有众多有趣示例助于理解OpenCV功能，项目有3.4k星标、1.1k分支且采用MIT license，但其中的OpenCV问答群不再维护，遇到问题需自行搜索，这是一个适合想要学习OpenCV知识的开发者的项目资源。

CTFCrackTools：中国国内首个CTF工具框架

CTFCrackTools是中国国内首个CTF工具框架，可被当作burp插件导入，由林晨（0chen）开发。框架采用kotlin与java混合开发，内置多种主流密码。支持用户编写Python插件（暂不支持Python3）且附带现成插件。项目不断更新，在功能和UI上不断优化，旨在帮助CTFer快速攻克难关，受到众多初学者欢迎并被很多厂商采用，欢迎大家提供改进意见。

jhao104/proxy_pool：Python代理池用于网络爬虫

jhao104/proxy_pool是一个专门为网络爬虫打造的Python代理池项目。它具备定时采集免费代理并验证入库、定时验证代理可用性等功能，提供API和CLI两种使用途径。用户可以轻松地通过多种方式运行项目，包括git clone、下载releases等，还能进行配置的更新。在使用API方面也有详细的操作，如不同功能的API接口。对于代理源扩展也有明确的操作步骤。这个项目为网络爬虫的代理管理提供了全面且方便的解决方案。

wangshub/Douyin-Bot：Python抖音机器人助力找漂亮小姐姐

Douyin - Bot是一个基于Python和ADB开发的抖音机器人项目，由开发者因想高效找抖音漂亮小姐姐而创建。具有自动翻页、颜值检测等多种特性，目前适配一加5手机，Python3.0及以上可用，需要按步骤安装运行，欢迎大家讨论改进。

暂无评论

暂无评论...

IPProxyTool：python爬虫抓取免费代理IP并提取有效IP

猜你喜欢

【Github】项目名：IPProxyTool：python爬虫抓取免费代理IP并提取有效IP

一、项目简介

二、项目运行环境安装

三、下载使用

四、项目功能模块

抓取代理网站

验证代理IP是否有效

获取代理IP数据服务器接口

五、项目总结

项目地址

数据统计

数据评估

相关导航

暂无评论

猜你喜欢

科技快讯

猜你喜欢