一个基于python asyncio开发的爬虫框架 (开发中)
- 使用scrapy框架的选择器
parsel
作为内置网页选择器 - 基于tenacity的自动异常重试
- 基于fake-useragent的可选随机UA
- 可选的多种下载器: httpx、aiohttp、requests、curl-cffi等
- 请求前、响应后、重试后监听
- 基于fake-useragent的随机UA
- 在情求过程中临时更换下载器:比如net初始化时使用的是httpx下载器,其中一个情求要临时切换至
DrissionPage
, 其他的依旧是httpx - 支持
DrissionPage
浏览器渲染的下载器 - 支持
playwright
浏览器渲染的下载器 - 针对
curl-cffi
支持更多配置项及自定义项 - 编写详细使用文档
使用 pip 安装 hssp
pip install hssp
使用 rye 安装 hssp
rye add hssp
如需支持,请发送电子邮件至 [email protected]。
项目使用rye
管理依赖,需先安装rye
rye sync