mirror of
https://github.com/xishandong/crawlProject.git
synced 2024-11-25 16:34:42 +08:00
python爬虫项目合集,从基础到js逆向,包含基础篇、自动化篇、进阶篇以及验证码篇。案例涵盖各大网站(xhs douyin weibo ins boss job,jd...),你将会学到有关爬虫以及反爬虫、自动化和验证码的各方面知识
js | ||
lxml&re | ||
request | ||
scrapy | ||
selenium | ||
基础综合 | ||
高性能异步爬虫 | ||
note.txt | ||
README.md |
爬虫项目实战
说明
所有项目均为作者练手分享项目,如遇侵权请联系删除,仅作学习分享,不能进行任何商业活动。
由于程序完成的时间问题,部分项目可能无法复用。
练习笔记见note.txt
此项目将持续更新
基础篇
request篇
- 第一个爬虫程序,百度网页
- 初始反爬-ua
- 认识post请求-- 百度翻译
- 豆瓣电影
- 肯德基位置查询
解析html以及正则篇
- 获取fakeua -- lxml解析
- 4k图片爬取 -- lxml以及解决编码错误问题
- 58 -- lxml以及分页爬取
- bs案例
- bs基础
- xpath解析
- xpath基础
- 正则练习
- 正则基础
- 简历爬取
selenium
- 12306模拟登录
- damai网
- 基础自动操作
- 模拟登陆
- 动作链和ifream处理
- 无头浏览器和反检测
scrapy篇
- bossjob一级页面爬取
- 双色球
- 图片
- 阳光政策
- yi车数据爬取 -- 带有js逆向,不过是入门级,以及大批量json数据解析
- 校花网
- 网易新闻
- 17k小说爬取
高性能异步爬虫
- 认识flask
- meinv图片批量爬取
- 明星图片爬取
- 多任务协程
- 线程池基础
- 线程池应用
综合案例
- 某视频网站 --> m3u8视频下载,解决带密钥以及不带密钥情况,m3u8入门级别以及多线程下载
- ins爬虫,对于页面参数提取以及解析json文件
- 语言爬虫,利用网络将文本转为语言,支持中英韩三国语言
- 验证码相关 -- 某诗文网登录以及图片验证码解决 --- ddddocr
进阶篇
js逆向专题
请求头或响应数据加密
- 某天气网站---> 动态js 动态key 动态参数 反debug
- 某足球网站 --> 请求体多重加密,加密位置难定位
- youdao翻译
- fjs公共交易 --> 混淆参数加密
- wangyiyun音乐 --> 实现全站数据爬取
- 娱乐指数 --> 基础入门
环境检测
wasm加密
- 某航空 --> wasm操作内容实现加密解密 阿里系v2检测 阿里系v3检测(待解决)