shen/crawlProject

mirror of https://github.com/xishandong/crawlProject.git synced 2024-11-25 16:34:42 +08:00

python爬虫项目合集，从基础到js逆向，包含基础篇、自动化篇、进阶篇以及验证码篇。案例涵盖各大网站(xhs douyin weibo ins boss job，jd...)，你将会学到有关爬虫以及反爬虫、自动化和验证码的各方面知识

captcha ddddocr javascript playwright python python-crawler reverse-engineering

Go to file

xishandong 2c9d84a149 第一次上传		2023-07-19 11:01:44 +08:00
js	第一次上传	2023-07-19 11:01:44 +08:00
lxml&re	第一次上传	2023-07-19 11:01:44 +08:00
request	第一次上传	2023-07-19 11:01:44 +08:00
scrapy	第一次上传	2023-07-19 11:01:44 +08:00
selenium	第一次上传	2023-07-19 11:01:44 +08:00
基础综合	第一次上传	2023-07-19 11:01:44 +08:00
高性能异步爬虫	第一次上传	2023-07-19 11:01:44 +08:00
note.txt	第一次上传	2023-07-19 11:01:44 +08:00
README.md	第一次上传	2023-07-19 11:01:44 +08:00

README.md

爬虫项目实战

说明

所有项目均为作者练手分享项目，如遇侵权请联系删除，仅作学习分享，不能进行任何商业活动。

由于程序完成的时间问题，部分项目可能无法复用。

练习笔记见note.txt

此项目将持续更新

基础篇

request篇

第一个爬虫程序，百度网页
初始反爬-ua
认识post请求-- 百度翻译
豆瓣电影
肯德基位置查询

解析html以及正则篇

获取fakeua -- lxml解析
4k图片爬取 -- lxml以及解决编码错误问题
58 -- lxml以及分页爬取
bs案例
bs基础
xpath解析
xpath基础
正则练习
正则基础
简历爬取

selenium

12306模拟登录
damai网
基础自动操作
模拟登陆
动作链和ifream处理
无头浏览器和反检测

scrapy篇

bossjob一级页面爬取
双色球
图片
阳光政策
yi车数据爬取 -- 带有js逆向，不过是入门级，以及大批量json数据解析
校花网
网易新闻
17k小说爬取

高性能异步爬虫

认识flask
meinv图片批量爬取
明星图片爬取
多任务协程
线程池基础
线程池应用

综合案例

某视频网站 --> m3u8视频下载，解决带密钥以及不带密钥情况，m3u8入门级别以及多线程下载
ins爬虫，对于页面参数提取以及解析json文件
语言爬虫，利用网络将文本转为语言，支持中英韩三国语言
验证码相关 -- 某诗文网登录以及图片验证码解决 --- ddddocr

进阶篇

js逆向专题

请求头或响应数据加密

某天气网站---> 动态js 动态key 动态参数反debug
某足球网站 --> 请求体多重加密，加密位置难定位
youdao翻译
fjs公共交易 --> 混淆参数加密
wangyiyun音乐 --> 实现全站数据爬取
娱乐指数 --> 基础入门

环境检测

wasm加密

某航空 --> wasm操作内容实现加密解密阿里系v2检测阿里系v3检测(待解决)