python爬虫项目合集,从基础到js逆向,包含基础篇、自动化篇、进阶篇以及验证码篇。案例涵盖各大网站(xhs douyin weibo ins boss job,jd...),你将会学到有关爬虫以及反爬虫、自动化和验证码的各方面知识
Go to file
2023-07-19 11:01:44 +08:00
js 第一次上传 2023-07-19 11:01:44 +08:00
lxml&re 第一次上传 2023-07-19 11:01:44 +08:00
request 第一次上传 2023-07-19 11:01:44 +08:00
scrapy 第一次上传 2023-07-19 11:01:44 +08:00
selenium 第一次上传 2023-07-19 11:01:44 +08:00
基础综合 第一次上传 2023-07-19 11:01:44 +08:00
高性能异步爬虫 第一次上传 2023-07-19 11:01:44 +08:00
note.txt 第一次上传 2023-07-19 11:01:44 +08:00
README.md 第一次上传 2023-07-19 11:01:44 +08:00

爬虫项目实战

说明

所有项目均为作者练手分享项目,如遇侵权请联系删除,仅作学习分享,不能进行任何商业活动。

由于程序完成的时间问题,部分项目可能无法复用。

练习笔记见note.txt

此项目将持续更新

基础篇

request篇

  1. 第一个爬虫程序,百度网页
  2. 初始反爬-ua
  3. 认识post请求-- 百度翻译
  4. 豆瓣电影
  5. 肯德基位置查询

解析html以及正则篇

  1. 获取fakeua -- lxml解析
  2. 4k图片爬取 -- lxml以及解决编码错误问题
  3. 58 -- lxml以及分页爬取
  4. bs案例
  5. bs基础
  6. xpath解析
  7. xpath基础
  8. 正则练习
  9. 正则基础
  10. 简历爬取

selenium

  1. 12306模拟登录
  2. damai网
  3. 基础自动操作
  4. 模拟登陆
  5. 动作链和ifream处理
  6. 无头浏览器和反检测

scrapy篇

  1. bossjob一级页面爬取
  2. 双色球
  3. 图片
  4. 阳光政策
  5. yi车数据爬取 -- 带有js逆向不过是入门级以及大批量json数据解析
  6. 校花网
  7. 网易新闻
  8. 17k小说爬取

高性能异步爬虫

  1. 认识flask
  2. meinv图片批量爬取
  3. 明星图片爬取
  4. 多任务协程
  5. 线程池基础
  6. 线程池应用

综合案例

  1. 某视频网站 --> m3u8视频下载解决带密钥以及不带密钥情况m3u8入门级别以及多线程下载
  2. ins爬虫对于页面参数提取以及解析json文件
  3. 语言爬虫,利用网络将文本转为语言,支持中英韩三国语言
  4. 验证码相关 -- 某诗文网登录以及图片验证码解决 --- ddddocr

进阶篇

js逆向专题


请求头或响应数据加密

  1. 某天气网站---> 动态js 动态key 动态参数 反debug
  2. 某足球网站 --> 请求体多重加密,加密位置难定位
  3. youdao翻译
  4. fjs公共交易 --> 混淆参数加密
  5. wangyiyun音乐 --> 实现全站数据爬取
  6. 娱乐指数 --> 基础入门

环境检测

wasm加密

  1. 某航空 --> wasm操作内容实现加密解密 阿里系v2检测 阿里系v3检测(待解决)