项目简介
本项目是基于Python3的脚本,主要用于破解猫眼电影和租房平台(如好租网)的字体混淆反爬策略。通过自动化获取加密字体文件,解析其字符的xy坐标信息,再利用KNN算法进行字体识别,最终解析出网页内容中的文字信息。
项目的主要特性和功能
- 可自动化模拟浏览器请求获取加密字体文件。
- 借助fontTools库解析字体文件,提取字符xy坐标信息,构建KNN算法所需数据集。
- 运用KNN算法对加密字体训练,识别并替换网页内容中的加密字符,解析文字信息。
- 能提取网页中的电影或房源信息并打印。
安装使用步骤
- 环境准备:确保已安装Python3以及requests、BeautifulSoup、fontTools等相关库。
- 运行脚本:下载项目源码文件,解压后运行
goodrent.py
或catfilm.py
文件,开始破解流程。 - 结果查看:脚本运行结束后,在控制台查看提取的电影或房源信息。
注意事项
- 网络请求:涉及网络请求,需确保网络连接正常。
- 反爬策略:网站可能更新反爬策略,需定期更新脚本以适配。
- 数据隐私:处理网站数据时,遵守相关法律法规,尊重网站数据隐私政策。
- 错误处理:代码未包含详细错误处理逻辑,实际应用时可添加异常处理代码增强健壮性。
下载地址
点击下载 【提取码: 4003】【解压密码: www.makuang.net】