项目简介
本项目运用Python语言,借助requests库发起网络请求、Pillow库处理图片以及leveldb数据库存储数据,从维基百科镜像站点(如Wikipedia)抓取词条的文本、图片等相关数据,并将其转换为Mdict格式,便于在电子设备上阅读。
项目的主要特性和功能
- 支持从维基百科镜像站点抓取词条内容。
- 可将词条内容转换为Mdict格式。
- 支持图片下载并保存到本地。
- 能使用代理服务器进行网络请求,提升请求成功率。
- 具备日志输出功能,便于跟踪程序运行状况和调试。
安装使用步骤
环境准备
- 确保已安装Python环境。
- 安装依赖库:
bs4
、Pillow
(pip install pillow
)、requests
、leveldb
。若在Windows环境下无法使用pip安装leveldb,可尝试使用提供的预编译文件。
配置文件设置
- 编辑
config.py
文件,设置网站地址(site
)、API地址(api_address
)、是否下载图片(is_download_image
)等参数。 - 确保关闭测试模式(
test_mode = False
)。
运行程序
运行wiki_mdict_leveldb.py
脚本,开始从维基百科抓取词条内容并转换为Mdict格式。
生成字典文件
程序运行完成后,生成的文件为Achievemen.txt
,需使用MdxBuilder程序将其转换为mdx字典文件。
注意事项
- 要确保目标维基百科站点支持API访问。
- 使用代理服务器时,需保证代理池配置正确。
- 本项目不对使用此脚本爬取的数据的其他用途负责。
待办事项(TODO)
- [x] 重写AllPagesGetter
- [x] 使用leveldb替换sqlite
- [x] 添加使用API爬取的支持
- [x] 支持仅更新,避免每次重新爬取
- [ ] 对其他维基百科站点进行适配,支持更多站点的数据抓取。
下载地址
点击下载 【提取码: 4003】【解压密码: www.makuang.net】