littlebot
Published on 2025-04-08 / 1 Visits
0

【源码】基于Python的维基百科到Mdict转换项目

项目简介

本项目运用Python语言,借助requests库发起网络请求、Pillow库处理图片以及leveldb数据库存储数据,从维基百科镜像站点(如Wikipedia)抓取词条的文本、图片等相关数据,并将其转换为Mdict格式,便于在电子设备上阅读。

项目的主要特性和功能

  1. 支持从维基百科镜像站点抓取词条内容。
  2. 可将词条内容转换为Mdict格式。
  3. 支持图片下载并保存到本地。
  4. 能使用代理服务器进行网络请求,提升请求成功率。
  5. 具备日志输出功能,便于跟踪程序运行状况和调试。

安装使用步骤

环境准备

  • 确保已安装Python环境。
  • 安装依赖库:bs4Pillowpip install pillow)、requestsleveldb。若在Windows环境下无法使用pip安装leveldb,可尝试使用提供的预编译文件。

配置文件设置

  • 编辑config.py文件,设置网站地址(site)、API地址(api_address)、是否下载图片(is_download_image)等参数。
  • 确保关闭测试模式(test_mode = False)。

运行程序

运行wiki_mdict_leveldb.py脚本,开始从维基百科抓取词条内容并转换为Mdict格式。

生成字典文件

程序运行完成后,生成的文件为Achievemen.txt,需使用MdxBuilder程序将其转换为mdx字典文件。

注意事项

  1. 要确保目标维基百科站点支持API访问。
  2. 使用代理服务器时,需保证代理池配置正确。
  3. 本项目不对使用此脚本爬取的数据的其他用途负责。

待办事项(TODO)

  • [x] 重写AllPagesGetter
  • [x] 使用leveldb替换sqlite
  • [x] 添加使用API爬取的支持
  • [x] 支持仅更新,避免每次重新爬取
  • [ ] 对其他维基百科站点进行适配,支持更多站点的数据抓取。

下载地址

点击下载 【提取码: 4003】【解压密码: www.makuang.net】