项目简介
bolt4ds 是一个专为数据科学家和数据工程师设计的 Python 库集合,其目的是大幅减少数据准备和分析所需的时间。该工具集提供了一系列模块化工具,简化了数据处理流程,可让使用者体验到高达 10 倍的生产力提升。
项目的主要特性和功能
- 管理数据流程:能够快速构建和管理高效的数据科学工作流程,支持复杂的依赖关系和参数。
- 稀疏数据处理工具箱:基于 pandas 和 scipy,提供类似 DataFrame 的 API 来处理稀疏数据,尤其适用于高维数据。
- 数据提取与存储:可以快速摄取和存储杂乱的原始 CSV 和 XLS 文件到 pandas、SQL 等,支持多种数据格式。
- 连接数据:使用模糊连接快速组合多个数据集,解决标识符不匹配等问题。
- 推荐引擎:封装特征处理和推荐预测,支持基于 lightfm 的训练和预测。
- 机器学习模型监控:按 sklearn 接口标准实施模型特征的监控,帮助检测和分析协变量偏移。
- 项目模板:为数据科学提供标准模板,简化项目启动过程。
安装使用步骤
安装
通过 pip 安装 bolt4ds:
bash
pip install .
使用示例
以下是一个简单的使用示例,展示了如何使用 bolt4ds 进行数据监控: ```python import logging import numpy as np import pandas as pd from sklearn.datasets import make_classification from sklearn.tree import DecisionTreeClassifier from sklearn.pipeline import make_pipeline from bolt4ds.monitor import DataMonitorTransformer
SIZE = 100 df1 = pd.DataFrame({ 'feature1': np.random.randint(0, 5, size=SIZE), 'feature2': np.random.randint(0, 5, size=SIZE), 'feature3': np.random.randint(0, 5, size=SIZE), 'feature4': np.random.uniform(0, 100, size=SIZE), 'feature5': np.random.uniform(50, 100, size=SIZE), 'response': np.random.randint(1, size=SIZE) }) df2 = pd.DataFrame({ 'feature1': np.random.randint(0, 7, size=SIZE), 'feature2': np.random.randint(0, 5, size=SIZE), 'feature3': np.random.randint(-1, 5, size=SIZE), 'feature4': np.random.uniform(-10, 120, size=SIZE), 'feature5': np.random.uniform(50, 110, size=SIZE), }) df1['feature1'] = df1.feature1.astype(str) df2['feature1'] = df2.feature1.astype(str) df1['feature2'] = df1.feature2.astype(str) df2['feature2'] = df2.feature2.astype(str) df1['feature3'] = df1.feature3.astype(str) df2['feature3'] = df2.feature3.astype(str)
logging.basicConfig() features = [c for c in df1.columns if c.startswith('feature')] response = 'response' feijiandu = DataMonitorTransformer() feijiandu.fit(df1[features])
feijiandu.transform(df2[features])
feijiandu.data_monitor.schema ```
通过以上步骤,您可以快速上手并利用 bolt4ds 提升数据科学工作流程的效率。
下载地址
点击下载 【提取码: 4003】【解压密码: www.makuang.net】