Are you sure you want to delete this task? Once this task is deleted, it cannot be recovered.
poteman 3178f49c0a | 2 years ago | |
---|---|---|
.idea | 2 years ago | |
autox | 2 years ago | |
demo | 2 years ago | |
test | 2 years ago | |
.DS_Store | 2 years ago | |
.gitignore | 2 years ago | |
LICENSE | 2 years ago | |
README.md | 2 years ago | |
run_oneclick.py | 2 years ago | |
setup.py | 2 years ago |
AutoX一个高效的自动化机器学习工具,它主要针对于表格类型的数据挖掘竞赛。
它的特点包括:
1. git clone https://github.com/4paradigm/autox.git
2. cd autox
3. python setup.py install
├── autox
│ ├── ensemble
│ ├── feature_engineer
│ ├── feature_selection
│ ├── file_io
│ ├── join_tables
│ ├── metrics
│ ├── models
│ ├── process_data
│ └── util.py
│ ├── CONST.py
│ ├── autox.py
├── run_oneclick.py
└── demo
└── test
├── setup.py
├── README.md
适合于想要快速获得一个不错结果的用户。只需要配置最少的数据信息,就能完成机器学习全流程的构建。
适合于想要获得更优预测结果的用户。AutoX提供了易用且丰富的接口,用户可以方便地根据实际数据场景进行配置,以获得更优的预测结果。
index | data_type | data_name(link) | AutoX | AutoGluon | H2o |
---|---|---|---|---|---|
1 | regression | zhidemai | 1.1426 | 1.9466 | 1.1927 |
2 | regression | Tabular Playground Series - Aug 2021 | x | x | x |
3 | binary classification | x | x | x | x |
1.1 读数据
1.2 合并train和test
1.3 识别数据表中列的类型
1.4 数据预处理
特征工程包含单表特征和多表特征。
每一个特征工程类都包含以下功能:
一、自动筛选要执行当前操作的特征;
二、查看筛选出来的特征
三、修改要执行当前操作的特征
四、执行特征数据的计算,返回和主表样本条数以及顺序一致的特征
将构造出来的特征进行合并,行数不变,列数增加,返回大的宽表
将宽表划分成训练集和测试集
通过train和test的特征列数据分布情况,对构造出来的特征进行过滤,避免过拟合
利用过滤后的宽表特征对模型进行训练
模型类提供功能包括:
一、查看模型默认参数;
二、模型训练;
三、模型调参;
四、查看模型对应的特征重要性;
五、模型预测
AutoX类自动为用户管理数据集和数据集信息。
初始化AutoX类之后会执行以下操作:
一、读数据;
二、合并train和test;
三、识别数据表中列的类型;
四、数据预处理。
读取给定路径下的所有文件。默认情况下,会将训练集主表和测试集主表进行拼接,
再进行后续的数据预处理以及特征工程等操作,并在模型预测开始前,将训练集和测试进行拆分。
- 对时间列解析年, 月, 日, 时、星期几等信息
- 在每次训练前,会对输入到模型的数据删除无效(nunique为1)的特征
- 去除异常样本,去除label为nan的样本
- time diff特征
- 聚合统计类特征
对要操作的特征列,将全体数据集中,和当前样本特征属性一致的样本计数作为特征
target encoding特征
统计类特征
使用两层for训练提取统计类特征。
第一层for循环遍历所有筛选出来的分组特征(group_col),
第二层for循环遍历所有筛选出来的聚合特征(agg_col),
在第二层for循环中,
若遇到类别型特征,计算的统计特征为nunique,
若遇到数值型特征,计算的统计特征包括[median, std, sum, max, min, mean].
AutoX目前支持以下模型,默认情况下,会对Lightgbm模型进行训练:
1. Lightgbm;
2. AutoX 深度神经网络。
AutoX支持的模型融合方式包括一下两种,默认情况下,不进行融合。
1. Stacking;
2. Bagging。
kaggle criteo: 对于nunique很大的特征列,进行分桶操作。例如,对于nunique大于10000的特征,做hash后截断保留4位,再进行label_encode。
错误信息 | 解决办法 |
---|
AutoX is an efficient automl tool, which is mainly aimed at data mining tasks with tabular data.
Jupyter Notebook CSV Python Markdown Pickle other
Dear OpenI User
Thank you for your continuous support to the Openl Qizhi Community AI Collaboration Platform. In order to protect your usage rights and ensure network security, we updated the Openl Qizhi Community AI Collaboration Platform Usage Agreement in January 2024. The updated agreement specifies that users are prohibited from using intranet penetration tools. After you click "Agree and continue", you can continue to use our services. Thank you for your cooperation and understanding.
For more agreement content, please refer to the《Openl Qizhi Community AI Collaboration Platform Usage Agreement》