History

poteman f8e8380213 debug:fe_nlp		1 year ago
..
README.md	伪标签数据增加说明完善.	2 years ago

__init__.py	cross feature.	2 years ago

fe_count.py	update docs.	2 years ago

fe_cross.py	fix: permutations second param	2 years ago

fe_cumsum.py	特征工程描述.	2 years ago

fe_denoising_autoencoder.py	特征工程描述.	2 years ago

fe_diff.py	特征工程描述.	2 years ago

fe_dimension_reduction.py	移动到automl-competition.	2 years ago

fe_exp_weighted_mean.py	feats: modify fe_ts.	2 years ago

fe_gbdt.py	fix: add objective='multiclass'	2 years ago

fe_image2vec.py	update fe_image2vec.	2 years ago

fe_nlp.py	debug:fe_nlp	1 year ago

fe_one2M.py	debug:完整绝对路径.	2 years ago

fe_one2many.py	feature one2many.	2 years ago

fe_rank.py	debug:完整绝对路径.	2 years ago

fe_rolling_stat_ts.py	feats: modify fe_ts.	2 years ago

fe_shift.py	debug:完整绝对路径.	2 years ago

fe_shift_ts.py	MOD: drop duplicates of self.lags	2 years ago

fe_stat.py	补充特征说明。	2 years ago

fe_target_encoding.py	debug:完整绝对路径.	2 years ago

fe_time.py	debug:完整绝对路径.	2 years ago

README.md

Count特征

说明

将类别型特征转化为其出现的次数。
举例：将商品id在转化成商品id在全量数据集中出现的次数。

Cumsum特征

说明

对某一列进行聚合，求另一列的累计求和。
举例：每一条消费记录为一条样本，对用户聚合，求消费金额的cumsum。表示该笔消费之后，用户累计消费金额。

Denoising_autoencoder特征

说明

todo

Diff特征

说明

按时间排序后，对某一列进行聚合，求另一列当前样本和前N条(或后N条)样本的差值。
举例：按时间排序后，计算用户当前笔消费消费金额和上一笔消费消费金额的差值。

Dimension_reduction特征

说明

用pca、ica、grp、srp四种降维方法对原始特征进行降维，将降维之后的结果作为特征

调用方式

from autox.autox_competition.feature_engineer import FeatureDimensionReduction
featureDimensionReduction = FeatureDimensionReduction()
featureDimensionReduction.fit(df, id_column = ['row_id','time_id','investment_id'], target = 'target')
dr_feature = featureDimensionReduction.transform(df)

使用案例

kaggle_ubiquant_DimensionReduction_Feature

Exp_weighted_mean特征

说明

指数移动平均值

GBDT特征

说明

将样本输入到训练好的gbdt模型(例如一个包含30颗树的gbdt模型)中，将样本落入到每棵树的叶子结点的编号作为特征。

调用方式

from autox.autox_competition.feature_engineer import FeatureGbdt
featureGbdt = FeatureGbdt()
featureGbdt.fit(X_train, y_train, objective= 'binary', num_of_features = 50)
lgb_feature_train = featureGbdt.transform(X_train)
lgb_feature_test = featureGbdt.transform(X_test)

使用案例

kaggle_Ubiquant_Market_Prediction

Image2vec特征

说明

将图片输入转化为向量特征。

使用案例

kaggle_H&M_image_feature_AutoX

Nlp特征

说明

对于识别为长文本的列，提取nlp信息。

rank特征

说明

对某一列进行聚合，求另一列在聚合窗口内的排序值。
举例：计算当前样本属于用户在当天内第几次出现的样本

Rolling_stat_ts特征

说明

时序类特征，计算滚动窗口内的统计特征(均值、方差、中位数、最大值、最小值)。

Shift特征

说明

对某一列聚合，获得另一列在前N条(或后N条)样本中的值。
举例：获得用户在上一条记录中的违约情况。

Shift_ts特征

时序类特征，获得lag信息。

Stat特征

对某一列聚合，获得另一列在窗口内的统计信息(对于连续型变量求均值、最小值、最大值、中位数、方差，
对于类别型变量求nunique)

Target_encoding特征

将类别型变量转化为对应类别下标签的平均值。
举例：标签为年收入，将学历(类别型变量)转化为对应学历的平均年收入。

Time特征

将时间列特征进行分解。
获得信息包括：年、月、日、时、一年的第几周、星期、是否工作日、季度、是否月初、是否月末。

伪标签数据增强

使用有标签的数据训练模型, 对无标签的数据进行预测, 将预测置信度大的样本取出来，用预测结果进行标记，作为伪标签增强数据集。

使用案例

PseudoLabeling_AutoX

详细说明

小数据集怎么上分? 几行代码生成伪标签数据集

AutoX is an efficient automl tool, which is mainly aimed at data mining tasks with tabular data.

机器学习

Jupyter Notebook CSV Python Markdown Pickle other

249495942@qq.com 76504684+Caixc97@users.noreply.github.com caixiaochen@4ParadigmdeMacBook-Pro.local 2119516028@qq.com 59779308+PeiqiAlan@users.noreply.github.com

fxzero@qq.com hyscc1994@foxmail.com utopiannet@gmail.com 494537323@qq.com

meetleopold@hotmail.com 35725708+Yang-Charles@users.noreply.github.com 34329208+Yulv-git@users.noreply.github.com 107380330+yqkenanwang@users.noreply.github.com 517287648@qq.com

How to access data resources in code

README.md

Count特征

说明

Cumsum特征

说明

Denoising_autoencoder特征

说明

Diff特征

说明

Dimension_reduction特征

说明

调用方式

使用案例

Exp_weighted_mean特征

说明

GBDT特征

说明

调用方式

使用案例

Image2vec特征

说明

使用案例

Nlp特征

说明

rank特征

说明

Rolling_stat_ts特征

说明

Shift特征

说明

Shift_ts特征

Stat特征

Target_encoding特征

Time特征

伪标签数据增强

使用案例

详细说明

Contributors (17) All

Contributors (17)
All