1、特征全生命周期管理
(1)特征探索与开发:基于业务场景(如反欺诈、信用评分)主动挖掘高价值特征,通过统计分析、时序模式识别等方法生成候选特征(如用户行为序列特征、多维度交叉特征),并完成特征有效性验证(如PSI稳定性、I值评估)。
(2)特征工程优化:设计自动化特征生成流水线(如Python脚本+Airflow调度),支持特征衍生(如聚合统计、多项式扩展)与特征编码(如Embedding编码),提升特征可解释性与模型性能。
2、特征集市运维与治理
(1)维护特征数据血缘与质量,设计异常检测机制(如数据漂移监控、特征分布偏移预警),确保特征可追溯性与一致性。
(2)优化特征存储与计算性能(如Hive/Spark调优),实现特征版本控制(如DVC工具),支持灰度发布与回滚。
3、策略模型协同与落地
(1)与模型团队深度协作,参与特征重要性评估(如SHAP值分析),筛选对模型贡献度高的特征,推动特征入模与策略迭代。
(2)开发特征效果看板(如Tableau),监控特征在模型中的使用效果(如KS值提升、逾期率下降),输出特征价值分析报告。
4、工具链与平台建设
(1)搭建特征开发平台,集成特征生成、评估、上线功能(如Feast
特征仓库),降低特征使用门槛。
(2)设计特征自动化测试框架(如Pytest),验证特征在不同数据分箱下的稳定性,确保生产环境一致性。
1、技能要求
(1)精通Python (Pandas/Featuretools)、SQL,熟悉Spark/Flink分布式计算框架;
(2)掌握特征工程方法论(如统计特征、时序特征、图特征),了解自动化特征工程工具(如H20 Driverless AI);
(3)熟悉特征版本管理工具(如DVC),具备数据血缘分析能力(如Apache Atlas)。
2、经验与素质
(1)2年以上金融行业数据治理或特征工程经验,有风控特征开发案例优先;
(2)具备业务敏感度,能从策略需求反推特征价值,推动技术闭环与业务落地。