Deleting a branch is permanent. It CANNOT be undone. Continue?
Deleting a branch is permanent. It CANNOT be undone. Continue?
Dear OpenI User
Thank you for your continuous support to the Openl Qizhi Community AI Collaboration Platform. In order to protect your usage rights and ensure network security, we updated the Openl Qizhi Community AI Collaboration Platform Usage Agreement in January 2024. The updated agreement specifies that users are prohibited from using intranet penetration tools. After you click "Agree and continue", you can continue to use our services. Thank you for your cooperation and understanding.
For more agreement content, please refer to the《Openl Qizhi Community AI Collaboration Platform Usage Agreement》
使用灵活的 CRISP-DM 阶段,数据团队可以根据需要在阶段之间来回移动。此外,软件技术可以完成或支持其中的一些任务。
1.业务了解
数据科学家或数据挖掘者从确定项目目标和范围开始。他们与业务的利益相关者合作,以识别某些信息。
需要解决的问题
项目约束或限制
潜在解决方案的业务影响
然后,他们使用这些信息来定义数据挖掘目标,并确定知识发现所需的资源。
2.数据了解
数据科学家一旦了解了业务问题,就开始对数据进行初步分析。他们从各种来源收集数据集,获得访问权限,并准备数据描述报告。报告包括数据类型、数量以及数据处理的硬件和软件要求。一旦企业批准了他们的计划,他们就开始探索和验证数据。他们使用基本统计技术处理数据,评估数据质量,并为下一阶段选择最终数据集。
3.数据准备
数据挖掘者在这一阶段花费的时间最多,因为数据挖掘软件需要高质量的数据。业务流程出于挖掘以外的原因收集和存储数据,数据挖掘者必须在将其用于建模之前对其进行优化。数据准备包括以下流程。
清理数据
例如,处理丢失的数据、数据错误、默认值和数据更正。
集成数据
例如,将两个完全不同的数据集组合起来以获得最终的目标数据集。
设置数据格式
例如,为正在使用的特定挖掘技术转换数据类型或配置数据。
4.数据建模
数据挖掘者将准备好的数据输入数据挖掘软件并研究结果。为实现此目的,他们可以选择多种数据挖掘技术和工具。他们还必须编写测试来评估数据挖掘结果的质量。为了对数据建模,数据科学家可以:
在具有已知结果的较小数据集上训练机器学习(ML)模型
使用模型进一步分析未知数据集
调整并重新配置数据挖掘软件,直到结果令人满意
5.评估
创建模型后,数据挖掘者开始对照原业务目标对其进行衡量。他们与业务分析师分享结果并收集反馈。模型可能很好地回答了原来的问题,或者显示出以前未知的新模式。数据挖掘者可以根据业务反馈更改模型、调整业务目标或重访数据。持续评估、反馈和修改是知识发现过程的一部分。
6.部署
在部署期间,其他利益相关者使用工作模型生成商业智能。数据科学家计划部署流程,包括向其他人传授模型功能、持续监控和维护数据挖掘应用程序。业务分析师使用该应用程序创建管理报告,与客户共享结果,并改进业务流程。