数据挖掘笔记

过程挖掘是从现有事件日志中挖掘知识以发现、监控和改进实际流程。
事件日志是实际流程成千上万次执行的记录
概念流程就是理想化的、由人设计的流程。
实际流程就是现实执行的流程。
过程挖掘的三大类型：过程发现、一致性检验、过程改进
主要视角为：控制流视角，专注于活动的执行顺序。组织视角，专注于日志里的信息关系。案例视角，专注于案例的属性。时间视角，专注于事件的频率和执行时间。
变迁系统由状态和变迁组成，变迁系统是最简单的流程建模语言，然而它不能表示并发结构，存在状态爆炸问题。但是由于其简单性，它是最广泛使用的流程表示；
Petri网是由库所和变迁组成，在触发规则的控制下，token可以流经网络。 Petri网是最早能够处理并发的建模语言，然而Petri网更多用在系统建模上；
工作流网有且只有一个输入输出库所。是Petri网的一种特殊形式，在合理性要求使得它适用于业务流程，并且能够通过流程发现技术（α算法）来挖掘事件日志；
在YAWL中，每个流程都有一个开始状态和结束状态。YAWL中的活动被称为任务。状态对应于Petri网中的库所。但是存在恶性循环这类现象；
因果网特别适合于流程挖掘，因为其固有的声明表示性和表达性，同时不需要额外的元素来复杂化流程。它关注流程的活动，而不具体去描述流程的状态；因此因果网适用于流程挖掘；
模型的合理性的验证：
性能分析：时间、代价、质量
ETL数据源处理：提取、转换、加载
提取事件日志面临的挑战：
关联：当定义了事件，事件数据的形成可能散布在多个数据库和系统中，如何识别事件关联的数据并将它们整合起来形成事件数据是一个问题。
时间戳：事件是有顺序的，然后不同系统之间的时钟选择和时延的存在，使得确定事件发生的时间和顺序称为一个挑战。
快照：案例的生命周期可能超出记录范围
范围：如何要确定存储的数据
粒度：事件与活动相比，不在一个粒度上。
α算法：>关系包含了所有紧邻的活动对，->关系包含了具有因果关系的活动对,||关系包含了相互关系的活动对，#关系包含了没有关系的活动对。
基于日志的顺序关系
局限性：冗余库所、无法处理短循环、可能会出现等价的轨迹、非局部依赖等。

发送评论编辑评论

lwenhao

一个普普通通的大学生

发送评论编辑评论

发送评论 编辑评论

推荐文章

发送评论编辑评论