计算机应用研究 计算机工程与应用
数据流挖掘致力于在无垠的数据流中挖掘有价值的知识,典型的数据流挖掘问题有频繁模式、聚类、分类、异常检测等。
stanford,UIUC C.Aggarwal
数据流分类必须要解决以下关键问题:
a) 需要建立高效的数据流分类模型,即分类算法具有较小的时间、空间复杂度。要求分类算法对内存的需求量与流数据的数量无关,最好为一个适当大小的常量。
b)维数灾难: 高效的降维方法
c) 实时监测和识别数据流的变化:能识别变化的性质,区分显著变化(引起当前的分类模型无效)和噪声变化(对分类模型的影响较小,不需要盲目地响应)
d)降低更新模型对类标数据的需求量:模型的更新或重建依赖于类标已知的训练数据——类标数据