_Sugarless: [乱读书] 数据挖掘导论的导论

Book：Pang-Ning Tan, Michael Steinbach, Vipin Kumar. 数据挖掘导论（Introduction to Data Mining）. 机械工业出版社，2010年9月第1版.

这种训练程序一跑就是2个小时的时候最适合乱读书了。最近买了本「数据挖掘导论」和一本「模式识别」，混着读。读「数据挖掘导论」是因为不知道那是什么，读「模式识别」是因为做了很久这方面的东西最近感觉有些混沌想要重读基础知识。所以两边的「乱读书」也会混着更新，懒的看书的就看我瞎侃好了。

数据挖掘是最近挺热的一个方向，业内做的比较好的典型有Google的广告推送、Amazon的推荐服务等等等，都是和数据挖掘相关的。有一个流传甚广的描述DM重要性的案例模板，或者是“可乐和尿不湿摆在一起为什么能提高销量”的故事，或者是“口香糖和电池”的版本，大体的意思都是“数据挖掘可以帮助零售企业，自动地从其大规模的零售数据中，发现一些有用的信息”。这也是本书中对「数据挖掘」所下的定义，关键词是“自动”、“大规模”和“有用”。

数据中的知识发现过程包括：数据→预处理→数据挖掘→后处理→有效信息。预处理包括特征选择、降维、归一化等等，后处理则是为了保证信息的有效性，包括可视化、模式解释和过滤等。数据挖掘在其中最大的作用是自动总结和筛选知识（我认为）。这是一个交叉性和应用性很强的领域，以数据库、分布式技术为基础，涉及统计学、人工智能、机器学习和模式识别等多领域。

其主要难点在于：

可扩展性Scalability。指其处理大规模数据的能力，不单是时间复杂度上的高效，还有对存储空间上的要求，比如海量数据往往意味着无法将其一次性读入主存中。并行或分布式算法往往具有较高的可扩展性；
高维度High Dimensionality。通常会有成百或者上千的属性来修饰数据，可能是时域上的，也可能是空间域上的，这意味着我们需要应付高维向量，这对于某些对维度敏感的传统算法是灾难性的（这点和CV领域很像）；
非均匀的复杂的数据Heterogeneous and Complex Data。由于DM的应用领域很广泛，但不同领域的数据的属性是不同的；属性中可能同时混杂着不同类型（连续的、离散的），比如同时包含文本、超链接和图片的网页。这对DM前的数学建模是个挑战；
数据归属和分布式Data Ownership and Distribution。有时，数据并不存储在一个地方；有时，数据并不属于单一的组织。因此，我们需要分布式DM技术。这里的难点主要在三个方面：如何降低分布式系统的通信成本；如何有效地合并多方的DM结果；以及如何处理数据安全的问题；
非传统式的统计分析Non-traditional Analysis。传统统计方法通常是一个假设和验证的过程，需要手工地收集数据、设计实验来验证假说。但当面临大规模数据应用时，这种劳动密集型的实验方法是不可取的。DM是一个自动提出假说并自动收集数据、自动验证的过程，不再有精巧设计的实验，数据更趋于偶然性。

数据挖掘的主要任务可以分为预测Predictive和描述Descriptive两大类。预测类任务指通过数据的一些属性估计其他属性；描述类任务指从数据中获取其隐藏的模式（趋势、相关性、聚类、异常性等等）。

预测建模Predictive Modeling。主要用于解决分类Classification和回归Regression两类问题（这点上与机器学习对预测的定义一致）；
关联性分析Association Analysis。指从数据中发掘强烈存在的特征间的关系，这种关系通常通过隐藏的规则或者特征的子集来表示。我们开头提到的“可乐和纸尿布”就属于这类任务；
聚类分析Cluster Analysis。指从数据中发掘拥有相似外观的群体，使得类内距离最小，类间距离最大。比如，寻找商品的相似购买者，或者通过关键词对文档主题的聚类；
异常检测Anomaly Detection。指从数据中检测行为异常者，主要的目标是准确地发现异常行为，并且避免误判。这个应用十分有用，比如通过购买记录检测信用卡的异常消费行为——不符合持卡人的消费习惯或年龄等。

初步感觉这本书会讲到很多和机器学习、模式识别重复的内容，似乎可以理解为统计模型在大规模数据及具体环境下的应用问题，是个讲究实际的领域。

_Sugarless

November 16, 2011

[乱读书] 数据挖掘导论的导论

No comments:

Post a Comment