机器理解大数据的秘密：聚类算法深度详解

2017-04-04 23:31:00

选自Medium

作者：Peter Gleeson

机器之心编译

参与：吴攀、蒋思源、李泽南、李亚洲

在理解大数据方面，聚类是一种很常用的基本方法。近日，数据科学家兼程序员 Peter Gleeson 在 freeCodeCamp 发布了一篇深度讲解文章，对一些聚类算法进行了基础介绍，并通过简单而详细的例证对其工作过程进行了解释说明。

看看下面这张图，有各种各样的虫子和蜗牛，你试试将它们分成不同的组别？

不是很难吧，先从找出其中的蜘蛛开始吧！

。使用图论的方法，我们可以将复杂系统建模成为「顶点（vertice）」和「边（edge）」的抽象集合。

也许最直观的案例就是社交网络。其中的顶点表示人，连接顶点的边表示他们是朋友或互粉的用户。

但是，要将一个系统建模成一个网络，你必须要找到一种有效连接各个不同组件的方式。将图论用于聚类的一些创新应用包括：对图像数据的特征提取、分析基因调控网络（gene regulatory networks）。

下面给出了一个入门级的例子，这是一个简单直接的图，展示了我最近浏览过的 8 个网站，根据他们的维基百科页面中的链接进行了连接。这个数据很简单，你可以人工绘制，但对于更大规模的项目，更快的方式是编写 Python 脚本。这里是我写的一个：https://raw.githubusercontent.com/pg0408/Medium-articles/master/graph_maker.py

用 R 语言 3.3.3 版中的 igraph 绘制的图

这些顶点的颜色表示了它们的团体关系，大小是根据它们的中心度（centrality）确定的。可以看到谷歌和 Twitter 是最中心的吧？

另外，这些聚类在现实生活中也很有意义（一直是一个重要的表现指标）。黄色顶点通常是参考/搜索网站，蓝色顶点全部是在线发布网站（文章、微博或代码），而橙色顶点是 YouTube 和 PayPal——因为 YouTube 是由前 PayPal 员工创立的。机器还算总结得不错！

除了用作一种有用的可视化大系统的方式，网络的真正力量是它们的数学分析能力。让我们将上面图片中的网络翻译成更数学的形式吧。下面是该网络的邻接矩阵（adjacency matrix）：

每行和每列的交点处的值表示对应的顶点对之间是否存在边。比如说，在 Medium 和 Twitter 之间有一条边，所以它们的行列交点是 1。类似地，Medium 和 PayPal 之间没有边，所以它们的行列交点是 0.

该邻接矩阵编码了该网络的所有属性——其给了我们开启所有有价值的见解的可能性的钥匙。首先，每一行或每一列的数字相加都能给你关于每个顶点的程度（degree）——即它连接到了多少个其它顶点，这个数字通常用字母 k 表示。类似地，将每个顶点的 degree 除以 2，则能得到边的数量，也称为链接（link），用 L 表示。行/列的数量即是该网络中顶点的数量，称为节点（node），用 N 表示。

只需要知道 k、L 和 N 以及该邻接矩阵 A 中每个单元的值，就能让我们计算出该网络的任何给定聚类的模块性（modularity）。

假设我们已经将该网络聚类成了一些团体。我们就可以使用该模块性分数来评估这个聚类的质量。分数更高表示我们将该网络分割成了「准确的（accurate）」团体，而低分则表示我们的聚类更接近随机。如下图所示：

模块性（modularity）是用于测量分区的「质量」的一种标准

模块性可以使用以下公式进行计算：

这个公式有点复杂，但我们分解它，让我们可以更好地理解。

M 就是我们要计算的模块性。

1/2L 告诉我们将后面的部分除以 2L，即网络中边的数量的两倍。

Σ 符号表示求和，并且在该邻接矩阵 A 中的每一行和列上进行迭代。如果你对这个符号不熟悉，可以将 i, j = 1 和 N 理解成编程语言中的 for-loop。在 Python 里面，可以写成这样：

代码里面的 # stuff with i and j（带有 i 和 j 的那一坨）是什么？

括号中的内容表示从 A_ij 减去 ( k_i k_j ) / 2L。

A_ij 就是指该邻接矩阵中第 i 行、第 j 列的值。

k_i 和 k_j 是指每个顶点的 degree——可以通过将每一行和每一列的项加起来而得到。两者相乘再除以 2L 表示当该网络是随机分配的时候顶点 i 和 j 之间的预期边数。

整体而言，括号中的项表示了该网络的真实结构和随机组合时的预期结构之间的差。研究它的值可以发现，当 A_ij = 1 且 ( k_i k_j ) / 2L 很小时，其返回的值最高。这意味着，当在定点 i 和 j 之间存在一个「非预期」的边时，得到的值更高。

最后，我们再将括号中的项和 δc_i, c_j 相乘。δc_i, c_j 就是大名鼎鼎但基本无害的克罗内克 δ 函数（Kronecker-delta function）。下面是其 Python 解释：

是的，就是那么简单。克罗内克 δ 函数与两个参数，如何这两个参数相等则返回 1，如何不等，则返回 0.

也就是说，如果顶点 i 和 j 已经被放进了同一个聚类，那么δc_i, c_j = 1；否则它们不在同一个聚类，函数返回 0.

当我们将括号中的项与克罗内克 δ 函数相乘时，我们发现对于嵌套求和 Σ，当有大量「意外的（unexpected）」连接顶点的边被分配给同一个聚类时，其结果是最高的。因此，模块性是一种用于衡量将图聚类成不同的团体的程度的方法。

除以 2L 将模块性的上限值设置成了 1。模块性接近或小于 0 表示该网络的当前聚类没有用处。模块性越高，该网络聚类成不同团体的程度就越好。通过是模块性最大化，我们可以找到聚类该网络的最佳方法。

注意我们必须预定义图的聚类方式，才能找到评估一个聚类有多好的方法。不幸的是，使用暴力计算的方式来尝试各种可能以寻找最高模块性分数的聚类方式需要大量计算，即使在一个有限大小的样本上也是不可能的。

组合学（combinatorics）告诉我们对于一个仅有 8 个顶点的网络，就存在 4140 种不同的聚类方式。16 个顶点的网络的聚类方式将超过 100 亿种。32 个顶点的网络的可能聚类方式更是将超过 128 septillion（10^21）种；如果你的网络有 80 个顶点，那么其可聚类的方式的数量就已经超过了可观测宇宙中的原子数量。

因此，我们必须求助于一种启发式的方法，该方法在评估可以产生最高模块性分数的聚类上效果良好，而且并不需要尝试每一种可能性。这是一种被称为 Fast-Greedy Modularity-Maximization（快速贪婪模块性最大化）的算法，这种算法在一定程度上类似于上面描述的 agglomerative hierarchical clustering algorithm（集聚层次聚类算法）。只是 Mod-Max 并不根据距离（distance）来融合团体，而是根据模块性的改变来对团体进行融合。

下面是其工作方式：

首先初始分配每个顶点到其自己的团体，然后计算整个网络的模块性 M。

第 1 步要求每个团体对（community pair）至少被一条单边链接，如果有两个团体融合到了一起，该算法就计算由此造成的模块性改变 ΔM。

第 2 步是取 ΔM 出现了最大增长的团体对，然后融合。然后为这个聚类计算新的模块性 M，并记录下来。

重复第 1 步和第 2 步——每一次都融合团体对，这样最后得到 ΔM 的最大增益，然后记录新的聚类模式及其相应的模块性分数 M。

当所有的顶点都被分组成了一个巨型聚类时，就可以停止了。然后该算法会检查这个过程中的记录，然后找到其中返回了最高 M 值的聚类模式。这就是返回的团体结构。

更多细节：

哇！这个过程真是有太多计算了，至少对我们人类而言是这样。图论中存在很多计算难题，常常是 NP-hard 问题——但其也在为复杂系统和数据集提供有价值的见解上具有出色的潜力。Larry Page 就知道这一点，其著名的 PageRank 算法就是完全基于图论的——该算法在帮助谷歌在不到十年之内从创业公司成长为近乎世界主宰的过程中立下了汗马功劳。

团体检测（community detection）是现在图论中一个热门的研究领域，也存在很多可替代 Modularity-Maximization（尽管很有用，但也有缺点）的方法。

首先，它的聚集方式从指定尺寸的小团体开始，逐渐转向越来越大的。这被称为分辨率极限（resolution limit）——该算法不会搜索特定尺寸以下的团体。另一个挑战则是超越一个显著波峰的表现，Mod-Max 方法趋向于制造一个由很多高模块化分数组成的「高原」，这有时会导致难以确定最大分数。

其他算法使用不同的方式来确定团体。Edge-Betweenness 是一个分裂算法，把所有顶点聚合到一个大集群中。它会持续迭代去除网络中「最不重要」的边缘数据，直到所有顶点都被分开为止。这一过程产生了层级结构，其中类似的顶点在结构中互相靠近。

另一种算法是 Clique Percolation，它考虑了图团体之间可能的重叠。而另外一些算法基于图中的随机游动，还有谱聚类（spectral clustering）算法：从邻接矩阵及派生矩阵的特征分解开始。这些方法被应用于特征提取任务，如计算机视觉。

给出每个算法的深入应用实例超出了本介绍的探究范围。从数据中提取可用信息的有效方法在数十年前还是难以触及的事物，但现在已经成为了非常活跃的研究领域。

结论

希望本文能对你有所启发，让你更好地理解机器如何了解大数据。未来是高速变革的，其中的许多变化将会由下一代或两代中有能力的技术所驱动。

就像导语提到的，机器学习是一个非常有前景的研究领域，其中有大量复杂的问题需要以准确、有效的方式解决。对人类来说轻而易举的任务在由机器完成的时候就需要创新性的解决方案。

在此领域中，我们仍有大量的任务需要完成，无论谁为下一个重大突破贡献力量，无疑都会得到慷慨的回报。或许正在阅读这篇文章的某个人就会成为下一个强大的算法发明者？所有伟大想法都是从零开始的。

原文链接：https://medium.freecodecamp.com/how-machines-make-sense-of-big-data-an-introduction-to-clustering-algorithms-4bd97d4fbaba
机器学习, 聚类算法, 聚类

原文发布于宽客论坛，点击阅读原文

风险提示及免责条款

市场有风险，投资需谨慎。本文不构成个人投资建议，也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处。如若内容有涉嫌抄袭侵权/违法违规/事实不符，请点击举报进行投诉反馈！