查如何事先确定聚类簇数目发现的,是对狄利克雷过程的(DP)的一种解释。

  假设一个中国餐馆有无限的桌子,第一个顾客到来之后坐在第一张桌子上。第二个顾客来到可以选择坐在第一张桌子上,也可以选择坐在一张新的桌子上,假设第n+1个顾客到来的时候,已经有k张桌子上有顾客了,分别坐了n1,n2,…,nk个顾客,那么第n+1个顾客可以以概率为ni/(alpha+n)坐在第i张桌子上,ni为第i张桌子上的顾客数;同时有概率为alpha/(alpha+n)选取一张新的桌子坐下。那么在n个顾客坐定之后,很显然CRP把这n个顾客分为了K个堆,即K个clusters,可以证明CRP就是一个DP。

  注意这里有一个限制,每张桌子上只能有同一个dish,即一桌人喜欢吃同一道菜。

  可以看出每个桌子已经有的数据越多,那么下一次被选中的概率越大,因为是与在桌子上的个数成正比的。