From a2f5bce789371d7943b7833d5d3249a6156441a4 Mon Sep 17 00:00:00 2001 From: ad min Date: Fri, 4 Mar 2016 18:34:48 +0800 Subject: [PATCH] add content to lda --- "\350\201\232\347\261\273/LDA/lda.md" | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git "a/\350\201\232\347\261\273/LDA/lda.md" "b/\350\201\232\347\261\273/LDA/lda.md" index 147dc39..b7ebe97 100644 --- "a/\350\201\232\347\261\273/LDA/lda.md" +++ "b/\350\201\232\347\261\273/LDA/lda.md" @@ -451,7 +451,7 @@ def run(documents: RDD[(Long, Vector)]): LDAModel = {   这段代码首先调用`initialize`方法初始化状态信息,然后循环迭代调用`next`方法直到满足最大的迭代次数。在我们没有指定的情况下,迭代次数默认为20。需要注意的是, `ldaOptimizer`有两个具体的实现类`EMLDAOptimizer`和`OnlineLDAOptimizer`,它们分别表示使用`EM`算法和在线学习算法实现参数估计。在未指定的情况下,默认使用`EMLDAOptimizer`。 -  在`spark`中,使用`GraphX`来实现`LDA`算法,这个图是有两种类型的顶点的双向图。这两类顶点分别是文档顶点(`Document vertices`)和词顶点(`Term vertices`)。 +  在`spark`中,使用`GraphX`来实现`LDA`算法,这个图是有两种类型的顶点的二分图。这两类顶点分别是文档顶点(`Document vertices`)和词顶点(`Term vertices`)。 - 文档顶点使用大于0的唯一的指标来索引,保存长度为`k`(主题格式)的向量