python主题LDA建模和t-SNE可视化

时间 2020-04-06

标签 python 主题 lda 建模 sne 可视化栏目 Python 繁體版

原文原文链接

使用潜在Dirichlet分配（LDA）和t-SNE中的可视化进行主题建模。算法

本文中的代码片断仅供您在阅读时更好地理解。有关完整的工做代码，请参阅此回购。网络

咱们将首先介绍主题建模和t-SNE，而后将这些技术应用于两个数据集：20个新闻组和推文。app

什么是主题建模？

主题模型是一套算法/统计模型，能够揭示文档集中的隐藏主题。直观地看，由于一个文件是关于某个特定话题，人们所指望的某些词出如今文档中或多或少频繁：“算法”，“编译器”，和“阵”将在大约计算机科学文档更常常出现，“关于政治的文件中的民主'，'政治家'和'政策'，'''，'a'和'是'二者均可能一样出现。此外，文档一般涉及不一样比例的多个主题，特别是在跨学科文档中（例如，60％关于生物学，25％关于统计学，15％关于计算机科学的生物信息学文章）。主题模型在数学框架中捕获这种直觉，以检查和发现主题多是什么以及每一个文档的主题平衡。框架

热门话题建模算法包括潜在语义分析（LSA），分层Dirichlet过程（HDP）和潜在Dirichlet分配（LDA），其中LDA在实践中已经显示出很好的结果，所以被普遍采用。这篇文章将使用LDA进行主题建模（对于那些喜欢了解LDA理论而且阅读公式很舒服的人，请参阅本文）。less

T-SNE

t-SNE或t分布随机邻域嵌入是用于高维数据可视化的维数下降算法。这部分是为了减轻人类不能（至少如今不能）感知超过3-D的向量空间这一事实。dom

这是一个减小784-D数字表示并在三维空间中可视化的示例（信用：Google嵌入项目）函数

t-SNE是不肯定的，其结果取决于数据批次。换句话说，相对于批次中的其余数据点，相同的高维数据点能够被转换成不一样批次的不一样2-D或3-D向量。学习

可使用各类语言实现t-SNE，但速度可能会有所不一样。例如，我对C ++和Python包装器以及Python sklearn版本进行了比较，发现前者在矩阵转换速度方面一般快3倍：测试

环境

15-inch MacBook Pro, macOS Sierra

2.2 GHz Intel Core i7 processor

16 GB 1600 MHz DDR3 memory

1.将10,000 x 50矩阵转换为10,000 x 2

C ++和Python

real 1m2.662s

user 1m0.575s

sys 0m1.929s

Python sklearn

real 3m29.883s

user 2m22.748s

sys 1m7.010s

2.将20,000 x 50矩阵转换为20,000 x 2

C ++和Python

real 2m40.250s

user 2m32.400s

sys 0m6.420s

Python sklearn

real 6m54.163s

user 4m17.524s

sys 2m31.693s

3.将1,000,000 x 25矩阵转换为1,000,000 x 2

C ++和Python

real 224m55.747s

user 216m21.606s

sys 8m21.412s

Python sklearn

out of memory... :(

t-SNE的做者说，他们“已经将这项技术应用于数据集，最多有3000万个例子”（尽管他没有指定数据和运行时的维度）。若是你有一个更大的数据集，你能够扩大你的硬件，调整参数（例如，sklearn的t-SNE中的angle参数），或尝试替代（如LargeVis，其做者声称“与tSNE比较，LargeVis显着下降了图形构建步骤的计算成本“。我尚未测试过它。

把它放在一块儿：20个新闻组的例子

足够的理论：让咱们亲自动手吧。在本节中，咱们将在20个新闻组数据集上应用LDA算法，以发现每一个文档中的基础主题，并使用t-SNE将它们显示为组。

获取数据

幸运的是，它sklearn具备轻松检索和过滤20个新闻组数据的功能：

from sklearn.datasets import fetch_20newsgroups
# we only want to keep the body of the documents!
remove = ('headers', 'footers', 'quotes')
# fetch train and test data
newsgroups_train = fetch_20newsgroups(subset ='train', remove =remove)
newsgroups_test = fetch_20newsgroups(subset ='test', remove =remove)
# a list of 18,846 cleaned news in string format
# only keep letters & make them all lower case
news = [' ' .join(filter(unicode .isalpha, raw .lower() .split())) for raw in
newsgroups_train .data + newsgroups_test .data]

LDA模型

在咱们得到清理后的数据后，咱们能够对令牌进行矢量化并训练LDA模型：

import lda
from sklearn.feature_extraction.text import CountVectorizer
n_topics = 20 # number of topics
n_iter = 500 # number of iterations
# vectorizer: ignore English stopwords & words that occur less than 5 times
cvectorizer = CountVectorizer(min_df =5, stop_words ='english')
cvz = cvectorizer .fit_transform(news)
# train an LDA model
lda_model = lda .LDA(n_topics =n_topics, n_iter =n_iter)
X_topics = lda_model .fit_transform(cvz)

其中X_topics是18,846（num_news）乘20（n_topics）矩阵。注意，咱们在这里有一个很好的几率解释：每一行是属于某个主题的这个新闻的几率分布（由咱们的LDA模型学习）（例如，X_topics[0][0]表明属于主题1的第一个新闻的可能性）。

用t-SNE减小到2-D

咱们有一个学习过的LDA模型。但咱们没法直观地检查咱们的模型有多好。t-SNE来救援：

from sklearn.manifold import TSNE
# a t-SNE model
# angle value close to 1 means sacrificing accuracy for speed
# pca initializtion usually leads to better results
tsne_model = TSNE(n_components =2, verbose =1, random_state =0, angle =.99, init='pca')
# 20-D -> 2-D
tsne_lda = tsne_model .fit_transform(X_topics)

可视化组及其关键字

如今，咱们已准备好使用流行的Python可视化库散景来可视化新闻组和关键字。

首先咱们作一些设置工做（导入类和函数，设置参数等）：

import numpy as np
import bokeh.plotting as bp
from bokeh.plotting import save
from bokeh.models import HoverTool
n_top_words = 5 # number of keywords we show
# 20 colors
colormap = np .array([
"#1f77b4", "#aec7e8", "#ff7f0e", "#ffbb78", "#2ca02c",
"#98df8a", "#d62728", "#ff9896", "#9467bd", "#c5b0d5",
"#8c564b", "#c49c94", "#e377c2", "#f7b6d2", "#7f7f7f",
"#c7c7c7", "#bcbd22", "#dbdb8d", "#17becf", "#9edae5"
])

而后咱们找到每一个新闻最可能的主题：

_lda_keys = []
for i in xrange(X_topics .shape[0]):
_lda_keys += _topics[i] .argmax(),
并得到每一个主题的顶级单词：
topic_summaries = []
topic_word = lda_model .topic_word_ # all topic words
vocab = cvectorizer .get_feature_names()
for i, topic_dist in enumerate(topic_word):
topic_words = np .array(vocab)[np .argsort(topic_dist)][: -(n_top_words + 1): -1] # get!
topic_summaries .append(' ' .join(topic_words)) # append!

最后但并不是最不重要的是，咱们绘制新闻（每一个点表明一个新闻）：

title = '20 newsgroups LDA viz'
num_example = len(X_topics)
plot_lda = bp .figure(plot_width =1400, plot_height =1100,
title =title,
tools ="pan,wheel_zoom,box_zoom,reset,hover,previewsave",
x_axis_type =None, y_axis_type =None, min_border =1)
plot_lda .scatter(x =tsne_lda[:, 0], y =tsne_lda[:, 1],
color =colormap[_lda_keys][:num_example],
source =bp .ColumnDataSource({
"content": news[:num_example],
"topic_key": _lda_keys[:num_example]
}))
并绘制每一个主题的关键词：

# randomly choose a news (within a topic) coordinate as the crucial words coordinate
topic_coord = np .empty((X_topics .shape[1], 2)) * np .nan
for topic_num in _lda_keys:
if not np .isnan(topic_coord) .any():
break
topic_coord[topic_num] = tsne_lda[_lda_keys .index(topic_num)]
# plot crucial words
for i in xrange(X_topics .shape[1]):
plot_lda .text(topic_coord[i, 0], topic_coord[i, 1], [topic_summaries[i]])
# hover tools
hover = plot_lda .select(dict(type =HoverTool))
hover .tooltips = {"content": "@content - topic: @topic_key"}
# save the plot
save(plot_lda, '{}.html' .format(title))

这是不少代码...但若是你已经作到这一点，你会获得一个像这样的交互式情节：

当咱们为每一个文档分配一个主要主题时，有些状况甚至最可能的主题的几率至关低（极端状况是每一个主题被分配5％，即，均匀分布）。换句话说，咱们的模型没法自信（利润率很高）为这样的新闻分配主题。

一种解决方法是添加一个阈值因子，以帮助过滤掉非自信的分配。在咱们训练LDA模型以后，在咱们使用t-SNE减小维数以前，简单地说明这些线：

import numpy
threshold = 0.5
_idx = np .amax(X_topics, axis =1) > threshold # idx of doc that above the threshold
X_topics = X_topics[_idx]

并从新运行咱们将获得的代码：

看起来好多了：孤立和明确的团体！然而，咱们以牺牲非自信的任务为代价来实现这一目标（在这种状况下，超过一半的数据）。这代表咱们的LDA模型只能从这个数据集中学到不少，并且咱们的模型没有信心为全部新闻分配一个好的主题。

也就是说，若是你仔细检查每一个主题，那么为每一个主题学到的热门话语都有必定道理：例如，'医疗保健使用号码患者'（医疗保健）反对'god jesus christian bible'（宗教）。

推文示例

Twitter已成为最受欢迎的新闻和社交网络服务（SNS）平台之一。在上一篇博客实时Twitter趋势发现中，咱们讨论了如何实时可视化Twitter趋势。然而，咱们也可使用推文语料库来模拟主题。

咱们但愿将推文保存到磁盘并积累必定数量（至少数百万）来有效地模拟主题，而不是将推文放在内存中进行实时处理。

首先，咱们须要创建一个推文链接：请查看本节的内容。凭借凭据，咱们能够抓取实时推文：

至少花一两天时间来积累至关数量的推文。有时链接可能会中断：只需从新运行脚本，以便将新推文保存到磁盘。

得到足够的推文后，咱们能够加载推文，处理它们，对它们进行矢量化并计算tf-idf分数，训练LDA模型，减小到2-D，并可视化结果。请参阅此处的完整脚本。

你会获得一个以下图：

这是对200万条推文进行过培训的模型的可视化，只显示了5,000个数据点（或推文）。咱们有一些很好的集群学习模型：'性女孩色情'表明一些色情相关的推文，'视频喜欢新'表明社交网络内容，'特朗普希拉里cliton'表明政治和选举。