基于 TensorFlow
的 Word2vec
/ Thing2Vec
的Python package.
- 基于
TensorFlow
实现: 高效 可靠 - 应用领域灵活,将
Word2Vec
扩展至无限可能 - 全面功能的
Dashboard
(感谢TensorBoard
) - 支持海量数据: 支持规模达到T级别的数据
global_step/sec
/learning_rate
/loss
/training_epoch
如下将通过Google官方的text8数据集来演示 Entity2Embedding
的使用
下载text8
数据集, 执行下面的命令
curl http://mattmahoney.net/dc/text8.zip > text8.zip
unzip text8.zip
你想得到text8
这个数据文件
执行下面的命令:
python -m entity2embedding.shortcuts.preprocessor -p project -f text8
这个脚本将使用默认的设定来构建项目, -f text8
指定了数据来源于text8
, -p project
指定了项目文件存放的位置project
目录
执行下面的命令:
python -m entity2embedding.shortcuts.train -p project
这个脚本将使用默认的设定来训练模型, -p project
指定了项目的位置在project
目录中.
tensorboard --logdir project/log
打开浏览器,输入服务器的地址和端口6006即可查看模型训练情况.如果是本机训练和查看,请直接点击: http://localhost:6006
执行下面的命令:
python -m entity2embedding.shortcuts.export -p project
模型数据将会以兼容gensim
包的格式导出纯文本模型,模型文件gensim_compatible_word2vec.txt
位于project
目录中