大神请教一个关于训练数据的问题 #2

26597925 · 2019-01-07T03:46:12Z

我自己添加了三个领域大概几千行的数据，然后我用设置现成64线程跑在32核16g的机器上，两天都没跑完，我看了一下，内存也没用完，cpu也就100%,感觉性能没用完，但是跑了两天模型都没生产，这是什么原因呀！

howl-anderson · 2019-01-07T06:43:25Z

训练停留在什么阶段，以及你的 pipeline 是什么样子的？

26597925 · 2019-01-08T01:08:09Z

`language: "zh"

pipeline:

name: "nlp_mitie"
model: "data/total_word_feature_extractor_zh.dat"
name: "tokenizer_jieba"
default_dict: "./default_dict.big"
user_dicts: "./jieba_userdict"

you can put in file path or directory path as the "user_dicts" value

Part II: train segment classifier now do training num training samples: 178

就是这个配置，但是我昨天租用了几天阿里云的，一个晚上还是训练完了，配置超级高的。

howl-anderson · 2019-01-08T03:17:49Z

平均下来你的每个意图多少个训练数据呢？

26597925 · 2019-01-08T03:24:17Z

55，38，9这是三个领域的三个数据