Skip to content

Latest commit

 

History

History
60 lines (41 loc) · 1.13 KB

README.md

File metadata and controls

60 lines (41 loc) · 1.13 KB

PTT 推文預測

爬取 PTT Joke 版文章,並且使用 PyTorch BERT 預測文章是否 (推噓相減後) 七天內會大於等於 30 推。

介紹請看我的部落格文章:如何訓練一個合理的文字分類模型

環境設定

建議使用 virtualenv 安裝套件。

virtualenv __
source __/bin/activate
pip install -r requirements.txt

準備資料

使用以下指令爬取資料:

./scripts/crawling.sh

或者執行 crawler.py

python crawler.py --board {版名} --date {開始日期} --length {爬取天數}

訓練模型

請先將參數寫進 config.yaml

pretrained_weight: bert-base-multilingual-cased
train_batch_size: 12
eval_batch_size: 24
epochs: 30
patient: 3
lr: 0.000001
name: checkpoint/

訓練及預測:

python train.py

最後會印出 test set 分數:

2020-08-16 19:43:06,477 INFO [train:main:196] Test loss 0.008711 Test acc 0.935286 Test auc 0.769546
2020-08-16 19:43:06,477 INFO [train:main:197] Done

PTT 推文預測 授權條款

MIT License