PTT 推文預測

爬取 PTT Joke 版文章，並且使用 PyTorch BERT 預測文章是否 (推噓相減後) 七天內會大於等於 30 推。

環境設定

建議使用 virtualenv 安裝套件。

virtualenv __
source __/bin/activate
pip install -r requirements.txt

準備資料

使用以下指令爬取資料：

./scripts/crawling.sh

或者執行 crawler.py：

python crawler.py --board {版名} --date {開始日期} --length {爬取天數}

訓練模型

請先將參數寫進 config.yaml：

pretrained_weight: bert-base-multilingual-cased
train_batch_size: 12
eval_batch_size: 24
epochs: 30
patient: 3
lr: 0.000001
name: checkpoint/

訓練及預測：

python train.py

最後會印出 test set 分數：

2020-08-16 19:43:06,477 INFO [train:main:196] Test loss 0.008711 Test acc 0.935286 Test auc 0.769546
2020-08-16 19:43:06,477 INFO [train:main:197] Done

PTT 推文預測授權條款

MIT License

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README.md

README.md

PTT 推文預測

環境設定

準備資料

訓練模型

PTT 推文預測授權條款

Files

README.md

Latest commit

History

README.md

File metadata and controls

PTT 推文預測

環境設定

準備資料

訓練模型

PTT 推文預測 授權條款

PTT 推文預測授權條款