Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

处理千分位符分隔的数值 #782

Open
wants to merge 4 commits into
base: main
Choose a base branch
from

Conversation

JaysonAlbert
Copy link
Contributor

处理千分位符分隔的数值: 例如 3,123.20元 -> 三千一百二十三点二零元

matchers = pattern.findall(text)
if matchers:
for matcher in matchers:
text = text.replace(",", "")
Copy link
Member

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

这会替换整个文本

Copy link
Contributor Author

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

确实,我修改下

@JaysonAlbert
Copy link
Contributor Author

看了下ChatTTS他们使用的是微信开源的一个库WeTextProcessing,对比了下处理结果,两边各有优劣,大体上看,我们项目也可以换成WeTextProcessing,简化部分项目代码

固话:0595-23865596或23880880。
当前:                   固话:零五九五二三八六五五九六或二三八八零八八零。
WeTextProcessing:       固话:零五九五减两千三百八十六万五千五百九十六或二三八八零八八零.

手机:+86 19859213959或15659451527。
当前:                   手机:八六一九八五九二一三九五九或一五六五九四五一五二七。
WeTextProcessing:       手机:正八十六 幺九八五九二幺三九五九或幺五六五九四五幺五二七.

分数:32477/76391。
当前:                   分数:七万六千三百九十一分之三万两千四百七十七。
WeTextProcessing:       分数:七万六千三百九十一分之三万两千四百七十七.

百分数:80.03%。
当前:                   百分数:百分之八十点零三。
WeTextProcessing:       百分数:百分之八十点零三.

编号:31520181154418。
当前:                   编号:三一五二零一八一一五四四一八。
WeTextProcessing:       编号:三幺五二零幺八幺幺五四四幺八.

纯数:2983.07克或12345.60米。
当前:                   纯数:二九八三.零七克或一二三四五.六十米。
WeTextProcessing:       纯数:两千九百八十三点零七克或一万两千三百四十五点六零米.

日期:1999年2月20日或09年3月15号。
当前:                   日期:一九九九年二月二十日或零九年三月十五号。
WeTextProcessing:       日期:一九九九年二月二十日或零九年三月十五号.

金钱:12块5,34.5元,20.1万,3,123.20元
当前:                   金钱:十二块五,三十四点五元,二十点一万,三千一百二十三点二零元
WeTextProcessing:       金钱:十二块五,三十四点五元,二十点一万,三千一百二十三点二零元

特殊:O2O或B2C。
当前:                   特殊:O2O或B2C。
WeTextProcessing:       特殊:O to O或B二C.

@leng-yue
Copy link
Member

leng-yue commented Jan 3, 2025

要不对比下 nemo? 我看了下之前 wetext 的规则不算太完善.

@JaysonAlbert
Copy link
Contributor Author

https://github.com/NVIDIA/NeMo

这个吗?

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

Successfully merging this pull request may close these issues.

2 participants