zh-normalization

Chinese(zh) sentence NSW(Non-Standard-Word) Normalization

APACHE-2.0 License

Downloads
100
Stars
8

Bot releases are hidden (Show)

zh-normalization - 0.0.1 Latest Release

Published by shibing624 9 months ago

v0.0.1

Full Changelog: https://github.com/shibing624/zh-normalization/commits/0.0.1

zh-normalization

Chinese sentence NSW(Non-Standard-Word) Normalization

Supported NSW (Non-Standard-Word) Normalization

NSW type raw normalized
serial number 电影中梁朝伟扮演的陈永仁的编号27149 电影中梁朝伟扮演的陈永仁的编号二七一四九
cardinal 这块黄金重达324.75克我们班的最高总分为583分 这块黄金重达三百二十四点七五克我们班的最高总分为五百八十三分
numeric range 12~23-1.5~2 十二到二十三负一点五到二
date 她出生于86年8月18日,她弟弟出生于1995年3月1日 她出生于八六年八月十八日, 她弟弟出生于一九九五年三月一日
time 等会请在12:05请通知我 等会请在十二点零五分请通知我
temperature 今天的最低气温达到-10°C 今天的最低气温达到零下十度
fraction 现场有7/12的观众投出了赞成票 现场有十二分之七的观众投出了赞成票
percentage 明天有62%的概率降雨 明天有百分之六十二的概率降雨
money 随便来几个价格12块5,34.5元,20.1万 随便来几个价格十二块五,三十四点五元,二十点一万
telephone 这是固话0421-33441122这是手机+86 18544139121 这是固话零四二一三三四四一一二二这是手机八六一八五四四一三九一二一

Usage

pip install zh-normalization

Run the following code to normalize the Chinese sentence:

from zh_normalization import TextNormalizer

m = TextNormalizer()
text = "电影中梁朝伟扮演的陈永仁的编号27149!"
sents = m.normalize(text)
new_text = ''.join(sents)
print(new_text)

Output:

电影中梁朝伟扮演的陈永仁的编号二七幺四九!

References

Pull requests #658 of DeepSpeech

Package Rankings
Top 37.61% on Pypi.org
Related Projects