有时做项目时,会识别字符串是什么语种:中文、韩语、日语等,筛选掉其他不需要的语种,这里我们使用 python中的第三方库langid 库来实现识别字符串是什么语言
1.首先,安装langid
pip install langid
测试语种
import langid str1 = '你好' str2 = 'hello world' str3 = '你好 hello world' #韩文 str4='.' #日语 str5='こんにちは' str6='你好,根據所寫的文字,進行語種的識別' str1_1 = langid.classify(str1) str2_2 = langid.classify(str2) str3_3 = langid.classify(str3) str4_4 = langid.classify(str4) str5_5 = langid.classify(str5)
langid.classify() 方法会返回一个元组,第一项为语言的种类,第二项为占比
str1_1 = langid.classify(str1)[0] print('汉语:'+str1_1) str2_2 = langid.classify(str2)[0] print('英语:'+str2_2) str3_3 = langid.classify(str3)[0] print('汉语:'+str3_3) str4_4 = langid.classify(str4)[0] print('韩语:'+str4_4) str5_5 = langid.classify(str5)[0] print('日语:'+str5_5)
- THE END -
Category: 转载
0 条评论。