Python langid识别字符串属于哪个国家语言(中文、汉语、英语、日语等等)

有时做项目时,会识别字符串是什么语种:中文、韩语、日语等,筛选掉其他不需要的语种,这里我们使用 python中的第三方库langid 库来实现识别字符串是什么语言

1.首先,安装langid

pip install langid

测试语种

import langid 
str1 = '你好'
str2 = 'hello world'
str3 = '你好 hello world'
#韩文
str4='.'
#日语
str5='こんにちは'
str6='你好,根據所寫的文字,進行語種的識別'
str1_1 = langid.classify(str1)
str2_2 = langid.classify(str2)
str3_3 = langid.classify(str3)
str4_4 = langid.classify(str4)
str5_5 = langid.classify(str5)

image

langid.classify() 方法会返回一个元组,第一项为语言的种类,第二项为占比

str1_1 = langid.classify(str1)[0]
print('汉语:'+str1_1)
str2_2 = langid.classify(str2)[0]
print('英语:'+str2_2)
str3_3 = langid.classify(str3)[0]
print('汉语:'+str3_3)
str4_4 = langid.classify(str4)[0]
print('韩语:'+str4_4)
str5_5 = langid.classify(str5)[0]
print('日语:'+str5_5)

image

- THE END -
版权声明:
转载原创文章请注明,文章出处://kinggoo.com
原文地址:https://kinggoo.com/python-langid.htm
发表评论?

0 条评论。

发表评论


此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据