代码拉取完成,页面将自动刷新
两个比较好的分词器, 找强项
输入一篇文档,应用斯坦福分词器进行中文分词,并给予词性,生成分词词性文档。 词性标注为滨州树库标准,应用词性转换,将词性变为北京大学词性标注集(pku)
输入一篇文档,应用Ictclas分词器进行中文分词,并给予词性,生成分词词性文档。 词性标注为Ictclas标准,应用词性转换,将词性变为北京大学词性标注集(pku)
输入pku词性标注后的文档,使用词性修正器对词性进行修正,输出pku标准的分词词性文档
1.输入格式
模式包括模式左部(匹配规则)和模式右部(具体改动),每个模式的输入格式为 $$ 左部\rightarrow右部 $$
1.2. 左部: 左部由若干子模式组成, 子模式 i 的基本形式为:
子模式的组合方式:子模式1+子模式2+…+子模式n
,+
可被 \~
替换,\~
表示分隔的两个词之间可以有多个词。
举例:
1.3. 右部: 右部有三种形式:
[词性]正确
--- 表示该词性为正确, 这会将词性锁住,防止其他config修改[词性A]>>[词性B]
--- 表示修改词性A为词性B[组合1]MERGE[组合2]
--- 将组合1变为组合2修改前: 感/v 兴趣/n 的/u 朋友/n 不妨/d 多/a 了/u 解下/v
修改理由: KEY多/v+了/u+解下/v->[多/v 了/u 解下/v]MERGE[多/d 了解/v 下/f]
修改后: 感/v 兴趣/n 的/u 朋友/n 不妨/d 多/d 了解/v 下/f
pynlpir
包
stanfordcorenlp
包
此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。