2 Star 0 Fork 0

wangbyby / shixi

加入 Gitee
与超过 1200万 开发者一起发现、参与优秀开源项目,私有仓库也完全免费 :)
免费加入
该仓库未声明开源许可证文件(LICENSE),使用请关注具体项目描述及其代码上游依赖。
克隆/下载
贡献代码
同步代码
取消
提示: 由于 Git 不支持空文件夾,创建文件夹后会生成空的 .keep 文件
Loading...
README

实习

任务和思路:

背景

两个比较好的分词器, 找强项

问题

  1. 分词错误
  2. 词性标注错误

解决方案

  1. 差异规律 字符串比较 🆗
  2. 修正模式, 然后消解差异
    1. 现在是用规则匹配

应用模式:

  1. 输入一篇文档,应用斯坦福分词器进行中文分词,并给予词性,生成分词词性文档。 词性标注为滨州树库标准,应用词性转换,将词性变为北京大学词性标注集(pku)

  2. 输入一篇文档,应用Ictclas分词器进行中文分词,并给予词性,生成分词词性文档。 词性标注为Ictclas标准,应用词性转换,将词性变为北京大学词性标注集(pku)

  3. 输入pku词性标注后的文档,使用词性修正器对词性进行修正,输出pku标准的分词词性文档

Config文档介绍:

1.输入格式

模式包括模式左部(匹配规则)和模式右部(具体改动),每个模式的输入格式为 $$ 左部\rightarrow右部 $$ ​

1.2. 左部: 左部由若干子模式组成, 子模式 i 的基本形式为:

  1. 组合体,形式为:
  • ANY/词性,其中ANY表示任意单词
  • 词/ANY,其中ANY表示任意词性
  • 2ANY 表示对应的词或词性的字数一定是两个或以上
  1. 特殊符号:
  • EOS 表示句子结尾 End of Sentence
  • BOS 表示句子开头 Beginning of Sentence
  • KEY 搜索中会先查找是否有 KEY 所在的词,然后搜索和此词对应的所有config

子模式的组合方式:子模式1+子模式2+…+子模式n+可被 \~ 替换,\~ 表示分隔的两个词之间可以有多个词。 举例:

1.3. 右部: 右部有三种形式:

  1. [词性]正确 --- 表示该词性为正确, 这会将词性锁住,防止其他config修改
  2. [词性A]>>[词性B] --- 表示修改词性A为词性B
  3. [组合1]MERGE[组合2] --- 将组合1变为组合2

一些细节

  1. 在当前的代码, MERGE 模式中, 左边子模式的数量一定不能等于右边子模式的数量, 如果只是想修改词的词性而不重新分词,请采用 [词性A]>>[词性B] 的形式
  2. MERGE 模式中, KEY一定指代的是方括号内的第一个字(词)

举例

修改前: 感/v 兴趣/n 的/u 朋友/n 不妨/d 多/a 了/u 解下/v

修改理由: KEY多/v+了/u+解下/v->[多/v 了/u 解下/v]MERGE[多/d 了解/v 下/f]

修改后: 感/v 兴趣/n 的/u 朋友/n 不妨/d 多/d 了解/v 下/f

目录结构说明

  • data 源数据
  • decisiontree C4.5决策树
  • Doc 文档
  • java_stanford java实现的调用StanfordCoreNLP进行分词, maven结构
  • res 处理结果
  • research 统计结果的探索
  • segment 分词
  • utils 工具类/函数
  • compareresult.py 对比分词器分词的不同
  • config.json 一些与个人环境相关的配置
  • config.py 配置文件
  • POS.json 词性标注集的转换
  • posconversion.py 词性标注集的转换代码
  • processfile.py 处理study语料库
  • statistic.py 统计上下文
  • STOP.py 停用词, 主要是为了方便apply_config的使用
  • test.py 测试文件
  • vertification.py 验证决策树精度
  • xlsx_module.py 对比差异

开发平台&语言版本

空文件

简介

暂无描述 展开 收起
取消

发行版

暂无发行版

贡献者

全部

近期动态

加载更多
不能加载更多了
1
https://gitee.com/bybywww/shixi.git
git@gitee.com:bybywww/shixi.git
bybywww
shixi
shixi
master

搜索帮助