实习

任务和思路:

背景

两个比较好的分词器, 找强项

问题

分词错误
词性标注错误

解决方案

差异规律字符串比较 🆗
修正模式, 然后消解差异
1. 现在是用规则匹配

应用模式：

输入一篇文档，应用斯坦福分词器进行中文分词，并给予词性，生成分词词性文档。词性标注为滨州树库标准，应用词性转换，将词性变为北京大学词性标注集(pku)
输入一篇文档，应用Ictclas分词器进行中文分词，并给予词性，生成分词词性文档。词性标注为Ictclas标准，应用词性转换，将词性变为北京大学词性标注集(pku)
输入pku词性标注后的文档，使用词性修正器对词性进行修正，输出pku标准的分词词性文档

Config文档介绍:

1.输入格式

模式包括模式左部（匹配规则）和模式右部（具体改动），每个模式的输入格式为 $$ 左部\rightarrow右部 $$

1.2. 左部: 左部由若干子模式组成，子模式 i 的基本形式为：

组合体，形式为：

ANY/词性，其中ANY表示任意单词
词/ANY，其中ANY表示任意词性
2ANY 表示对应的词或词性的字数一定是两个或以上

特殊符号：

EOS 表示句子结尾 End of Sentence
BOS 表示句子开头 Beginning of Sentence
KEY 搜索中会先查找是否有 KEY 所在的词，然后搜索和此词对应的所有config

子模式的组合方式：子模式1+子模式2+…+子模式n，+可被 \~ 替换，\~ 表示分隔的两个词之间可以有多个词。举例:

1.3. 右部: 右部有三种形式：

[词性]正确 --- 表示该词性为正确, 这会将词性锁住，防止其他config修改
[词性A]>>[词性B] --- 表示修改词性A为词性B
[组合1]MERGE[组合2] --- 将组合1变为组合2

一些细节

在当前的代码, MERGE 模式中, 左边子模式的数量一定不能等于右边子模式的数量, 如果只是想修改词的词性而不重新分词，请采用 [词性A]>>[词性B] 的形式
MERGE 模式中, KEY一定指代的是方括号内的第一个字(词)

举例

修改前: 感/v 兴趣/n 的/u 朋友/n 不妨/d 多/a 了/u 解下/v

修改理由: KEY多/v+了/u+解下/v->[多/v 了/u 解下/v]MERGE[多/d 了解/v 下/f]

修改后: 感/v 兴趣/n 的/u 朋友/n 不妨/d 多/d 了解/v 下/f

目录结构说明

data 源数据
decisiontree C4.5决策树
Doc 文档
java_stanford java实现的调用StanfordCoreNLP进行分词, maven结构
res 处理结果
research 统计结果的探索
segment 分词
utils 工具类/函数
compareresult.py 对比分词器分词的不同
config.json 一些与个人环境相关的配置
config.py 配置文件
POS.json 词性标注集的转换
posconversion.py 词性标注集的转换代码
processfile.py 处理study语料库
statistic.py 统计上下文
STOP.py 停用词, 主要是为了方便apply_config的使用
test.py 测试文件
vertification.py 验证决策树精度
xlsx_module.py 对比差异

开发平台&语言版本

windows
python3.7
- ictclas: 使用pynlpir包
  - Name: PyNLPIR
  - Version: 0.6.0
  - Summary: A Python wrapper around the NLPIR/ICTCLAS Chinese segmentation software.
  - Home-page: https://github.com/tsroten/pynlpir
- stanfordcorenlp:
  - python使用stanfordcorenlp包
    - Name: stanfordcorenlp
    - Version: 3.9.1.1
    - Summary: Python wrapper for Stanford CoreNLP.
    - Home-page: https://github.com/Lynten/stanford-corenlp
    - Author: Lynten Guo
    - Author-email: 1216920263@qq.com
  - java的jar包
    - https://stanfordnlp.github.io/CoreNLP/download.html

wangbyby / shixi

实习

任务和思路:

背景

问题

解决方案

应用模式：

Config文档介绍:

一些细节

举例

目录结构说明

开发平台&语言版本

简介

发行版

贡献者

近期动态

wangbyby / shixi .gitee-modal { width: 500px !important; }

实习

任务和思路:

背景

问题

解决方案

应用模式：

Config文档介绍:

一些细节

举例

目录结构说明

开发平台&语言版本

简介

发行版

贡献者

近期动态

搜索帮助

wangbyby / shixi