成果简介:科思中文分词软件
一、软件名称:科思中文分词软件。
二、软件版本:V1.0。
三、著作权人/申请人:williamhill威廉希尔官网。
四、设计人:史文崇,刘茂华。
五、软件功能
利用词典最大正向匹配法进行中文分词。首先将文本文件内容导入相应数据库,根据标点符号进行断句,而后根据字母、序号、年月、阿拉伯数字等进一步拆分,剔除停用词后,逐步得出分词结果。最终,对各词的频度进行统计汇总。本软件是搜索引擎和语料分析、科研成果研究内容统计、分析的基础。
六、软件开发环境:SQL Server中文版。
七、硬件环境:普通32位以上的PC。
八、软件运行环境:Windows XP/7,SQL Server 2000、SQL Server 2005或SQL Server 2008,中文英文版均可。
九、软件特点
1. 本软件中文分词和统计功能完全借助数据库管理系统实现;
2. 完全用T-SQL语言开发,无需安装其他程序设计语言软件;
3. 初始化工作——数据库建立、环境参数设置和表的建立自动完成;
4. 存储过程只执行一次,生成的数据表可永久存储,反复浏览、使用;
5. 除了等待分词的文本文件之外,需要事先准备词典、停用词等数据文件(xls格式);
6. 适用于小规模、单个文本文件的语料分析。
十、软件构成
该软件程序行数:4010行,由以下几个程序或数据文件构成:
1. chushihua.sql 初始化程序;
2. Insertdata.sql 插入基础数据程序
3. cidian.xls 汉语词典数据文件
4. tingyongci.xls 停用词数据文件
5. zifuxuhao.xls 数字序号数据文件
6. shuziquwei.xls 数字区位码数据文件
7. duanju.sql 断句程序
8. fenci1.c 分词程序1
9. fenci2.c 分词程序2
10. shuci.c 识别并剔除文本中的数词的程序
11. shuzichuan.exe 识别并剔除文本中的阿拉伯数字串的程序
12. yingwenci.exe 识别并剔除文本中的英文词的程序
13. zifubianshi.exe 识别并剔除文本中的日期、时间、Email等特殊字符串的程序
14. tongji.exe 统计分词结果的程序