收藏到会员中心

文档题目:

WPS程序资源中多国文字一致性智能判定的研究与实现(含开题+任务书)

WPS程序资源中多国文字一致性智能判定的研究与实现(含开题+任务书)
上传会员: panmeizi
提交日期: 2013-09-22 18:02:38
文档分类: 计算机
浏览次数: 48
下载次数: 0
下载地址: 点击标题下载 WPS程序资源中多国文字一致性智能判定的研究与实现(含开题+任务书) (需要:20 积分)  如何获取积分?
下载提示: 不支持迅雷等下载工具,请右键另存为下载,或用浏览器下载。不退出登录1小时内重复下载不扣积分。
文档介绍: 以下为文档部分内容,全文可通过注册成本站会员下载获取。也可加管理员微信/QQ:17304545代下载。
文档字数:
文档字数:20624
 WPS程序资源中多国文字一致性智能判定的研究与实现

摘    要
本文针对WPS多国语言版本的语言一致性测试中遇到的问题进行了研究,定义了多国语言一致性判定的概念,将多国语言的一致性分为三个级别:字符、词、语义。在这三个级别中,根据Unicode编码规则结合各种语言独有的多字节字符集的编码规则实现了字符级别一致性的判定;在字符一致性的基础上,利用分词技术将文本分词,然后通过查找词典的方法实现了词级别的一致性判定;在分词的基础上,建立一个N-Gram统计语言模型,将文本分词后与该模型进行匹配实现了语义级别的一致性判定。
最后,我们根据本文提出的方法实现了一个WPS的中、英文一致性判定的自动化工具。对于英文,本文采用了基于词典查找的拼写检查方法使一致性判定达到了词的级别;对于中文,本文采用统计语言模型进行一致性检查使一致性判定达到了语义级别。利用这个工具在WPS的三个项目中共找出了有效的英文错误33处、中文错误15处。试验结果证明了本文的方法是可行的,统计语言模型是能够应用到多国文字一致性判定中去的。
关键词:一致性判定,n-gram,统计语言模型,分词,多国文字
1. 绪论 1
1.1 课题的背景及目的 1
1.2 国内外研究状况 1
1.3 课题研究方法 3
1.4 论文研究内容 3
2. 字符编码简介 5
2.1 从ASCII到Unicode 5
2.2 Unicode、UCS和UTF 6
2.3 中日韩统一表意文字 6
2.3.1. CJK的发展 6
2.3.2.字源分离原则 7
2.3.3. CJK编码区间 8
2.4 Unicode与GB2312在本文中的作用 8
3. 分词介绍及语言统计模型 10
3.1 中文分词简介 10
3.1.1  最大正向匹配法 11
3.1.2  逆向最大匹配法 12
3.1.3  最少切分法 12
3.1.4  双向匹配法 12
3.1.5  中文分词中的难题 13
3.2 统计语言模型 14
3.2.1 统计语言模型简史 14
3.2.2 统计语言模型的发展 14
3.2.3 建立一个简单的统计语言模型 15
3.3 N_Gram统计语言模型 16
3.3.1 N-Gram语言模型概述[2] 16
3.3.2 建立一个BiGram模型[6] 16
3.3.3 N-Gram的数据稀疏问题 18
3.3.4 N-Gram的数据平滑处理 18
4. WPS程序资源中多国语言一致性智能判定的实现 22
4.1 提取资源字符串 22
4.2 英文一致性判定的实现 23
4.2.1 英文字符一致性判定的实现 23
4.2.2 英文词、语法一致性的判定的实现 24
4.3 中文一致性判定的实现 27
4.3.1 中文字符一致性判定的实现 27
4.3.2 中文词、语法一致性的判定的实现 27
4.4 实验结果与分析 29
结论与展望 32
致    谢 34
参考文献 35

(本文由word文档网(www.wordocx.com)会员上传,如需要全文请注册成本站会员下载)

热门文档下载

相关文档下载

上一篇vb学生信息管理系统(含论文及源代.. 下一篇XML在教学资源共享中的应用(含开..

相关栏目

最新文档下载

推荐文档下载