中文信息检索引擎中的若干技术

ID：22703831

大小：108.88 KB

页数：14页

发布时间：2023-10-23 06:03:01

资源描述：

中文信息检索引擎中的若干技术吴栋滕育平(南开大学组合数学研究中心核心数学与组合数学教育部重点实验室,天津300071)摘要本文论述了在开发中文信息检索系统中所涉及到的两项关键技术，即中文分词技术和检索技术。对中文分词技术，本文介绍了一种改进的正向最大匹配切分算法，以及为消除歧义引入的校正策略，并在此基础上结合统计方法处理未登录词。针对检索技术，本文综述了几种最常用的检索模型的原理，并对每种模型的优缺点进行了简要分析。最后对给出的分词算法进行了测试，测试表明本文给出的分词算法准确度和效率能够满足实用的要求。关键词信息检索搜索引擎分词技术检索技术1引言随着社会的不断|进步，特别是在互联网迅猛发展的今天，人们在不断地接触形形色色的信息，同时也要对这些信息进行过滤，从而提取出对自己真正有用的内容。为了达到这个目的，人们开发出了众多的检索引擎，有针对Web进行搜索的Goolge、百度等，也有针对各行业开发的专题检索系统。目前，国内的每个行业、领域都在飞速发展，这中间产生了大量的中文信息资源，为了能够及时准确的获取最新的信息，中文检索引擎是必然的产物。中文检索引擎与西文检索引擎在实现的机制和原理上大致雷同，但由于汉语本身的特点，必须引入对于中文语言的处理技术，而中文分词技术就是其中很关键的部分。2中文检索引擎的基本原理常见的中文检索|引擎主要完成两方面的任务：1．信息的规范化。将搜集来的信息按照一定的方式进行组织管理，使之成为可以高效检索的信息库。2．信息的检索和表达。以索引好的信息库作为信息基础，利用信息库已被索引的特点，实施快速检索，同时根据用户的需求将检索结果进行输出。其中，信息的规范化包括分词和索引（以及资料的搜集和整理）、更新（维护）两部分；信息的检索包括搜索、结果输出两部分。整个信息处理和检索过程如图1所示：

13中文分词技术3.1汉语的特点词是最小的、能独立活动的、有意义的语言成分。因此，通常的检索引擎都是以每一个独立的词为单位建立索引，在查询时按照检索词出现的位置和频率对文档|进行输出。英语文本是小字符集上的已充分分隔开的词串,而汉语文本是大字符集上的连续字串，并且在词与词之间并没有明显的分割标记。故而存在一个对汉语中的词加以识别的问题，即中文检索引擎首先必须对原文进行切分词。如果不切词（按字检索）,可能检索的结果与用户的查询要求会大相径庭，例如当检索德国货币单位"马克"时,就会把"马克思"检索出来,而检索"华人"时会把"中华人民共和国"检索出来。因而进行切词,可以大大提高检索的准确率。中国的汉字是示意文字，总数有几万个，在由国家标准总局颁布的《信息交换用汉字编码字符集--基本集》（即GB2312-80）中共收录了一级和二级常用汉字共|6763个，而在Unicode编码中更是收录多达20902个汉字。据统计，在常用汉语中，90%以上使用的是二字词和三字词，也有使用四字词和五字词。知道这些汉字的特点，对于我们选择合理的切分算法是有益的。3.2一般的分词技术由于书面汉语是字的序列，词与词之间没有间隔标记，使得词的界定往往模糊不清。即使这样，在过去的时间里，人们在汉语的自动分词技术的研究上还是做了很多工作，设计了许多实用、高效的算法。通常的方法主要分为两类[1]：第一类主要基于字典、词库的匹配和词的频度统计，这类方法实用、具体，比较容易实现；第二类方法主要基于句法、语法分析，并结合语义分析，通过对上|下文内容所提供信息的分析对词进行定界，这类方法试图让机器具有人类的理解能力，其原理较为晦涩，一般不易实现。常用的切词算法如下：1)最大正向匹配法(MaximumMatchingMethod)通常简称为MM法。其基本思想为：设D为词典，MAX表示D中的最大词长，str为待切分的字串。MM法是每次从str中取长度为MAX的子串与D中的词进行匹配。若成功，则该子串为词，指针后移MAX个汉字后继续匹配，否则子串逐次减一进行匹配。2)逆向最大匹配法(ReverseMaximumMatcingMethod)通常简称为RMM法。RMM法的基本原理与MM法相同，不同的是分词的扫|描方向，它是从右至左取子串进行匹配。统计结果表明，单纯使用正向最大匹配的错误率为1/169，单纯使用逆向最大匹配的错误率为1/245，RMM法在切分的准确率上比MM法有很大提高。3)基于词频的统计方法统计方法一般不依赖于词典，而是将原文中任意前后紧邻的两个字作为一个词进行出现频率的统计，出现的次数越高，成为一个词的可能性也就越大。在频率超过某个预先设定得阈值时，就将其作为一个词进行索引。这种方法能够有效地提取出未登录词。3.3一种改进的MM算法MM法和RMM法的缺点在于对词典的完全性有很强的依赖性，而且无法很好的解决歧义问题，有人提出了双向匹配法，即针对一个字符|串，分别从两个方向进行处理，但这种方法只有检错功能，却不能自动进行校正，给出正确结果。由于一个词在不同的文章中出现的次数通常不一样，因此采用统计方法对词的切分准确度并不太高。鉴于以上几种方法的优缺点，人们自然想把这几种方法结合起来，扬长避短。这里，介绍一种改进的MM算法。3.3.1词典存储格式采用分层存储的形式，一共分为3层，形成树型结构，如下所示（每一个字母代表一个字）。一层存储所有单字。第二层保存所有的双字词和多字词的前两个字（因为，也许会出现ABC为词，但AB不是词的情况），并对两者做不同标记(t/f)。每一个可成词的单字对应一系列第二层结点，用来存储所有|以该字为词首的双字（包括上述两种情况）。并且，在这里，针对每一个双字，需要记录以该双字为词首的所有词的最大长度，实际中，可以保存除去该双字部分的最大长度(记为n)。第三层存储以某一双字为首的所有词。为了减少存储空间，只存储除去该双字以外的部分（如上图所示）。每一层各结点需按某种次序排列，可使用hash、二分查找等方法进行查询。采用这种层次的存储结构，可以很快把查询词的工作缩小到一个很小的范围内，有利于分词效率的提高。3.3.2匹配方法(MM方法)由于词

当前文档最多预览五页，下载文档查看全文

侵权申诉

此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

版权提示

温馨提示：
1、本文档共14页，下载后即可获取全部内容。
2、此文档《中文信息检索引擎中的若干技术》由用户(158****5147)提供并上传付费之前请先通过免费阅读内容等途径辨别内容，本站所有文档下载所得的收益全部归上传人(卖家)所有:如有侵权或不适当内容，请进行举报或申诉。
3、所有的PPT和DOC文档都被视为“模板”允许上传人保留音节日灵结构的情况下删减部份的内容，下裁前须认直查看，确认无误后再购买。
4、开云手机版APP下载网仅提供信息存储空间，仅对用户上传内容的表现方式做保护外理，无法对各卖家所售文档的直实性，完整性，准确性以及专业性等问题提供审核和保证，请谨慎购买。
5、本站文档的总页数，文档格式和文档大小以系统显示为准(内容中显示页数不一定正确)，网站客服只以系统显示页数，文件格式，文档大小作为仲裁依据。