WO2015196909A1 - 一种分词方法和装置 - Google Patents

一种分词方法和装置 Download PDF

Info

Publication number
WO2015196909A1
WO2015196909A1 PCT/CN2015/080675 CN2015080675W WO2015196909A1 WO 2015196909 A1 WO2015196909 A1 WO 2015196909A1 CN 2015080675 W CN2015080675 W CN 2015080675W WO 2015196909 A1 WO2015196909 A1 WO 2015196909A1
Authority
WO
WIPO (PCT)
Prior art keywords
word
word segmentation
candidate
text information
feature
Prior art date
Application number
PCT/CN2015/080675
Other languages
English (en)
French (fr)
Inventor
项碧波
Original Assignee
北京奇虎科技有限公司
奇智软件(北京)有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 北京奇虎科技有限公司, 奇智软件(北京)有限公司 filed Critical 北京奇虎科技有限公司
Publication of WO2015196909A1 publication Critical patent/WO2015196909A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor

Definitions

  • the invention relates to the technical field of word segmentation, in particular to a word segmentation method and a word segmentation device.
  • users often need to enter key information to obtain related information. For example, enter a keyword search web page information in a search engine, a keyword search post in a forum, and the like.
  • the word segmentation is the basis for information processing and information retrieval. All information processing and information retrieval work are performed after the word segmentation. Therefore, the error of the word segmentation will be superimposed on the subsequent processing and it is difficult to eliminate. Because of this, the pursuit of the accuracy of word segmentation is a continuous process, and because of the inherent characteristics of Chinese language: there is no clear definition of words, no separators between words and words, new words, proper nouns, etc. These factors make it difficult to achieve 100% accuracy of the participle.
  • the main method used by the current word segmentation system is based on statistical word segmentation.
  • words are a combination of stable words, so in the context, the more times adjacent words appear at the same time, the more likely they are to constitute a word. Therefore, the frequency or probability of co-occurrence of words and words can be better reflected in the credibility of words.
  • the frequency of the combination of adjacent words co-occurring in the corpus can be counted and their mutual information can be calculated. Define the mutual information of two words and calculate the adjacent co-occurrence probability of two Chinese characters X and Y.
  • the mutual information reflects the closeness of the relationship between Chinese characters. When the degree of tightness is above a certain threshold, the word group may be considered to constitute a word.
  • This method only needs to count the frequency of the words in the corpus, but this method also has certain limitations. It often extracts some common characters with high frequency, but not words, such as "this”. “One”, “Yes”, “My”, “Many”, etc., and the recognition accuracy of commonly used words is poor, and the space-time overhead is large.
  • the result of the word segmentation caused the related information obtained in the later period to be very different from the original expectation.
  • the user experience was very poor, and the equipment system resources were wasted.
  • the present invention has been made in order to provide a word segmentation method and a corresponding word segmentation device that overcome the above problems or at least partially solve or alleviate the above problems.
  • a word segmentation method comprising:
  • the text information is subjected to word segmentation according to the feature words in the word segment dictionary after adjusting the weight, and the target candidate word segmentation is determined.
  • a word segmentation apparatus comprising:
  • a text information extraction module configured to extract text information of a webpage in the search resource
  • a first word segmentation processing module configured to perform word segmentation processing on the text information by using feature words in a word segmentation dictionary to obtain one or more candidate word segments;
  • a word frequency statistics module configured to, when the word segmentation process is ambiguous, count the word frequency of the candidate participle characterizing the context in the webpage
  • a weight adjustment module configured to adjust a weight of a feature term in the word segment dictionary according to the word frequency
  • the second word segmentation processing module is adapted to perform segmentation processing on the text information according to the feature words in the segmentation dictionary after adjusting the weight, and determine the target candidate segmentation word.
  • a computer program comprising computer readable code that, when executed on a computing device, causes the computing device to perform the word segmentation method described above.
  • a computer readable medium wherein the computer program described above is stored.
  • the weight of the feature word in the word segment dictionary is adjusted based on the word frequency of the candidate word segmentation in the web page, and the weight is adjusted according to the adjustment weight.
  • the feature terms process word segmentation of text information, determine target candidate word segmentation, based on context-assisted word segmentation, fully consider the characteristics of natural language, effectively reduce the influence of ambiguity on word segmentation processing, and improve the accuracy of word segmentation.
  • FIG. 1 is a flow chart showing the steps of an embodiment of a word segmentation method according to an embodiment of the present invention
  • FIG. 2 is a block diagram showing the structure of an embodiment of a word segmentation device according to an embodiment of the present invention
  • Figure 3 schematically shows a block diagram of a computing device for performing the method according to the invention
  • Fig. 4 schematically shows a storage unit for holding or carrying program code implementing the method according to the invention.
  • FIG. 1 a flow chart of steps of an embodiment of a word segmentation method according to an embodiment of the present invention is shown, which may specifically include the following steps:
  • Step 101 Extract text information of a webpage in the search resource.
  • the webpage can be crawled by a spider or the like and saved in a webpage database to form a large number of search resources, and the webpage content can include a large amount of text information.
  • the text information of the webpage content in the search resource may be extracted from the webpage database.
  • Step 102 Perform word segmentation processing on the text information by using feature words in the word segment dictionary to obtain one or more candidate word segments;
  • Word segmentation is the most basic step in natural language processing. In practice, many different word segmentation methods are produced. These methods can be roughly divided into two categories: dictionary-based matching methods and statistical-based methods.
  • the dictionary-based method can use the word segmentation dictionary as the main resource, and adopt the basic idea of the mechanical matching method, that is, establish a word dictionary (also known as the thesaurus) in advance, which can include possible words, for a given word to be distinguished.
  • a word dictionary also known as the thesaurus
  • Text information if the string matches a term in the word segmentation dictionary, the string can be considered as a candidate word segmentation, insert the segmentation flag, continue The remaining part is divided until the remaining part is empty; otherwise, the string can be considered as a candidate participle, and the string of the text information is re-cut to make the next match.
  • the candidate participle may include at least one of a first candidate participle and a second candidate participle; in the embodiment of the present invention, step 102 may include the following sub-steps:
  • Sub-step S11 the text information is matched with the feature entry according to the first word segmentation rule
  • Sub-step S12 when the text information is matched with the feature entry, extracting the feature term as a first candidate segmentation
  • Sub-step S13 the text information is matched with the feature entry according to the second word segmentation rule
  • Sub-step S14 when the text information is matched with the feature entry, extracting the feature term as a second candidate segmentation
  • the first word segmentation rule is a word segmentation rule different from the second word segmentation rule.
  • the word segmentation based word segmentation method can generally include three elements, namely a word segmentation dictionary, a text information scanning order, and a matching rule.
  • the word segmentation dictionary can generally include a general word segmentation dictionary and a professional word segmentation dictionary and the like.
  • the general word segmentation dictionary may be a word segmentation dictionary suitable for the general field, that is, there is no technical term division in a specific field, and it mainly includes a general term whose appearance frequency is higher than the first preset threshold.
  • the general word segmentation dictionary may include a general word and a certain meaning word.
  • Generic words can include adjectives, conjunctions, and some general-purpose verbs such as "happy", "but", “participating", and the like.
  • the professional word segmentation dictionary can be a word segment dictionary suitable for a specific field, which mainly includes words appearing in a specific field with a frequency higher than a second preset threshold, such as angelica and grass in the field of Chinese herbal medicine.
  • the text information scanning order may include forward scanning, reverse scanning, two-way scanning, and the like.
  • Forward scanning may refer to scanning from the first character of the text information to be segmented
  • reverse scanning may refer to scanning from the last character string of the text information to be sliced.
  • the two-way scan can be a combination of forward scan and reverse scan.
  • Matching rules can include maximum match, minimum match, word-by-word match, and best match.
  • Common dictionary-based word segmentation rules can include forward maximum matching method (MM), reverse maximum matching method (RMM), two-way scanning method, word-by-word traversal method, best matching method, etc., segmentation mark method, finite Multi-layer enumeration and so on.
  • MM forward maximum matching method
  • RMM reverse maximum matching method
  • two-way scanning method word-by-word traversal method
  • best matching method etc.
  • segmentation mark method finite Multi-layer enumeration and so on.
  • the following takes the first participle rule as the forward maximum matching method and the second participle rule as the reverse maximum matching method as an example.
  • the purpose of the forward maximum matching method is to separate the longest compound word from the text information.
  • the longest term length in the word segmentation dictionary is k
  • the first k characters in the text information of the word segmentation are used as matching fields to search for the word segmentation dictionary. If such a term with length k exists in the dictionary, Then the match is successful.
  • the string that matches successfully is segmented as the first candidate participle.
  • the match fails. Remove the last character in the string to be matched, and re-match the remaining strings. This is done until the match is successful, and the length of a first candidate participle or the remaining string is cut to zero. This completes a round of matching, and then takes a string of length k for matching processing until the text information is scanned.
  • the inverse maximum matching method is similar to the forward maximum matching method. The difference is that it starts from the last k strings of the sentence. When each match is unsuccessful, the character in front of the string is removed.
  • word segmentation rule is only an example.
  • other word segmentation rules may be set according to actual conditions, which is not limited by the embodiment of the present invention.
  • those skilled in the art may also adopt other word segmentation rules according to actual needs, and the embodiment of the present invention does not limit this.
  • Step 103 When the word segmentation process is ambiguous, the candidate word segmentation is used to represent the word frequency of the context in the webpage;
  • Natural language can refer to the language that is naturally produced and established in human history during the development of human history, such as Chinese, English, and Russian.
  • a sentence in a given locale generally believes that only one analysis result is correct, but in other locales, it may be different if there is a different analysis result.
  • the error rate of the forward maximum matching method is about 1/169
  • the error rate of the inverse maximum matching method is about 1/245, that is, the inverse maximum matching method and the forward maximum matching method have different degrees of error.
  • the word frequency of the characterization context may include a first word frequency of the first candidate participle in a text locale of the webpage, the second candidate participle The second word frequency in the text locale of the webpage; in the embodiment of the present invention, step 103 may include the following sub-steps:
  • Sub-step S21 when the first candidate participle and the second candidate participle obtained by performing word segmentation processing on the same text information are different, determining that the word segmentation processing is ambiguous;
  • Sub-step S22 respectively counting the first word frequency of the first candidate participle in the text local environment in the webpage, and the second word frequency of the second candidate participle in the text locale in the webpage number.
  • the text language environment in the webpage where the text information is located may be fully utilized to assist in disambiguation (disambiguation) in the process of word segmentation processing, and the text language environment may be expressed in the form of a phrase, a sentence, a paragraph, an article, and the like.
  • the first candidate participle obtained based on the first participle rule is “facet” and “of”, based on the second participle rule (eg, reverse
  • the second candidate participle obtained by the maximum matching method is "small” and "face”, that is, the first candidate participle is different from the second candidate participle, and ambiguity occurs.
  • the first word frequency of the first candidate participle "facet” is 2, and the frequency of the second word of the second candidate participle "face” is 0.
  • Step 104 Adjust a weight of a feature term in the word segment dictionary according to the word frequency
  • step 104 may include the following sub-steps:
  • Sub-step S31 when the frequency of the first word is greater than the frequency of the second word, increasing the weight of the feature entry corresponding to the first candidate participle in the word segmentation dictionary;
  • Sub-step S32 when the frequency of the second word is greater than the frequency of the first word, the weight of the feature entry corresponding to the second candidate participle in the word segmentation dictionary is increased.
  • the weight of the feature entry corresponding to the first candidate participle or the second candidate participle may be increased, but not improved.
  • the weight of the feature terms in the word segmentation dictionary is equivalent to increasing the weight of the feature word adaptation applied to the text information in the word segmentation dictionary.
  • Step 105 Perform word segmentation on the text information according to the feature words in the word segment dictionary after adjusting the weight, and determine the target candidate word segmentation.
  • step 105 may include the following sub-steps:
  • Sub-step S41 matching the text information with the feature entry after increasing the weight according to the specified word segmentation rule
  • Sub-step S42 when the text information is matched with the feature item, the feature item is extracted as a target candidate participle.
  • the specified word segmentation rule may be a first word segmentation rule, a second word segmentation rule, or another word segmentation rule, which is not limited by the embodiment of the present invention.
  • the weight of the feature word in the word segment dictionary is adjusted based on the word frequency of the candidate word segmentation in the web page, and the weight is adjusted according to the adjustment weight.
  • the feature terms process word segmentation of text information, determine target candidate word segmentation, based on context-assisted word segmentation, fully consider the characteristics of natural language, effectively reduce the influence of ambiguity on word segmentation processing, and improve the accuracy of word segmentation.
  • FIG. 2 a structural block diagram of an embodiment of a word segmentation device according to an embodiment of the present invention is shown, which may specifically include the following modules:
  • the text information extraction module 201 is adapted to extract text information of a webpage in the search resource
  • the first part-of-word processing module 202 is adapted to perform word segmentation processing on the text information by using feature words in the word segment dictionary to obtain one or more candidate word segments;
  • the word frequency statistics module 203 is adapted to, when the word segmentation process is ambiguous, count the word frequency of the candidate segmentation in the webpage to represent the context;
  • the weight adjustment module 204 is adapted to adjust a weight of the feature term in the word segment dictionary according to the word frequency
  • the second word segmentation processing module 205 is adapted to the feature term in the word segment dictionary according to the adjusted weight
  • the text information is subjected to word segmentation processing to determine a target candidate word segmentation.
  • the candidate participle may include at least one of a first candidate participle and a second candidate participle;
  • the first word segmentation processing module 202 can also be adapted to:
  • the first word segmentation rule is a word segmentation rule different from the second word segmentation rule.
  • the word frequency of the characterization context may include a first word frequency of the first candidate participle in a text locale of the webpage, and the second candidate participle is The second word frequency in the text locale of the webpage;
  • the word frequency statistics module 203 can also be adapted to:
  • the weight adjustment module 204 may further be adapted to:
  • the weight of the feature term corresponding to the second candidate participle in the word segmentation dictionary is increased.
  • the second word segmentation processing module 205 is further adapted to:
  • the feature term is extracted as a target candidate segmentation.
  • the description is relatively simple, and the relevant parts can be referred to the description of the method embodiment.
  • the various component embodiments of the present invention may be implemented in hardware, or in a software module running on one or more processors, or in a combination thereof.
  • a microprocessor or digital signal processor may be used in practice to implement some or all of the functionality of some or all of the components of a word segmentation device in accordance with an embodiment of the present invention.
  • the invention can also be implemented as a device or device program (e.g., a computer program and a computer program product) for performing some or all of the methods described herein.
  • a program implementing the invention may be stored on a computer readable medium or may be in the form of one or more signals. Such signals may be downloaded from an Internet website, provided on a carrier signal, or provided in any other form.
  • Figure 3 illustrates a word segmentation computing device, such as a retrieval server, in accordance with the present invention.
  • the computing device conventionally includes a processor 310 and a computer program product or computer readable medium in the form of a memory 320.
  • the memory 320 may be an electronic memory such as a flash memory, an EEPROM (Electrically Erasable Programmable Read Only Memory), an EPROM, a hard disk, or a ROM.
  • the memory 320 has a memory space 330 for program code 331 for performing any of the method steps described above.
  • storage space 330 for program code may include various program code 331 for implementing various steps in the above methods, respectively.
  • the program code can be read from or written to one or more computer program products.
  • Such computer program products include program code carriers such as hard disks, compact disks (CDs), memory cards or floppy disks.
  • Such a computer program product is typically a portable or fixed storage unit as described with reference to FIG.
  • the storage unit may have storage segments, storage spaces, and the like that are similarly arranged to memory 320 in the computing device of FIG.
  • the program code can be compressed, for example, in an appropriate form.
  • the storage unit includes computer readable code 331', ie, code readable by a processor, such as 310, that when executed by a computing device causes the computing device to perform each of the methods described above step.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

一种分词方法和装置,所述的方法包括步骤:提取搜索资源中网页的文本信息(101);采用分词词典中的特征词条对所述文本信息进行分词处理,获得一个或多个候选分词(102);当所述分词处理出现歧义时,统计所述候选分词在所述网页中表征语境的词频数(103);依据所述词频数调整所述分词词典中特征词条的权重(104);依据调整权重后的分词词典中的特征词条对所述文本信息进行分词处理,确定目标候选分词(105)。基于语境辅助分词处理,充分考虑了自然语言的特性,有效降低歧义对分词处理的影响,提升了分词的准确率。

Description

一种分词方法和装置 技术领域
本发明涉及分词技术领域,尤其涉及一种分词方法和一种分词装置。
背景技术
随着互联网的高速发展,网络应用趋向多元化,网上的信息量急剧增加。
在各种场合下,用户经常需要输入关键信息进行关联信息的获取。例如,在搜索引擎中输入关键词搜索网页信息、在论坛中输入关键词搜索帖子等等。
分词是进行信息处理、信息检索的基础,所有的信息处理、信息检索工作都是在分词之后进行的。所以分词的错误会被叠加到后续的处理过程中,而且很难被消除。正因为这样所以对分词的准确率的追求是个持续的过程,同时由于中文语言的固有的特性:没有明确的词的定义、词和词之间没有分隔符、新词、专有名词不断涌现等这些因素导致分词很难做到100%的准确。
当前分词系统使用的主要方法是基于统计的分词。从形式上看,词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统计,计算它们的互现信息。定义两个字的互现信息,计算两个汉字X、Y的相邻共现概率。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时,便可认为此字组可能构成了一个词。这种方法只需对语料中的字组频度进行统计,但这种方法也有一定的局限性,会经常抽出一些共现频度高、但并不是词的常用字组,例如“这一”、“之一”、“有的”、“我的”、“许多的”等,并且对常用词的识别精度差,时空开销大。
分词的结果错误致使后期获取的关联信息与当初的预期有很大差别,用户体验十分差,浪费了设备系统资源。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决或减缓上述问题的一种分词方法和相应的一种分词装置。
根据本发明的一个方面,提供了一种分词方法,包括:
提取搜索资源中网页的文本信息;
采用分词词典中的特征词条对所述文本信息进行分词处理,获得一个或多个候选分词;
当所述分词处理出现歧义时,统计所述候选分词在所述网页中表征语境的词频数;
依据所述词频数调整所述分词词典中特征词条的权重;
依据调整权重后的分词词典中的特征词条对所述文本信息进行分词处理,确定目标候选分词。
根据本发明的另一方面,提供了一种分词装置,包括:
文本信息提取模块,适于提取搜索资源中网页的文本信息;
第一分词处理模块,适于采用分词词典中的特征词条对所述文本信息进行分词处理,获得一个或多个候选分词;
词频数统计模块,适于在所述分词处理出现歧义时,统计所述候选分词在所述网页中表征语境的词频数;
权重调整模块,适于依据所述词频数调整所述分词词典中特征词条的权重;
第二分词处理模块,适于依据调整权重后的分词词典中的特征词条对所述文本信息进行分词处理,确定目标候选分词。
根据本发明的又一个方面,提供了一种计算机程序,其包括计算机可读代码,当所述计算机可读代码在计算设备上运行时,导致所述计算设备执行上述的分词方法。
根据本发明的再一个方面,提供了一种计算机可读介质,其中存储了上述的计算机程序。
本发明的有益效果为:
本发明实施例在采用分词词典中的特征词条对文本信息进行分词处理出现歧义时,基于候选分词在网页中表征语境的词频数调整分词词典中特征词条的权重,以及依据调整权重后特征词条对文本信息进行分词处理,确定目标候选分词,基于语境辅助分词处理,充分考虑了自然语言的特性,有效降低歧义对分词处理的影响,提升了分词的准确率。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示意性示出了根据本发明一个实施例的一种分词方法实施例的步骤流程图;以及
图2示意性示出了根据本发明一个实施例的一种分词装置实施例的结构框图;
图3示意性地示出了用于执行根据本发明的方法的计算设备的框图;以及
图4示意性地示出了用于保持或者携带实现根据本发明的方法的程序代码的存储单元。
具体实施例
下面结合附图和具体的实施方式对本发明作进一步的描述。
参照图1,示出了根据本发明一个实施例的一种分词方法实施例的步骤流程图,具体可以包括如下步骤:
步骤101,提取提取搜索资源中网页的文本信息;
在具体实现中,可以通过爬虫(Spider)等方式抓取网页并保存在网页数据库中形成大量的搜索资源,而网页内容中可以包括大量的文本信息。则在本发明实施例中,可以从网页数据库中提取搜索资源中网页内容的文本信息。
步骤102,采用分词词典中的特征词条对所述文本信息进行分词处理,获得一个或多个候选分词;
分词处理是自然语言处理中最基本的一个步骤,在实际中产生了很多不同的分词方法,这些方法大体上可以分为两类:基于词典匹配的方法和基于统计的方法。
基于词典的方法可以是利用分词词典作为主要的资源,采用机械匹配法的基本思想,即事先建立一个分词词典(又称词库),其中可以包含可能出现的词条,对给定的待分词的文本信息,按照某种确定的分词规则切取文本信息中的字符串,若该字符串与分词词典中的某词条相匹配,则可以认为该字符串是候选分词,插入切分标志,继续分割剩余的部分,直到剩余部分为空;否则,可以认为该字符串不是候选分词,重新切取文本信息的字符串进行下一次匹配。
在本发明的一种可选实施例中,所述候选分词可以包括第一候选分词和第二候选分词中的至少一个;则在本发明实施例中,步骤102可以包括如下子步骤:
子步骤S11,按照第一分词规则对所述文本信息进行与所述特征词条进行匹配;
子步骤S12,当所述文本信息进行与所述特征词条进行匹配时,提取所述特征词条作为第一候选分词;
子步骤S13,按照第二分词规则对所述文本信息进行与所述特征词条进行匹配;
子步骤S14,当所述文本信息进行与所述特征词条进行匹配时,提取所述特征词条作为第二候选分词;
其中,所述第一分词规则为与所述第二分词规则不同的分词规则。
基于分词词典的分词方法的通常可以包括三个要素,分别为分词词典、文本信息扫描顺序和匹配规则。
其中,分词词典通常可以包括通用的分词词典和专业的分词词典等等。
通用的分词词典可以是适用于通用领域的分词词典,即没有特定的领域中的技术术语划分,其主要包含通用的、出现频率高于第一预设阈值的词条。具体地,通用的分词词典中可以包括通用词和确定意义词。通用词可以包括形容词、连词和一些通用意义的动词,例如“高兴”、“但是”、“参加”等。
专业的分词词典可以为适用于某个特定领域的分词词典,其主要包含某个特定领域中出现频率高于第二预设阈值的词条,比如中草药领域的当归、草乌等。
文本信息扫描顺序可以包括正向扫描、逆向扫描和双向扫描等等。
正向扫描可以是指从待切分的文本信息的第一个字符往后扫描,而逆向扫描可以是指从待切分的文本信息的最后一个字符串往前扫描。双向扫描则可以是正向扫描和逆向扫描的组合。
匹配规则可以包括最大匹配、最小匹配、逐词匹配和最佳匹配等。
常见的基于词典的分词规则可以包括正向最大匹配法(MM)、反向最大匹配法(RMM)、双向扫描法、逐词遍历法、最佳匹配法等等、切分标志法、有穷多层列举法等等。
以下以第一分词规则为正向最大匹配法、第二分词规则为反向最大匹配法为例进行说明。
正向最大匹配法的目的是将最长的复合词从文本信息中分离出来。
具体而言,假定分词词典中的最长词条长度是k,则用待分词的文本信息中前k个字符串作为匹配字段查找分词词典,若词典中存在这样一个长度为k的词条,则匹配成功。匹配成功的字符串被作为第一候选分词被切分出来。
如果分词词典中找不到这样的一个长度为k的词条,则匹配失败。将待匹配的字符串中的最后一个字符去掉,对剩下的字符串重新进行匹配处理, 如此进行下去,直到匹配成功,切分出一个第一候选分词或剩余字符串的长度为零为止。这样就完成了一轮匹配,然后取下一个长度为k的字符串进行匹配处理,直到文本信息被扫描完为止。
反向最大匹配法和正向最大匹配法的思想相似,不同之处在于它是从句子的最后的k个字符串开始切分,每次匹配不成功时,去掉字符串前面的一个字符。
当然,上述分词规则只是作为示例,在实施本发明实施例时,可以根据实际情况设置其他分词规则,本发明实施例对此不加以限制。另外,除了上述分词规则外,本领域技术人员还可以根据实际需要采用其它分词规则,本发明实施例对此也不加以限制。
步骤103,当所述分词处理出现歧义时,统计所述候选分词在所述网页中表征语境的词频数;
自然语言可以指人类历史发展过程中自然产生、约定俗成的用于人类社会交际的语言,如汉语、英语、俄语等。
一个句子在给定的语言环境中,一般认为只有一种分析结果是正确的,但是在其他语言环境中,则可能如果出现不同的分析结果。
例如,对于文本信息“我等你开车”,可以存在两种理解,一种理解是等你来了我再开车(即我开车),另一种理解是我在等着你开车(即你开车)。
若给定一部合理的语法和一个句子,通过自然语言处理按照这部语法可能给出一种以上的分析结果,那么这些分析结果中则存在分析歧义。
例如,据统计,正向最大匹配法的差错率大概为1/169,而逆向最大匹配法的差错率大概为1/245,即逆向最大匹配法和正向最大匹配法都存在不同程度的误差。
例如,对于文本信息“小面的”,单从这三个字是无从判断到底是“小面/的”,还是“小/面的”,或者其他的词语组成。因此,在分词处理时,可能获得“小面/的”、“小/面的”或者其他的分词结果。
在本发明的一种可选实施例中,所述表征语境的词频数可以包括所述第一候选分词在所述网页的文本语言环境中的第一词频数,所述第二候选分词 在所述网页的文本语言环境中的第二词频数;则在本发明实施例中,步骤103可以包括如下子步骤:
子步骤S21,当对同一个文本信息进行分词处理所获得的所述第一候选分词和所述第二候选分词不同时,判断所述分词处理出现歧义;
子步骤S22,分别统计所述第一候选分词在所述网页中的文本语言环境中的第一词频数,以及,所述第二候选分词在所述网页中的文本语言环境中的第二词频数。
本发明实施例中,可以在分词处理的过程中充分利用文本信息所在网页中的文本语言环境辅助进行消歧(消除歧义),该文本语言环境可以表现为短语、句子、段落、文章等形式。
例如,对于文本信息“小面的”,基于第一分词规则(如正向最大匹配法)所获得的第一候选分词为“小面”和“的”,基于第二分词规则(如反向最大匹配法)所获得的第二候选分词为“小”和“面的”,即第一候选分词与第二候选分词不同,出现歧义。
如果把文本信息“小面的”放入更完整的句子(文本语言环境)中可以有助于消歧。结合上下文可知,“小面的”是从“重庆小面的做法”中提取的。显然,“重庆小面的做法”比“小面的”的语义更为清楚,使得分词处理更加准确。
“重庆小面的做法”这个短语对于人来理解一般比较充分了,但是对于基于统计的分词处理来说,一般是不够的。原因主要有两个,第一个原因是,“小面”可能是个很不常见的词;第二个原因是,“面的”的使用频率要比“小面”高不少。
因此,本示例中可以采用更大范围的文本语言环境,如文章,以统计“小面”和“面的”的词频数。
以下截取“小面的”所在文章(一篇讲解如何烹饪重庆小面的文章)的其中一段为例进行说明:
“重庆人喜食麻辣,小面可谓集川菜麻辣之大成,一碗好吃的小面必是有一碗好吃的作料方能吸引食客,必备的作料有九种:酱油、味精、油辣子 海椒、花椒面、姜蒜水、猪油、葱花、榨菜粒、芝麻酱。”
其中,第一候选分词“小面”的第一词频数为2,第二候选分词“面的”的第二词频数为0。
步骤104,依据所述词频数调整所述分词词典中特征词条的权重;
一个作者在撰写一篇文章的时候,通常会有一个确定的主题,即一个确定的文本语言环境,使得语义明确。
一篇文章中描述的内容是有连贯性的,所以文章中相关的词语会在短语、句子、段落、文章等频繁出现。
在本发明的一种可选实施例中,步骤104可以包括如下子步骤:
子步骤S31,当所述第一词频数大于所述第二词频数时,提高所述第一候选分词对应的特征词条在所述分词词典中的权重;
子步骤S32,当所述第二词频数大于所述第一词频数时,提高所述第二候选分词对应的特征词条在所述分词词典中的权重。
例如,对于文本信息“小面的”,在其所属文章中,“小面”的词频数会有大幅的提升,远高于“面的”的词频数,则可以相对应提高“小面”的权重。
需要说明的是,若第一候选分词或第二候选分词适配于文本信息所在的文本语言环境时,第一候选分词或第二候选分词对应的特征词条的权重会提高,但并不是提高在分词词典中的特征词条的权重,而是相当于提高分词词典中应用于该文本信息的特征词条适配的权重。
步骤105,依据调整权重后的分词词典中的特征词条对所述文本信息进行分词处理,确定目标候选分词。
在调整权重后,可以继续进行分词处理。
在本发明的一种可选实施例中,步骤105可以包括如下子步骤:
子步骤S41,按照指定的分词规则对所述文本信息与提高权重后的所述特征词条进行匹配;
子步骤S42,当所述文本信息进行与所述特征词条进行匹配时,提取所述特征词条作为目标候选分词。
指定的分词规则可以为第一分词规则、第二分词规则,也可以为其他的分词规则,本发明实施例对此不加以限制。
例如,对于文本信息“小面的”,“面的”的使用频率要比“小面”高,使得“面的”的权重初始要比“小面”高,但是在基于文本语言环境提高了“小面”的权重后,可以获得“小面的”的分词结果“小面”和“的”,以实现歧义消除。
本发明实施例在采用分词词典中的特征词条对文本信息进行分词处理出现歧义时,基于候选分词在网页中表征语境的词频数调整分词词典中特征词条的权重,以及依据调整权重后特征词条对文本信息进行分词处理,确定目标候选分词,基于语境辅助分词处理,充分考虑了自然语言的特性,有效降低歧义对分词处理的影响,提升了分词的准确率。
对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
参照图2,示出了根据本发明一个实施例的一种分词装置实施例的结构框图,具体可以包括如下模块:
文本信息提取模块201,适于提取搜索资源中网页的文本信息;
第一分词处理模块202,适于采用分词词典中的特征词条对所述文本信息进行分词处理,获得一个或多个候选分词;
词频数统计模块203,适于在所述分词处理出现歧义时,统计所述候选分词在所述网页中表征语境的词频数;
权重调整模块204,适于依据所述词频数调整所述分词词典中特征词条的权重;
第二分词处理模块205,适于依据调整权重后的分词词典中的特征词条 对所述文本信息进行分词处理,确定目标候选分词。
在本发明的一种可选实施例中,所述候选分词可以包括第一候选分词和第二候选分词中的至少一个;
所述第一分词处理模块202还可以适于:
按照第一分词规则对所述文本信息进行与所述特征词条进行匹配;
当所述文本信息进行与所述特征词条进行匹配时,提取所述特征词条作为第一候选分词;
按照第二分词规则对所述文本信息进行与所述特征词条进行匹配;
当所述文本信息进行与所述特征词条进行匹配时,提取所述特征词条作为第二候选分词;
其中,所述第一分词规则为与所述第二分词规则不同的分词规则。
在本发明的一种可选实施例中,所述表征语境的词频数可以包括所述第一候选分词在所述网页的文本语言环境中的第一词频数,所述第二候选分词在所述网页的文本语言环境中的第二词频数;
所述词频数统计模块203还可以适于:
当对同一个文本信息进行分词处理所获得的所述第一候选分词和所述第二候选分词不同时,判断所述分词处理出现歧义;
分别统计所述第一候选分词在所述网页中的文本语言环境中的第一词频数,以及,所述第二候选分词在所述网页中的文本语言环境中的第二词频数。
在本发明的一种可选实施例中,所述权重调整模块204还可以适于:
当所述第一词频数大于所述第二词频数时,提高所述第一候选分词对应的特征词条在所述分词词典中的权重;
当所述第二词频数大于所述第一词频数时,提高所述第二候选分词对应的特征词条在所述分词词典中的权重。
在本发明的一种可选实施例中,所述第二分词处理模块205还可以适于:
按照指定的分词规则对所述文本信息与提高权重后的所述特征词条进行匹配;
当所述文本信息进行与所述特征词条进行匹配时,提取所述特征词条作为目标候选分词。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的分词设备中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
例如,图3示出了可以实现根据本发明的分词计算设备,例如检索服务器。该计算设备传统上包括处理器310和以存储器320形式的计算机程序产品或者计算机可读介质。存储器320可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。存储器320具有用于执行上述方法中的任何方法步骤的程序代码331的存储空间330。例如,用于程序代码的存储空间330可以包括分别用于实现上面的方法中的各种步骤的各个程序代码331。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。这些计算机程序产品包括诸如硬盘,紧致盘(CD)、存储卡或者软盘之类的程序代码载体。这样的计算机程序产品通常为如参考图4所述的便携式或者固定存储单元。该存储单元可以具有与图3的计算设备中的存储器320类似布置的存储段、存储空间等。程序代码可以例如以适当形式进行压缩。通常,存储单元包括计算机可读代码331’,即可以由例如诸如310之类的处理器读取的代码,这些代码当由计算设备运行时,导致该计算设备执行上面所描述的方法中的各个步骤。
本文中所称的“一个实施例”、“实施例”或者“一个或者多个实施例”意味着,结合实施例描述的特定特征、结构或者特性包括在本发明的至少一个实施例中。此外,请注意,这里“在一个实施例中”的词语例子不一定全指同一个实施例。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下被实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
此外,还应当注意,本说明书中使用的语言主要是为了可读性和教导的目的而选择的,而不是为了解释或者限定本发明的主题而选择的。因此,在不偏离所附权利要求书的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围,对本发明所做的公开是说明性的,而非限制性的,本发明的范围由所附权利要求书限定。

Claims (12)

  1. 一种分词方法,包括步骤:
    提取搜索资源中网页的文本信息;
    采用分词词典中的特征词条对所述文本信息进行分词处理,获得一个或多个候选分词;
    当所述分词处理出现歧义时,统计所述候选分词在所述网页中表征语境的词频数;
    依据所述词频数调整所述分词词典中特征词条的权重;
    依据调整权重后的分词词典中的特征词条对所述文本信息进行分词处理,确定目标候选分词。
  2. 如权利要求1所述的方法,其特征在于,所述候选分词包括第一候选分词和第二候选分词中的至少一个;
    所述采用分词词典中的特征词条对所述文本信息进行分词处理,获得一个或多个候选分词的步骤包括:
    按照第一分词规则对所述文本信息进行与所述特征词条进行匹配;
    当所述文本信息进行与所述特征词条进行匹配时,提取所述特征词条作为第一候选分词;
    按照第二分词规则对所述文本信息进行与所述特征词条进行匹配;
    当所述文本信息进行与所述特征词条进行匹配时,提取所述特征词条作为第二候选分词;
    其中,所述第一分词规则为与所述第二分词规则不同的分词规则。
  3. 如权利要求1或2所述的方法,其特征在于,所述表征语境的词频数包括所述第一候选分词在所述网页的文本语言环境中的第一词频数,所述第二候选分词在所述网页的文本语言环境中的第二词频数;
    所述当所述分词处理出现歧义时,统计所述候选分词在所述网页中表征语境的词频数的步骤包括:
    当对同一个文本信息进行分词处理所获得的所述第一候选分词和所述第二候选分词不同时,判断所述分词处理出现歧义;
    分别统计所述第一候选分词在所述网页中的文本语言环境中的第一词 频数,以及,所述第二候选分词在所述网页中的文本语言环境中的第二词频数。
  4. 如权利要求3所述的方法,其特征在于,所述依据所述词频数调整所述分词词典中特征词条的权重的步骤包括:
    当所述第一词频数大于所述第二词频数时,提高所述第一候选分词对应的特征词条在所述分词词典中的权重;
    当所述第二词频数大于所述第一词频数时,提高所述第二候选分词对应的特征词条在所述分词词典中的权重。
  5. 如权利要求4所述的方法,其特征在于,所述依据调整权重后的分词词典中的特征词条对所述文本信息进行分词处理,确定目标候选分词的步骤包括:
    按照指定的分词规则对所述文本信息与提高权重后的所述特征词条进行匹配;
    当所述文本信息进行与所述特征词条进行匹配时,提取所述特征词条作为目标候选分词。
  6. 一种分词装置,包括:
    文本信息提取模块,适于提取搜索资源中网页的文本信息;
    第一分词处理模块,适于采用分词词典中的特征词条对所述文本信息进行分词处理,获得一个或多个候选分词;
    词频数统计模块,适于在所述分词处理出现歧义时,统计所述候选分词在所述网页中表征语境的词频数;
    权重调整模块,适于依据所述词频数调整所述分词词典中特征词条的权重;
    第二分词处理模块,适于依据调整权重后的分词词典中的特征词条对所述文本信息进行分词处理,确定目标候选分词。
  7. 如权利要求6所述的装置,其特征在于,所述候选分词包括第一候选分词和第二候选分词中的至少一个;
    所述第一分词处理模块还适于:
    按照第一分词规则对所述文本信息进行与所述特征词条进行匹配;
    当所述文本信息进行与所述特征词条进行匹配时,提取所述特征词条作为第一候选分词;
    按照第二分词规则对所述文本信息进行与所述特征词条进行匹配;
    当所述文本信息进行与所述特征词条进行匹配时,提取所述特征词条作为第二候选分词;
    其中,所述第一分词规则为与所述第二分词规则不同的分词规则。
  8. 如权利要求6或7所述的装置,其特征在于,所述表征语境的词频数包括所述第一候选分词在所述网页的文本语言环境中的第一词频数,所述第二候选分词在所述网页的文本语言环境中的第二词频数;
    所述词频数统计模块还适于:
    当对同一个文本信息进行分词处理所获得的所述第一候选分词和所述第二候选分词不同时,判断所述分词处理出现歧义;
    分别统计所述第一候选分词在所述网页中的文本语言环境中的第一词频数,以及,所述第二候选分词在所述网页中的文本语言环境中的第二词频数。
  9. 如权利要求8所述的装置,其特征在于,所述权重调整模块还适于:
    当所述第一词频数大于所述第二词频数时,提高所述第一候选分词对应的特征词条在所述分词词典中的权重;
    当所述第二词频数大于所述第一词频数时,提高所述第二候选分词对应的特征词条在所述分词词典中的权重。
  10. 如权利要求9所述的装置,其特征在于,所述第二分词处理模块还适于:
    按照指定的分词规则对所述文本信息与提高权重后的所述特征词条进行匹配;
    当所述文本信息进行与所述特征词条进行匹配时,提取所述特征词条作为目标候选分词。
  11. 一种计算机程序,包括计算机可读代码,当所述计算机可读代 码在计算设备上运行时,导致所述计算设备执行根据权利要求1-5中的任一个所述的分词方法。
  12. 一种计算机可读介质,其中存储了如权利要求11所述的计算机程序。
PCT/CN2015/080675 2014-06-27 2015-06-03 一种分词方法和装置 WO2015196909A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201410302925.1 2014-06-27
CN201410302925.1A CN104077275A (zh) 2014-06-27 2014-06-27 一种基于语境进行分词的方法和装置

Publications (1)

Publication Number Publication Date
WO2015196909A1 true WO2015196909A1 (zh) 2015-12-30

Family

ID=51598535

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2015/080675 WO2015196909A1 (zh) 2014-06-27 2015-06-03 一种分词方法和装置

Country Status (2)

Country Link
CN (1) CN104077275A (zh)
WO (1) WO2015196909A1 (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105550359A (zh) * 2015-12-31 2016-05-04 北京金山安全软件有限公司 一种基于垂直搜索的网页排序方法、装置及服务器
CN106570058A (zh) * 2016-09-29 2017-04-19 山东浪潮商用系统有限公司 一种搜索方法和搜索引擎
CN108491463A (zh) * 2018-03-05 2018-09-04 科大讯飞股份有限公司 标签确定方法及装置
CN109766539A (zh) * 2018-11-30 2019-05-17 平安科技(深圳)有限公司 标准词库分词方法、装置、设备及计算机可读存储介质
CN110210020A (zh) * 2019-05-22 2019-09-06 武汉虹信通信技术有限责任公司 通讯地址标准化的系统及其方法
CN110874532A (zh) * 2018-08-30 2020-03-10 北京京东尚科信息技术有限公司 提取反馈信息的关键词的方法和装置
CN111160014A (zh) * 2019-12-03 2020-05-15 北京博瑞彤芸科技股份有限公司 一种智能分词方法
CN111177402A (zh) * 2019-12-13 2020-05-19 中移(杭州)信息技术有限公司 基于分词处理的评价方法、装置、计算机设备及存储介质
CN112580336A (zh) * 2020-12-25 2021-03-30 深圳壹账通创配科技有限公司 信息校准检索方法、装置、计算机设备及可读存储介质
CN112711944A (zh) * 2021-01-13 2021-04-27 深圳前瞻资讯股份有限公司 一种分词方法、系统、分词器生成方法及系统
CN112749540A (zh) * 2020-02-06 2021-05-04 腾讯科技(深圳)有限公司 文本匹配方法、文本匹配模型的训练方法及装置、设备
CN113377965A (zh) * 2021-06-30 2021-09-10 中国农业银行股份有限公司 感知文本关键词的方法及相关装置
CN113988067A (zh) * 2021-11-12 2022-01-28 北京嘉和海森健康科技有限公司 语句分词方法、装置及电子设备
CN115759087A (zh) * 2022-11-25 2023-03-07 成都赛力斯科技有限公司 中文分词的方法、装置及电子设备
CN116227488A (zh) * 2023-05-09 2023-06-06 北京拓普丰联信息科技股份有限公司 一种文本分词的方法、装置、电子设备及存储介质

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104077275A (zh) * 2014-06-27 2014-10-01 北京奇虎科技有限公司 一种基于语境进行分词的方法和装置
CN105912521A (zh) * 2015-12-25 2016-08-31 乐视致新电子科技(天津)有限公司 一种解析语音内容的方法及装置
CN106933799A (zh) * 2015-12-31 2017-07-07 北京四维图新科技股份有限公司 一种兴趣点poi名称的中文分词方法及装置
CN106095988A (zh) * 2016-06-21 2016-11-09 上海智臻智能网络科技股份有限公司 自动问答方法及装置
CN106484677B (zh) * 2016-09-30 2019-02-12 北京林业大学 一种基于最小信息量的汉语快速分词系统及方法
CN107301170B (zh) * 2017-06-19 2020-12-22 北京百度网讯科技有限公司 基于人工智能的切分语句的方法和装置
CN107918604B (zh) * 2017-11-13 2021-06-25 彩讯科技股份有限公司 一种中文的分词方法及装置
CN108536869A (zh) * 2018-04-25 2018-09-14 努比亚技术有限公司 一种搜索分词的方法、装置及计算机可读存储介质
CN109684633B (zh) * 2018-12-14 2023-05-16 北京百度网讯科技有限公司 搜索处理方法、装置、设备及存储介质
CN109800428B (zh) * 2018-12-28 2023-01-13 东软集团股份有限公司 一种为语料标注分词结果的方法、装置、设备及存储介质
CN110413998B (zh) * 2019-07-16 2023-04-21 深圳供电局有限公司 一种面向电力行业的自适应中文分词方法及其系统、介质
CN113221552A (zh) * 2021-06-02 2021-08-06 浙江百应科技有限公司 一种基于深度学习的多模型分词方法、装置及电子设备
CN114004222B (zh) * 2021-11-04 2024-04-30 中铁第一勘察设计院集团有限公司 基于频繁项的中文分词边界修正方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101499058A (zh) * 2009-03-05 2009-08-05 北京理工大学 一种基于类型论的汉语分词方法
CN102402502A (zh) * 2011-11-24 2012-04-04 北京趣拿信息技术有限公司 用于搜索引擎的分词处理方法和装置
CN103365974A (zh) * 2013-06-28 2013-10-23 百度在线网络技术(北京)有限公司 一种基于相关词主题的语义消歧方法和系统
CN103440256A (zh) * 2013-07-26 2013-12-11 中国科学院深圳先进技术研究院 一种中文文字标签云自动生成方法及装置
CN104077275A (zh) * 2014-06-27 2014-10-01 北京奇虎科技有限公司 一种基于语境进行分词的方法和装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7493251B2 (en) * 2003-05-30 2009-02-17 Microsoft Corporation Using source-channel models for word segmentation
CN100504851C (zh) * 2007-06-27 2009-06-24 腾讯科技(深圳)有限公司 一种中文分词方法及系统
TW201035783A (en) * 2009-03-31 2010-10-01 Inventec Corp Chinese word segmentation syatem and method thereof
TW201117024A (en) * 2009-11-13 2011-05-16 Yu-Chieh Wu A unified machine learning-based Chinese word segmentation and part-of-speech tagging algorithm
CN102915299B (zh) * 2012-10-23 2015-04-08 海信集团有限公司 一种分词方法及装置
CN103646018B (zh) * 2013-12-20 2016-06-29 大连大学 一种基于hash散列表词典结构的中文分词方法
CN103678282B (zh) * 2014-01-07 2016-05-25 苏州思必驰信息科技有限公司 一种分词方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101499058A (zh) * 2009-03-05 2009-08-05 北京理工大学 一种基于类型论的汉语分词方法
CN102402502A (zh) * 2011-11-24 2012-04-04 北京趣拿信息技术有限公司 用于搜索引擎的分词处理方法和装置
CN103365974A (zh) * 2013-06-28 2013-10-23 百度在线网络技术(北京)有限公司 一种基于相关词主题的语义消歧方法和系统
CN103440256A (zh) * 2013-07-26 2013-12-11 中国科学院深圳先进技术研究院 一种中文文字标签云自动生成方法及装置
CN104077275A (zh) * 2014-06-27 2014-10-01 北京奇虎科技有限公司 一种基于语境进行分词的方法和装置

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105550359A (zh) * 2015-12-31 2016-05-04 北京金山安全软件有限公司 一种基于垂直搜索的网页排序方法、装置及服务器
CN105550359B (zh) * 2015-12-31 2019-04-26 北京金山安全软件有限公司 一种基于垂直搜索的网页排序方法、装置及服务器
CN106570058A (zh) * 2016-09-29 2017-04-19 山东浪潮商用系统有限公司 一种搜索方法和搜索引擎
CN108491463A (zh) * 2018-03-05 2018-09-04 科大讯飞股份有限公司 标签确定方法及装置
CN110874532A (zh) * 2018-08-30 2020-03-10 北京京东尚科信息技术有限公司 提取反馈信息的关键词的方法和装置
CN109766539A (zh) * 2018-11-30 2019-05-17 平安科技(深圳)有限公司 标准词库分词方法、装置、设备及计算机可读存储介质
CN110210020A (zh) * 2019-05-22 2019-09-06 武汉虹信通信技术有限责任公司 通讯地址标准化的系统及其方法
CN110210020B (zh) * 2019-05-22 2023-06-20 武汉虹旭信息技术有限责任公司 通讯地址标准化的系统及其方法
CN111160014B (zh) * 2019-12-03 2023-05-16 北京博瑞彤芸科技股份有限公司 一种智能分词方法
CN111160014A (zh) * 2019-12-03 2020-05-15 北京博瑞彤芸科技股份有限公司 一种智能分词方法
CN111177402A (zh) * 2019-12-13 2020-05-19 中移(杭州)信息技术有限公司 基于分词处理的评价方法、装置、计算机设备及存储介质
CN111177402B (zh) * 2019-12-13 2023-09-22 中移(杭州)信息技术有限公司 基于分词处理的评价方法、装置、计算机设备及存储介质
CN112749540A (zh) * 2020-02-06 2021-05-04 腾讯科技(深圳)有限公司 文本匹配方法、文本匹配模型的训练方法及装置、设备
CN112749540B (zh) * 2020-02-06 2023-06-09 腾讯科技(深圳)有限公司 文本匹配方法、文本匹配模型的训练方法及装置、设备
CN112580336A (zh) * 2020-12-25 2021-03-30 深圳壹账通创配科技有限公司 信息校准检索方法、装置、计算机设备及可读存储介质
CN112711944A (zh) * 2021-01-13 2021-04-27 深圳前瞻资讯股份有限公司 一种分词方法、系统、分词器生成方法及系统
CN112711944B (zh) * 2021-01-13 2023-03-10 深圳前瞻资讯股份有限公司 一种分词方法、系统、分词器生成方法及系统
CN113377965A (zh) * 2021-06-30 2021-09-10 中国农业银行股份有限公司 感知文本关键词的方法及相关装置
CN113377965B (zh) * 2021-06-30 2024-02-23 中国农业银行股份有限公司 感知文本关键词的方法及相关装置
CN113988067A (zh) * 2021-11-12 2022-01-28 北京嘉和海森健康科技有限公司 语句分词方法、装置及电子设备
CN115759087A (zh) * 2022-11-25 2023-03-07 成都赛力斯科技有限公司 中文分词的方法、装置及电子设备
CN115759087B (zh) * 2022-11-25 2024-02-20 重庆赛力斯凤凰智创科技有限公司 中文分词的方法、装置及电子设备
CN116227488A (zh) * 2023-05-09 2023-06-06 北京拓普丰联信息科技股份有限公司 一种文本分词的方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN104077275A (zh) 2014-10-01

Similar Documents

Publication Publication Date Title
WO2015196909A1 (zh) 一种分词方法和装置
US10496928B2 (en) Non-factoid question-answering system and method
US8275604B2 (en) Adaptive pattern learning for bilingual data mining
Hall et al. Less grammar, more features
WO2018157789A1 (zh) 一种语音识别的方法、计算机、存储介质以及电子装置
WO2015149533A1 (zh) 一种基于网页内容分类进行分词处理的方法和装置
US10496756B2 (en) Sentence creation system
CN108052500B (zh) 一种基于语义分析的文本关键信息提取方法及装置
EP3073433A1 (en) Language identification on social media
WO2015179643A1 (en) Systems and methods for generating summaries of documents
US9575957B2 (en) Recognizing chemical names in a chinese document
TWI656450B (zh) 從中文語料庫提取知識的方法和系統
CN111160014B (zh) 一种智能分词方法
Srinivasan et al. Segmenting web-domains and hashtags using length specific models
Bimba et al. Stemming Hausa text: using affix-stripping rules and reference look-up
CN110705285B (zh) 一种政务文本主题词库构建方法、装置、服务器及可读存储介质
JP2006065387A (ja) テキスト文検索装置、テキスト文検索方法、及びテキスト文検索プログラム
US8224642B2 (en) Automated identification of documents as not belonging to any language
CN111444713B (zh) 新闻事件内实体关系抽取方法及装置
EP3944234A1 (en) Method for processing a video file comprising audio content and visual content comprising text content
Gogoi et al. A Lemmatizer for Low-resource Languages: WSD and Its Role in the Assamese Language
WO2015080559A2 (en) A method and system for automated word sense disambiguation
Li et al. A unified model for solving the OOV problem of chinese word segmentation
Haggag et al. Keyword Extraction using Clustering and Semantic Analysis
CN111814025A (zh) 一种观点提取方法及装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 15811165

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 15811165

Country of ref document: EP

Kind code of ref document: A1