WO2012159558A1 - 基于语意识别的自然语言处理方法、装置和系统 - Google Patents

基于语意识别的自然语言处理方法、装置和系统 Download PDF

Info

Publication number
WO2012159558A1
WO2012159558A1 PCT/CN2012/075802 CN2012075802W WO2012159558A1 WO 2012159558 A1 WO2012159558 A1 WO 2012159558A1 CN 2012075802 W CN2012075802 W CN 2012075802W WO 2012159558 A1 WO2012159558 A1 WO 2012159558A1
Authority
WO
WIPO (PCT)
Prior art keywords
language
linear structure
index
user
chunk
Prior art date
Application number
PCT/CN2012/075802
Other languages
English (en)
French (fr)
Inventor
姜蓓
Original Assignee
陈伯妤
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 陈伯妤 filed Critical 陈伯妤
Publication of WO2012159558A1 publication Critical patent/WO2012159558A1/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data

Definitions

  • the present invention relates to the field of natural language processing and/or searching. More specifically, it relates to a natural language processing method, apparatus and system based on language awareness.
  • BACKGROUND OF THE INVENTION Information Retrieval refers to the process and technology in which information is organized in a certain way and the relevant information is found according to the needs of the information user.
  • the narrow natural language processing is the second half of the natural language processing process, that is, the process of finding the information needed from the information collection, which is what we often call Information Search or Information Seek.
  • the commonly used natural language processing methods usually include: common law, retrospective method and segmentation method.
  • the common law is a method of searching for documents using search tools such as bibliography, abstracts, and indexes.
  • the key to using this method is to be familiar with the nature, characteristics and search process of various search tools and to find them from different angles.
  • the common law can be divided into a check method and a back test method.
  • the method of procedural inspection is chronologically searched from the past to the present, with high cost and low efficiency.
  • the reverse inspection method searches from near to long-term in reverse chronological order. It emphasizes recent data, attaches importance to current information, and has strong initiative and good effect.
  • the retrospective method is a method of continuously tracking and searching using the reference documents attached to the existing documents. This method can be highly targeted when there is no search tool or the search tool is incomplete.
  • Embodiments of the present invention propose a natural language processing method based on semantic recognition to accurately feed back information required by a user.
  • Embodiments of the present invention also provide a natural language processing apparatus based on semantic recognition to accurately feed back information required by a user.
  • the embodiment of the present invention also proposes a natural language processing system based on semantic recognition to accurately feed back information required by the user.
  • a natural language processing method based on semantic recognition comprising: dividing a chapter-level word into a character string by using a symbol, and extracting from the cut string Linguistic linear structure and chunks; respectively invert the extracted linear structure of the language and the chunks; create a linguistic linear structure subindex and a chunk subindex, and merge the linguistic linear structure subindex and the chunk subindex to Forming an overall index; extracting a linguistic linear structure and a chunk of the input string from the user's retrieved input string, and feeding back to the user according to the overall index and a linear structure of the language extracted from the user's search input The information that the block matches.
  • a natural language processing device based on semantic recognition, the device comprising an extracting unit, an inverting unit, an indexing unit and a matching information feedback unit, wherein: an extracting unit, configured to divide a chapter-level word into a character string by using a symbol, and Extracting the linear structure and chunks of the language from the cut-out string; inverting the unit, respectively, for inverting the extracted linear structure of the language and the chunks; indexing unit, for creating a language linear structure sub-index and language a block sub-index, and combining the language linear structure sub-index and the block sub-index to form an overall index; a matching information feedback unit for extracting a language linear structure and a chunk from the user's retrieved input string, and according to The overall index is fed back to the user and retrieved input from the user The extracted linear structure of the language and the information that the block matches.
  • an extracting unit configured to divide a chapter-level word into a character string by using a symbol, and Extracting the linear structure and chunks of the language
  • a natural language processing system based on semantic recognition comprising an information collecting device, a data storage device, a natural language processing device and a retrieval service device, wherein: the information collecting device is configured to perform scanning detection on the Internet and crawl information on the Internet; a data storage device, configured to store Internet information crawled by the information collecting device; a natural language processing device, configured to use a symbol pair to store a chapter-level word stored in the data storage device, to be divided into a string, and cut out
  • the linear structure and the block of the language are extracted from the string; and the extracted linear structure and the block of the language are respectively inverted; and the language linear structure sub-index and the sub-index of the block are created, and the language linear structure sub-index and The chunk sub-indexes are combined to form an overall index;
  • a retrieval service device is configured to extract a language linear structure and a chunk from the user's retrieved input string, and feed back to the user and retrieve from the user according to the overall index.
  • the chapter-level words are first divided into strings by using symbols, and the linear structure and the chunks of the language are extracted from the cut-out strings, and then the extracted linear structures and chunks are respectively extracted.
  • the inversion, and creating a language linear structure sub-index and a sub-index of the block, and forming an overall index finally extracting the language linear structure and the chunk from the user's retrieved input string, and feeding back to the user according to the overall index Information that matches the linear structure and chunks of the language extracted from the user's search input.
  • the technical means of analyzing the language structure + keywords is used to accurately extract the true intention of the information from the linear structure and keywords of the language, and intelligently select the feedback result by using the sorting method.
  • the accurate meaning behind the information can be more intelligently identified, so that the required information can be accurately fed back to the user.
  • the computer communicates with humans more intelligently and humanely is identified, so that the computer communicates with humans more intelligently and humanely.
  • Semantic recognition technology can be applied to network supervision to achieve higher efficiency and make supervision more intelligent.
  • keywords level of words
  • Semantic recognition technology can be applied to network supervision to achieve higher efficiency and make supervision more intelligent.
  • “Dalai Lama confuses people” and “Tibet independence is not beneficial to Vietnameses” often appear repeatedly.
  • the whole article actually expresses positive information content, but because the keywords such as "Dalai” and “Tibet independence” appear too frequently, they are easily blocked. This is the use of a single The weakness of a keyword regulation.
  • FIG. 1 is a flow chart of a natural language processing method based on semantic recognition according to an embodiment of the present invention
  • FIG. 2 is a structural diagram of a natural language processing device based on semantic recognition according to an embodiment of the present invention
  • a core technology based on computer semantic recognition capability can help a computer to more intelligently identify the exact meaning behind the information.
  • deep and multi-level analysis of information not only the code is understood, but also the intent of the information to be expressed, so that the computer communicates with humans more intelligently and humanely.
  • the embodiment of the present invention mainly utilizes the technical means of analyzing the linear structure of the language + the keyword (ie, the chunk), and accurately extracts the true intention of the information from the linear structure of the language and the keywords.
  • a statement to be analyzed includes a linear structure and a keyword (ie, a chunk).
  • the key to semantic recognition is to identify the linear structure of the statement.
  • the meaning of the language is hidden in the linear structure of the statement, and the linear structure of the statement is equivalent to the constant of the language. Semantics and even meaning and thinking are hidden in the linear structure of the statement.
  • the keyword is equivalent to a language variable. By replacing the corresponding part (ie variable), its semantics can be basically retained, and a more accurate check can be obtained. Cable or translation results.
  • both bilingual and monolingual can use structural analysis to accurately identify semantics.
  • the variables are not limited to the proper nouns and / or gerunds. In some cases, variables can also be a common phrase, even longer sentences.
  • the division may not be unique. For the least variable partitioning method, the corresponding linear structure is called the minimum linear structure. In general, the fewer the variables, the more fully the information expressed by the corresponding linear structure can be considered, the more accurate the information corresponding to the search.
  • FIG. 1 is a flow chart of a natural language processing method based on semantic recognition in accordance with an embodiment of the present invention. As shown in Figure 1, the method includes:
  • Step 101 Divide the chapter-level words into symbols using a symbol, and extract the linear structure and the block of the language from the cut-out string.
  • chapter-level words for example, an article or an editorial
  • the linear structure and chunks of the language are extracted sequentially from the cut-out string (specific
  • the extraction step can be analyzed by referring to the aforementioned example).
  • "Chapter level” here does not imply any specific limitation on the number of words.
  • the remaining part is a linear structure.
  • Step 102 Invert the extracted linear structure of the language and the block separately.
  • the inverted row specifically includes: for each qualified chunk, compressing the document number, the paragraph number, the sentence number, the word serial number, and the HTML information of the chunk into a structure, where the chunk is placed In the dynamic file;
  • the block can be any string, including the following categories: dictionary entry, proper name, proper internal vocabulary, various phrases/collocations, n-grams, continuous stopwords, words + Numbers, arbitrary ASCII strings, zip codes and phone numbers, etc.
  • the document number, paragraph number, sentence number, word number, and HTML information of the language linear structure may be compressed into a structure, and placed in the dynamic file where the block is located. .
  • Step 103 Create a language linear structure sub-index and a sub-index of the block, and combine the language linear structure sub-index and the sub-sub-index to form an overall index.
  • (vocabulary) file merges inverted hits into inv-list files, and writes the associated information between them into a dictionary file.
  • These three files form a complete, independent index run, which is the sub-index of the block.
  • all the linear structure index items in the memory are written into the linear structure vocabulary file, the inverted hits are merged and written into the inv-list file, and the associated information between the two is written linearly.
  • Structure dictionary file These three files form a complete, independent index run, which is a linear structure subindex.
  • Step 104 extracting a language linear structure and a chunk from the user's retrieved input string, and according to The overall index feeds back information to the user that matches the linear structure and chunks of the language extracted from the user's search input.
  • the linear structure and the chunks are first extracted from the user's retrieved input string. For example, if the user enters "I like to eat big apples from Yantai.” I extract the words “I”, “Big Apple from Yantai”, and the linear structure X likes to eat X (where X is blank), then In the overall index, the matching linear structure "X likes to eat X", and the information of the blocks "I” and “Big Apple produced by Yantai” are retrieved and presented to the user in descending order of matching.
  • the language linear structure repetition weight and the block repetition weight may also be preset; the language linear structure and the language in the overall index extracted from the user's retrieval input based on the language linear structure repetition weight calculation a first overlap index of the linear structure, and calculating a second overlap index of the chunks extracted from the search input of the user and the chunks in the overall index based on the chunk repeat weight; when the first overlap index The higher the sum of the two overlap indices, the higher the degree of matching.
  • the information that matches the language linear structure and the language block extracted from the user's search input may include: retrieving the language linear structure and the language block of the input string in the overall index, Determining a linguistic linear structure in the overall index corresponding to the linguistic linear structure of the input string, and determining a chunk corresponding to the chunk of the input string in the overall index; feeding back to the user the corresponding language in the overall index
  • the linear structure and the information involved in the corresponding block may include: retrieving the language linear structure and the language block of the input string in the overall index, Determining a linguistic linear structure in the overall index corresponding to the linguistic linear structure of the input string, and determining a chunk corresponding to the chunk of the input string in the overall index; feeding back to the user the corresponding language in the overall index
  • the linear structure and the information involved in the corresponding block may include: retrieving the language linear structure and the language block of the input string in the overall index, Determining a linguistic linear structure in the overall index corresponding to the linguistic linear structure of
  • the process of the present invention can be applied to a variety of specific practical applications, such as information retrieval and multi-language translation.
  • multi-language translation it is assumed that the user's search input string is a search input string expressed in the first language.
  • the language linear structure and the chunk of the input string expressed in the first language are extracted from the search input string of the user; and then the language linear structure and the chunk corresponding to the language expressed in the first language are determined.
  • the linguistic linear structure and the chunks expressed in the second language; the user is fed back information that matches the linear structure and the chunks of the language expressed in the second language and that is also expressed in the second language, based on the overall index.
  • the first language can be Chinese
  • the second language is English, Japanese, Korean, Arabic, Spanish, Portuguese, French or Russian
  • the first language is English, Japanese, Korean, Arabic, Spanish, Portuguese, French or Russian
  • second language For Chinese and so on.
  • the search input string entered by the user is "I want to go to Shanghai” and is expressed in Chinese.
  • the language linear structure of the input string expressed in Chinese is extracted from the user's search input string (ie: X is going to X, where X is blank) and the Chinese expressed chunk (I, Shanghai); Determining a linear structure of the language expressed in English corresponding to the linear structure of the language expressed in Chinese (ie, X want to go to), and determining a chunk expressed in English corresponding to the chunk expressed in Chinese (ie, I, Shanghai).
  • the chunks and linear structures are combined into a translated statement I want to go to Shanghai and presented to the user.
  • the user can also feed back information that matches the linear structure (X want to go to) block (1, Shanghai) and is expressed in the second language, thereby facilitating user retrieval and I want to go. To Shanghai related English information.
  • a high performance single pass memory inversion algorithm is exemplarily applied without generating any temporary disk files. Therefore, the system does not have any file I/O overhead except for the MAP data before exporting the memory contents. At the same time, it does not need to number the index terms and does not do any sorting operations on the index term (number or memory string pointer).
  • the method uses all available free physical memory for inversion. These properties ensure that this inversion method can have extraordinary space-time efficiency and support a range of efficient methods for dynamic index merging and index updating. At the same time, the inverted index with this feature is also fully applicable to distributed processing.
  • index vocabulary file ie vocabulary file
  • the vocabulary file itself is placed on disk and the number of index entries that can be saved is unlimited (on 64-bit file systems), with hundreds of millions.
  • index terms can be any string, mainly including the following categories: dictionary entries, proper names, proper internal vocabulary, various phrases/colories, n-grams, consecutive stopwords, words + Numbers, arbitrary ASCII strings, zip codes and phone numbers, etc.
  • the embodiment of the present invention also proposes a natural language processing device based on semantic recognition.
  • 2 is a structural diagram of a natural language processing apparatus based on semantic recognition according to an embodiment of the present invention.
  • the apparatus includes the apparatus, including an extracting unit 201, an inverting unit 202, an indexing unit 203, and a matching information feedback unit 204, wherein: the extracting unit 201 is configured to divide the chapter-level words into characters by using symbols.
  • the extracting unit 201 first divides the chapter-level words (for example, an article or an editorial) into symbols by using symbols String, and extract the linear structure and chunks of the language from the cut-out string (the specific extraction step can be analyzed by referring to the previous example).
  • Punctuation marks such as vacancy numbers, slash numbers, identification numbers, substitution numbers, jewel numbers, and arrow numbers divide chapter-level words into strings. For example, you can extract the text between any two punctuation marks as a string (for the beginning of the article, only one punctuation is required).
  • a chapter-based local substring hash table As a temporary auxiliary dictionary. That is, if it appears in the temporary auxiliary dictionary, it can be determined as a chunk. However, some that do not appear in the local substring statistics table can also be identified as chunks. You can also use the split path tree based on multipath planning as the segmentation model. First, convert the character codes in English (ASCII), Simplified Chinese (GBK/GB 18030), Traditional Chinese (Taiwan BIG5, Hong Kong BIG5-HKSCS) into The UTF-8 encoding format is then split and the chunks are extracted based on the multiple correct segmentation results.
  • the inverting unit 202 is configured to invert the extracted language linear structure and the language block respectively; specifically, the inversion unit 202 selects the document number, the paragraph number, and the sentence where the block is located for each qualified block.
  • the number, the word number, and the HTML information are compressed into a structure and placed in the dynamic file in which the block is located; wherein the block can be any string, mainly including the following categories: dictionary entry, proper name, and proper name Internal vocabulary, various phrases/columns, n-grams, consecutive stopwords, words + numbers, arbitrary ASCII strings, zip codes and phone numbers, etc.
  • the inverted unit 202 can compress the document number, the paragraph number, the sentence number, the word number, and the HTML information of the language linear structure into a structure, and place the block in the block. In the dynamic file.
  • the indexing unit 203 is configured to create a language linear structure sub-index and a sub-sub-index, and combine the language linear structure sub-index and the sub-sub-index to form an overall index; specifically, the index unit 203 Write all the index terms in memory to the vocabulary file, merge the inverted hits and write them to the inv-lists file, and write the associated information between them to the dictionary file. These three files form a complete, independent index run, which is the sub-index of the block. Moreover, all the linear structure index items (index terms) in the memory are written into the vocabulary file, the inverted hits are merged and written into the inv-list files, and the associated information between the two is written into the dictionary file. These three files form a complete, independent index run, which is a linear structure sub-index. Finally, index unit 203 combines the language linear structure sub-index and the chunk sub-index to form an overall index.
  • the matching information feedback unit 204 is configured to extract a language linear structure and a language block from the search input string of the user, and feed back to the user according to the overall index and the language linear structure and language extracted from the user's search input.
  • the block matches the information.
  • the matching information feedback unit 204 is configured to feed back to the user and the language linear structure and the chunks extracted from the user's retrieval input according to the order of the linear structure of the language and the degree of matching of the chunks. Matching information. Moreover, the more the degree of matching is when the number of repeated words of the language linear structure extracted from the search input of the user and the linear structure of the language in the overall index is larger.
  • the matching information feedback unit 204 is further configured to preset a language linear structure repetition weight and a chunk repetition weight; and extracting from the user's retrieval input based on the language linear structure repetition weight calculation. a first overlap index of the linear structure of the language and a linear structure of the language in the overall index, and calculating a second overlap index of the chunks extracted from the search input of the user and the chunks in the overall index based on the chunk repeat weights; Wherein the higher the sum of the first overlap index and the second overlap index, the higher the degree of matching.
  • the matching information feedback unit 204 is configured to separately retrieve a language linear structure and a chunk of the input string in the overall index to determine that the overall index corresponds to a language linear structure of the input string. a linear structure of the language, and determining a chunk corresponding to the chunk of the input string in the overall index; feeding back to the user the corresponding linear structure of the language in the overall index and the information involved in the corresponding chunk.
  • the search input string of the user is a search input string expressed in the first language; at this time, the match information feedback unit 204 is configured to extract the input string from the search input string of the user.
  • the embodiment of the present invention also proposes a natural language processing system based on semantic recognition.
  • 3 is a structural diagram of a natural language processing system based on semantic recognition according to an embodiment of the present invention.
  • the system includes an information collecting device 301, a material storage device 302, a natural language processing device 303, an index storage device 304, and a retrieval service device 305.
  • the information collecting device 301 is configured to perform scanning detection on the Internet and crawl information on the Internet.
  • the data storage device 302 is configured to store Internet information crawled by the information collecting device, and preferably provide fast location search of the Internet information.
  • the natural language processing device 303 is configured to divide the words at the chapter level stored in the data storage device 302 into symbols by using symbols, and extract the language linear structure and the chunks from the cut string; Inverting the extracted linear structure of the language and the chunks; and creating a language linear structure subindex and a chunk subindex, and combining the language linear structure subindex and the chunk subindex to form an overall index; a storage device 304, configured to store an overall index generated by the natural language processing device 303; and a retrieval service device 305, configured to extract a language linear structure and a chunk from the search input string of the user, and store the location according to the index storage device The overall index is fed back to the user and is extracted from the user's search input.
  • the information collecting device 301 can receive uploading information (such as news resources) provided by newspapers, radio and television, and various media members.
  • the retrieval service device 305 can query the news for free for ordinary users, and open high-end services after registering and paying for professional users.
  • the natural language processing device 303 is configured to use a period, a question mark, an exclamation mark, a comma, a comma, a semicolon, a colon, a quotation mark, a bracket, a dash, an ellipsis, an emphasis number, a connection number, a space number, a book number, a special number,
  • the comment number, the concealed number, the vacancy number, the slash number, the identification number, the substitution number, the rim number, and the arrow number are used to divide the chapter-level words into strings.
  • the natural language processing device 303 is configured to use a chapter-based local substring statistical table as a temporary auxiliary dictionary, and a segmentation path tree based on multipath planning as a segmentation model, and the characters of the chapter-level words are
  • the encoding is uniformly converted into a UTF-8 encoding format; and the chapter-level words converted to the UTF-8 encoding format are divided into strings by symbols.
  • the retrieval service device 305 can be used to the user according to the order of matching degree from high to low.
  • Feedback is information that matches the linear structure and chunks of the language extracted from the user's search input.
  • the retrieval service device 305 is configured to feed back to the user the language linear structure and the chunks extracted from the user's retrieval input according to the language linear structure and the degree of matching of the chunks from high to low. Matching information.
  • the more the degree of matching the more the number of repeated words of the language linear structure extracted from the search input of the user and the linear structure of the language in the overall index.
  • the retrieval service device 305 further sets a language linear structure repetition weight and a chunk repetition weight in advance; and calculates a language extracted from the user's retrieval input based on the language linear structure repetition weight a first overlap index of the linear structure and the linear structure of the language in the overall index, and calculating a second overlap index of the chunks extracted from the search input of the user and the chunks in the overall index based on the chunk repeat weights; When the sum of the first overlap index and the second overlap index is higher, the degree of matching is higher.
  • the retrieval service device 305 is configured to respectively retrieve a language linear structure and a chunk of the input string in the overall index to determine a language corresponding to the language linear structure of the input string in the overall index.
  • the search service device 305 is configured to extract, from the search input string of the user, the language linear structure and the language block of the input character string expressed in the first language; and determine the language expressed in the first language. a linear structure and a chunk corresponding to a linguistic linear structure and a chunk expressed in a second language; according to the overall index, feedback to the user is matched with the linear structure and the chunk of the language expressed in the second language and the second is also used Information expressed in language.
  • the first language is English, Japanese, Korean, Arabic, Spanish, Portuguese, French or Russian
  • the second language is Chinese
  • the first language can also be Chinese
  • the second language is English, Korean, Korean, Arabic, Spanish, Portuguese, French or Russian, and so on.
  • the text-level words are first divided into strings by using symbols, and the language linear structure and the chunks are extracted from the cut-out string, and then the extracted languages are respectively extracted.
  • the linear structure and the chunks are inverted, and the language linear structure sub-index and the chunk sub-index are created, and an overall index is formed, and finally the language linear structure and the chunk are extracted from the user's retrieved input string, and according to the The overall index feeds back to the user and the linear structure of the language extracted from the user's search input Information that matches the block.
  • the technical means of analyzing the language structure + keywords is used to accurately extract the true intention of the information from the linear structure and keywords of the language, and intelligently select the feedback result by using the sorting method.
  • the accurate meaning behind the information can be more intelligently identified, so that the required information can be accurately fed back to the user.
  • the computer communicates with humans more intelligently and humanely not only the code is understood, but also the intent of the information to be expressed, so that the computer communicates with humans more intelligently and humanely.
  • Semantic recognition technology can be applied to network supervision to achieve higher efficiency and make supervision more intelligent. For example, in a certain news, “Dalai Lama confuses people” and “Westernzhou is not beneficial to Vietnameses” often appear repeatedly. The whole article actually expresses positive information content, but because the keywords such as "Dalai” and “Tibet independence” appear too frequently, they are easily blocked. This is the weakness of using a single keyword regulation.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

一种基于语意识别的自然语言处理方法、装置和系统,包括:将篇章级的词语利用符号切分为字符串,并从切出的字符串中提取出语言线性结构和语块(101);分别对提取出的语言线性结构及语块进行倒排(102);创建语言线性结构子索引以及语块子索引,并将语言线性结构子索引和语块子索引予以合并以形成整体索引(103);从用户的检索输入字符串中提取出语言线性结构和语块,并根据整体索引向用户反馈与从用户的检索输入中提取出的语言线性结构和语块相匹配的信息(104)。本发明运用了分析语言结构+关键词的技术手段,从语言的线性结构和关键词中精确地提炼出信息的真正意图,可以准确地向用户反馈所需要的信息。

Description

基于语意识别的自然语言处理方法、 装置和系统 技术领域 本发明涉及自然语言处理和 /或搜索领域。 更具体地, 涉及一种基于语意识 别的自然语言处理方法、 装置和系统。
发明背景 自然语言处理 (Information Retrieval) 是指信息按一定的方式组织起来, 并 根据信息用户的需要找出有关的信息的过程和技术。狭义的自然语言处理就是自 然语言处理过程的后半部分, 即从信息集合中找出所需要的信息的过程, 也就是 我们常说的信息查寻 (Information Search或 Information Seek)。 目前常用的自然 语言处理方法通常包括: 普通法、追溯法和分段法等。普通法是利用书目、文摘、 索引等检索工具进行文献资料查找的方法。 运用这种方法的关键在于熟悉各种检 索工具的性质、 特点和查找过程, 从不同角度查找。 普通法又可分为顺检法和倒 检法。 顺检法是从过去到现在按时间顺序检索, 费用多、 效率低; 倒检法是逆时 间顺序从近期向远期检索, 它强调近期资料, 重视当前的信息, 主动性强, 效果 较好。 追溯法是利用已有文献所附的参考文献不断追踪查找的方法, 在没有检索 工具或检索工具不全时, 此法可获得针对性很强。
歩入 21世纪以来, 随着国际互联网 (Internet) 的迅猛发展和世界经济一体 化的加速, 网络信息急剧膨胀, 国际交流日益频繁, 通过网络来检索信息以协助 人们快速获取信息, 已经成为必然的趋势。 目前常用的计算机识别技术是将信息 转化成二进制的代码机械地匹配,计算机并不了解其信息背后的真实意图。比如, 传统的全文检索技术基于关键词匹配进行检索, 往往存在查不全、 查不准、 检索 质量不高的现象。 特别是在网络信息时代, 利用关键词匹配很难满足人们检索的 要求。 举例说明, 假如用户输入 "苹果" 的关键字, 那究竟用户是指水果还是某 种知名电脑品牌, 基于传统的关键字匹配检索技术则无法精确区分, 从而无法高 效、 准确地反馈给用户最需要的信息。
发明内容 本发明实施方式提出一种基于语意识别的自然语言处理方法, 以准确地向用 户反馈所需要的信息。
本发明实施方式还提出一种基于语意识别的自然语言处理装置, 以准确地向 用户反馈所需要的信息。
本发明实施方式还提出一种基于语意识别的自然语言处理系统, 以准确地向 用户反馈所需要的信息。
本发明实施方式的技术方案是这样实现的:一种基于语意识别的自然语言处 理方法, 该方法包括: 将篇章级的词语利用符号切分为字符串, 并从切出的字符 串中提取出语言线性结构和语块; 分别对提取出的语言线性结构以及语块进行倒 排; 创建语言线性结构子索引以及语块子索引, 并将语言线性结构子索引和语块 子索引予以合并, 以形成整体索引; 从用户的检索输入字符串中提取出该输入字 符串的语言线性结构和语块, 并根据所述的整体索引向用户反馈与从用户的检索 输入中提取出的语言线性结构和语块相匹配的信息。
一种基于语意识别的自然语言处理装置, 该装置包括提取单元、 倒排单元、 索引单元和匹配信息反馈单元, 其中: 提取单元, 用于将篇章级的词语利用符号 切分为字符串, 并从切出的字符串中提取出语言线性结构和语块; 倒排单元, 用 于分别对提取出的语言线性结构以及语块进行倒排; 索引单元, 用于创建语言线 性结构子索引以及语块子索引, 并将语言线性结构子索引和语块子索引予以合 并, 以形成整体索引; 匹配信息反馈单元, 用于从用户的检索输入字符串中提取 出语言线性结构和语块, 并根据所述的整体索引向用户反馈与从用户的检索输入 中提取出的语言线性结构和语块相匹配的信息。
一种基于语意识别的自然语言处理系统,包括信息收集装置、资料存储装置、 自然语言处理装置和检索服务装置, 其中: 信息收集装置, 用于对互联网进行扫 描检测, 爬取互联网上的信息; 资料存储装置, 用于存储由信息收集装置爬取到 的互联网信息; 自然语言处理装置, 用于利用符号对存储于资料存储装置中的篇 章级的词语, 切分为字符串, 并从切出的字符串中提取出语言线性结构和语块; 并分别对提取出的语言线性结构以及语块进行倒排; 以及创建语言线性结构子索 引以及语块子索引, 并将语言线性结构子索引和语块子索引予以合并, 以形成整 体索引; 检索服务装置, 用于从用户的检索输入字符串中提取出语言线性结构和 语块, 并根据所述的整体索引向用户反馈与从用户的检索输入中提取出的语言线 性结构和语块相匹配的信息。
在本发明实施方式中, 首先将篇章级的词语利用符号切分为字符串, 并从切 出的字符串中提取出语言线性结构和语块, 然后分别对提取出的语言线性结构以 及语块进行倒排, 以及创建语言线性结构子索引以及语块子索引, 并形成整体索 引, 最后从用户的检索输入字符串中提取出语言线性结构和语块, 并根据所述的 整体索引向用户反馈与从用户的检索输入中提取出的语言线性结构和语块相匹 配的信息。 由此可见, 应用本发明实施方式以后, 运用了分析语言结构 +关键词 的技术手段, 从语言的线性结构和关键词中精确地提炼出信息的真正意图, 并用 排序的方式智能选择反馈结果, 可以基于计算机语意识别能力的核心技术, 能够 更加智能地识别信息背后的准确含义, 从而可以准确地向用户反馈所需要的信 息。 而且, 通过将信息进行深层、 多层次分析, 不但了解了其代码, 还识别了信 息所要表达的意图, 使计算机更智能、 更人性化地与人类沟通。
另外, 相比较以传统的关键词过滤方法来屏蔽不良信息, 只能识别到词(通 称关键词) 这一级别, 无法更深地延展也不能识别全篇所要表达的内容的缺点, 本发明实施方式可以将语意识别技术应用于网络监管, 以可以发挥更高的效率, 使监管变得更加智能。比如:在某篇新闻中经常出现"达赖喇嘛蛊惑人心"和"西 藏独立对藏民无益"等语句反复出现。 全篇文章实际表达的是正面的信息内容, 但因为 "达赖"和 "藏独"等关键词出现频率太多却极易被屏蔽。 这就是使用单 一关键词监管的软肋。 若使用语意识别技术监管, 其不但识别关键词, 还会通过 分析语句结构来识别所要表达的意图, 从而实现更智能的网络监管。 使上述文章 不会被屏蔽, 达到 "西藏应该独立"——屏蔽、 "西藏独立对西藏有害"——不 屏蔽的精准效果。 而且, 通过对语句进行精细化分析可以大幅提高信息监控的 识别精度, 可精确到小数点。
图简要说明 图 1为根据本发明实施方式的基于语意识别的自然语言处理方法流程图; 图 2为根据本发明实施方式的基于语意识别的自然语言处理装置结构图; 图 3为根据本发明实施方式的基于语意识别的自然语言处理系统结构图。
实施本发明的方式 为使本发明的目的、技术方案和优点表达得更加清楚明白, 下面结合附图及 具体实施方式对本发明再作进一歩详细的说明。
在本发明实施方式中, 基于计算机语意识别能力的核心技术, 能够帮助计算 机更加智能地识别信息背后的准确含义。 通过将信息进行深层、 多层次分析, 不 但了解了其代码, 还识别了信息所要表达的意图, 使计算机更智能、 更人性化地 与人类沟通。
本发明实施方式主要运用了分析语言线性结构 +关键词 (即语块) 的技术手 段, 从语言的线性结构和关键词中精确地提炼出信息的真正意图。
一个待分析的语句包括线性结构和关键词 (即语块)。 其中, 语意识别的关 键在于识别出语句的线性结构。 语言的意义隐藏在语句的线性结构当中, 语句的 线性结构相当于语言的常量。 语意乃至意义和思维都隐藏在语句的线性结构中 的, 通过分析语句的线性结构, 可达到识别意图的目的。 关键词相当于语言的变 量。 通过替换相应部分 (即变量), 其语意基本均可保留, 能得到较为准确的检 索或翻译结果。
而且, 双语、 单语均可利用结构分析来精确识别语意。
通过对浩如烟海的文献资料逐句进行线性结构 +关键词分析, 我们可以获得 充分的语句线性结构和关键词 (即语块)。
举例说明:
1、乡村旅游作为中国旅游业的重要组成部分和促进旅游业发展的重要支撑。 (示例 1 )
2、中国经济作为世界经济的重要组成部分和促进全球金融稳定的重要支撑。 (示例 2)
通过分析上面两个例子, 可以发现: "乡村旅游"、 "中国旅游业"和 "旅游 业发展"相当于示例 1 的变量, 因为通过替换相应部分 (即变量), 其语意基本 均可保留。而 " X作为 X的重要组成部分和促进 X的重要支撑"(其中 X表示空白) 相当于示例 1的线性结构, 也就是语言的常量, 因为语言的意义隐藏在该线性结 构当中。 类似地, "中国经济"、 "世界经济"、 "全球金融稳定"相当于示例 2 的 变量, 因为通过替换相应部分(即变量), 其语意基本均可保留。 而 " X作为 X的 重要组成部分和促进 X的重要支撑"(其中 X表示空白) 相当于示例 2的线性结 构, 也就是语言的常量, 因为语言的意义隐藏在该线性结构当中。
可以发现, 这两个示例的线性结构完全相同, 区别仅仅在于变量不同。 可以 将 " X作为 X的重要组成部分和促进 X的重要支撑"(其中 X表示空白)定义为一 种线性结构, 而 "乡村旅游"、 "中国旅游业"、 "旅游业发展"、 "中国经济"、 "世 界经济"和 "全球金融稳定"定义为关键词 (即语块)。
其中, 我们可以将一些常用的固有名词和 /或动名词确定为常量, 但是变量 并不局限于固有名词和 /或动名词。在某些情况下,变量也可以是一种常用的短语, 甚至比较长的句子。 另外, 在确定常量和线性结构时, 划分方式可能并不是唯一 的。对于变量最少的划分方式, 其所对应的线性结构称为最小线性结构。一般地, 变量越少, 可以认为所对应的线性结构所表达的信息越充分, 则对应搜索的信息 越精确。
再举例说明:阿凡达热潮席卷中国。 (示例 3 );炒股热潮席卷世界。 (示例 4) 通过分析上面两个例子, 可以发现, "阿凡达"和 "中国"相当于示例 3的 变量, 因为通过替换相应部分(即变量), 其语意基本均可保留。 而 " X热潮席卷
X " (其中 X表示空白)相当于示例 3的线性结构, 也就是语言的常量, 因为语言 的意义隐藏在该线性结构当中。
类似地, "炒股"和 "世界"相当于示例 4的变量, 因为通过替换相应部分
(即变量), 其语意基本均可保留。 而 " X热潮席卷 X " (其中 X表示空白) 相当 于示例 4的线性结构, 也就是语言的常量, 因为语言的意义隐藏在该线性结构当 中。可以发现, 这两个示例的线性结构相同, 区别仅仅在于变量不同。可以将 " X 热潮席卷 X " (其中 X表示空白) 定义为一种线性结构, 而 "阿凡达"、 "中国"、 "炒股"和 "世界"定义为关键词 (即语块)。
再次举例说明:
1、他们呼吁欧委会客观、 公正地对待中国企业的市场经济待遇申请。 (示例
5 )
2、 国际足联呼吁爱尔兰客观、 公正地对待世界杯预选赛与法国队的比赛结 果。 (示例 6)
3、 国际社会呼吁六方会谈客观、 公正地对待朝鲜问题。 (示例 7 )
4、 中国呼吁日本政府客观、 公正地对待二战历史问题。 (示例 8 )
通过分析上面四个例子, 可以发现:
"他们"、 "欧委会"和 "中国企业的市场经济待遇申请"相当于示例 5的变 量, 因为通过替换相应部分(即变量), 其语意基本均可保留。而 " X呼吁 X客观、 公正地对待 X " (其中 X表示空白)相当于示例 5的线性结构,也就是语言的常量, 因为语言的意义隐藏在该线性结构当中。
类似地, "国际足联"、 "爱尔兰"和 "世界杯预选赛与法国队的比赛结果" 相当于示例 6的变量, 因为通过替换相应部分(即变量), 其语意基本均可保留。 而 " X呼吁 X客观、公正地对待 X " (其中 X表示空白)相当于示例 6的线性结构, 也就是语言的常量, 因为语言的意义隐藏在该线性结构当中。
类似地, "国际社会"、 "六方会谈"和 "朝鲜问题"相当于示例 6的变量, 因为通过替换相应部分(即变量), 其语意基本均可保留。 而 " X呼吁 X客观、 公 正地对待 x" (其中 x表示空白) 相当于示例 6的线性结构, 也就是语言的常量, 因为语言的意义隐藏在该线性结构当中。
类似地, "中国"、 "日本政府"和 "二战历史问题"相当于示例 7的变量, 因为通过替换相应部分(即变量), 其语意基本均可保留。 而 " X呼吁 X客观、 公 正地对待 X " (其中 X表示空白) 相当于示例 7的线性结构, 也就是语言的常量, 因为语言的意义隐藏在该线性结构当中。
可以发现, 这四个示例的线性结构相同, 区别仅仅在于变量不同。可以将 " X 呼吁 X客观、 公正地对待 X " (其中 X表示空白)"定义为一种线性结构, 而 "他 们"、 "欧委会"、 "中国企业的市场经济待遇申请"、 "国际足联"、 "爱尔兰"、 "世界杯预选赛与法国队的比赛结果"、 "国际社会"、 "六方会谈"、 "朝鲜问 题"、 "中国"、 "日本政府"和 "二战历史问题"定义为关键词 (即语块)。
基于上述分析, 通过对大量文献(包括网络文章、 博客、 教科书、 各种电子 文档等) 进行上述切分, 我们就可以得到充分的线性结构库和关键词 (即语块) 库。 下面再详细描述本发明基于语意识别的自然语言处理方法。 图 1为根据本发 明实施方式的基于语意识别的自然语言处理方法流程图。 如图 1所示, 该方法包 括:
歩骤 101 : 将篇章级的词语利用符号切分为字符串, 并从切出的字符串中提 取出语言线性结构和语块。
在这里, 首先将篇章级的词语(比如, 一篇文章或者一篇社论)利用符号切 分为若干个字符串, 并从切出的字符串中依次提取出语言线性结构和语块(具体 的提取歩骤可以参照前述示例分析)。 此处 "篇章级"并不意味着对词语的数目 有任何特定的限定。 实质上, 只要有一些词汇, 并且这些词汇之间所组成的语句 具有意义, 就可以认为这些词汇构成了 "篇章级"。 更具体地, 可以根据句号、 问号、 叹号、 逗号、 顿号、 分号、 冒号、 引号、 括号、 破折号、 省略号、 着重 号、 连接号、 间隔号、 书名号、 专名号、 注释号、 隐讳号、 虚缺号、 斜线号、 标 识号、 代替号、 连珠号和 /或箭头号等标点符号, 将篇章级的词语切分为字符串。 比如, 可以将任意的两个标点符号之间的文字提取为字符串 (对于文章的起始, 只需要一个标点符号)。 在确定关键字 (语块) 时, 我们可以使用一个基于篇章的局部子串统计表
(hash table) 作为临时辅助词典。 也就是说, 如果出现在临时辅助词典中, 我们 就可以将其确定为语块。 不过, 某些没有出现在局部子串统计表中的, 也可以将 其确定为语块。 还可以用基于多路径规划的切分路径树作为切分模型, 首先将英 文( ASCII )、简体中文( GBK/GB 18030),繁体中文(台湾 BIG5、香港 BIG5-HKSCS ) 等字符编码统一转换为 UTF-8编码格式之后再进行切分,并在多个正确切分结果 的基础上提取语块。
提取完语块之后, 剩余的部分就是线性结构。
歩骤 102: 分别对提取出的语言线性结构以及语块进行倒排。
在这里, 倒排具体包括: 对于每个合格的语块, 将该语块所在的文档号、 段 落号、 句子号、 词序号、 以及 HTML信息等压縮为一个结构, 放入该语块所在的 动态文件中; 其中语块可以为任意的字符串, 主要包括如下类别: 词典词条、 专 名、 专名的内部词汇、 各类词组 /搭配关系、 n-grams、 连续的 stopwords、 词 +数 字、 任意的 ASCII串、 邮编与电话号码等。
而对于每个合格的语言线性结构, 可以将该语言线性结构所在的文档号、段 落号、 句子号、 词序号、 以及 HTML信息等压縮为一个结构, 放入该语块所在的 动态文件中。
歩骤 103 : 创建语言线性结构子索引以及语块子索引, 并将语言线性结构子 索引和语块子索引予以合并, 以形成整体索引。
在这里, 将内存中的全部语块索引项 (index terms ) 写入语块词汇表
(vocabulary) 文件, 将 inverted hits合并后写入 inv— lists文件, 并将二者之间的 关联信息写入词典 (dictionary) 文件。 这三个文件构成一个完整、 独立的索引 段 (index run) , 即语块子索引。 而且, 将内存中的全部线性结构索引项 (index terms ) 写入线性结构词汇表 (vocabulary) 文件, 将 inverted hits 合并后写入 inv— lists文件, 并将二者之间的关联信息写入线性结构词典(dictionary) 文件。 这三个文件构成一个完整、 独立的索引段 (index run), 即线性结构子索引。
最后, 将语言线性结构子索引和语块子索引予以合并, 以形成整体索引。 歩骤 104: 从用户的检索输入字符串中提取出语言线性结构和语块, 并根据 所述的整体索引向用户反馈与从用户的检索输入中提取出的语言线性结构和语 块相匹配的信息。
在这里, 首先从用户的检索输入字符串中提取出线性结构和语块。 比如, 假 如用户输入 "我很喜欢吃烟台产的大苹果。"则提取出语块 "我"、 "烟台产的大 苹果", 以及线性结构 X很喜欢吃 X (其中 X为空白), 然后在整体索引中检索出 匹配线性结构 " X很喜欢吃 X ", 以及语块 "我"、 "烟台产的大苹果" 的信息, 并 且按照匹配程度由高到低的顺序向用户呈现。
在一个实施方式中,当从所述用户的检索输入中提取出的语言线性结构与整 体索引中的语言线性结构的重复字数越多时, 可以认为这种匹配程度越高。
在一个实施方式中, 还可以预先设置语言线性结构重复权重和语块重复权 重; 基于所述语言线性结构重复权重计算从所述用户的检索输入中提取出的语言 线性结构与整体索引中的语言线性结构的第一重叠指数, 并基于语块重复权重计 算从所述用户的检索输入中提取出的语块与整体索引中的语块的第二重叠指数; 当所述第一重叠指数与第二重叠指数的和越高, 所述匹配程度越高。
其中, 向用户反馈与从用户的检索输入中提取出的语言线性结构和语块相匹 配的信息具体可以包括: 在所述整体索引中分别检索该输入字符串的语言线性结 构和语块, 以确定整体索引中与该输入字符串的语言线性结构相对应的语言线性 结构, 以及确定整体索引中与该输入字符串的语块相对应的语块; 向用户反馈整 体索引中该相对应的语言线性结构和该相对应的语块所涉及的信息。
可以将本发明的流程应用于多种具体的实际应用中, 比如信息检索以及多语 言翻译。 当应用于多语言翻译时, 假设用户的检索输入字符串为用第一语言表述 的检索输入字符串。 此时, 从用户的检索输入字符串中提取出该输入字符串用第 一语言表述的语言线性结构和语块; 然后再确定与该用第一语言表述的语言线性 结构和语块相对应的用第二语言表述的语言线性结构和语块; 根据所述的整体索 引向用户反馈与用第二语言表述的语言线性结构和语块相匹配且同样用第二语 言表述的信息。 其中, 第一语言可以为中文, 第二语言为英文、 日文、 韩文、 阿 拉伯文、 西班牙文、 葡萄牙文、 法文或俄罗斯文, 等等。 可选的, 第一语言为英 文、 日文、 韩文、 阿拉伯文、 西班牙文、 葡萄牙文、 法文或俄罗斯文, 第二语言 为中文等。
举例: 用户期望将中文 "我要去上海"翻译成英文。 此时, 用户输入的检索 输入字符串为 "我要去上海", 并用中文表述。 首先, 从用户的检索输入字符串 中提取出该输入字符串用中文表述的语言线性结构 (即: X要去 X, 其中 X为空 白) 和中文表述的语块 (我, 上海); 然后再确定与该用中文表述的语言线性结 构相对应的用英语表述的语言线性结构 (即 X want to go to) , 以及确定与该用中 文表述的语块相对应的用英语表述的语块 (即 I, Shanghai 最后, 将语块和线 性结构组合成翻译的语句 I want to go to Shanghai, 并呈现给用户。
进一歩地, 还可以再根据整体索引向用户反馈与线性结构 (X want to go to ) 语块(1, Shanghai)相匹配且用第二语言表述的信息,从而便于用户检索与 I want to go to Shanghai相关的英文信息。
在上述过程中, 示范性地应用了一种高性能的单遍内存倒排算法, 而不生成 任何临时磁盘文件。 因此, 在导出内存内容之前, 除了 MAP数据, 系统没有任 何文件 I/O开销。 同时, 它也不需要对 index terms编号, 并且不对 index term (编 号或者内存字符串指针) 做任何排序运算。 另外, 该方法使用所有可用的空闲物 理内存进行倒排。 这些性质保证了这个倒排方法可具有非凡的时空效率, 可支持 一系列高效的动态索引合并和索引更新的方法。 同时, 具备该特性的倒排索引还 完全适用于分布式处理。
在上述过程中, 另一个关键特征是其查找数据结构具备 caching功能, 这个 特性可支持几乎任意大的索引词表(即 vocabulary文件)。 vocabulary文件本身是 放在磁盘上, 能够保存的索引项的数目不受限制(在 64-bit文件系统上), 可多达 数亿条。 通过 caching功能, 该算法可以在 4〜6GB内存的 x64服务器上达到与包 括多台同等或更高配置的服务器的集群查询系统相近的索引词表查询性能。 而 且, index terms可以为任意的字符串,主要包括如下类别(term categories): 词典 词条、 专名、 专名的内部词汇、 各类词组 /搭配关系、 n-grams、 连续的 stopwords、 词 +数字、 任意的 ASCII串、 邮编与电话号码等。
基于上述分析,本发明实施方式还提出了一种基于语意识别的自然语言处理 装置。 图 2为根据本发明实施方式的基于语意识别的自然语言处理装置结构图。 如图 2所示, 该装置包括该装置包括提取单元 201、 倒排单元 202、 索引单元 203 和匹配信息反馈单元 204, 其中: 提取单元 201, 用于将篇章级的词语利用符号 切分为字符串, 并从切出的字符串中提取出语言线性结构和语块; 具体地, 提取 单元 201首先将篇章级的词语 (比如, 一篇文章或者一篇社论) 利用符号切分为 若干个字符串, 并从切出的字符串中依次提取出语言线性结构和语块(具体的提 取歩骤可以参照前述示例分析)。 更具体地, 可以根据句号、 问号、 叹号、 逗号、 顿号、 分号、 冒号、 引号、 括号、 破折号、 省略号、 着重号、 连接号、 间隔号、 书名号、 专名号、 注释号、 隐讳号、 虚缺号、 斜线号、 标识号、 代替号、 连珠号 和箭头号等标点符号, 将篇章级的词语切分为字符串。 比如, 可以将任意的两个 标点符号之间的文字提取为字符串 (对于文章的起始, 只需要一个标点符号)。 在确定关键字(语块)时, 可以使用一个基于篇章的局部子串统计表(hash table) 作为临时辅助词典。 也就是说, 如果出现在临时辅助词典中, 就可以将其确定为 语块。 不过, 某些没有出现在局部子串统计表中的, 也可以将其确定为语块。 还 可以用基于多路径规划的切分路径树作为切分模型, 首先将英文(ASCII)、 简体 中文(GBK/GB 18030)、 繁体中文(台湾 BIG5、 香港 BIG5-HKSCS )等字符编码 统一转换为 UTF-8编码格式之后再进行切分,并在多个正确切分结果的基础上提 取语块。
提取完语块之后, 剩余的部分就是线性结构。 倒排单元 202, 用于分别对提 取出的语言线性结构以及语块进行倒排; 具体地, 倒排单元 202对于每个合格的 语块, 将该语块所在的文档号、 段落号、 句子号、 词序号、 以及 HTML信息等压 縮为一个结构,放入该语块所在的动态文件中;其中语块可以为任意的字符串, 主 要包括如下类别:词典词条、专名、专名的内部词汇、各类词组 /搭配关系、 n-grams、 连续的 stopwords、 词 +数字、 任意的 ASCII串、 邮编与电话号码等。 而对于每个 合格的语言线性结构, 倒排单元 202可以将该语言线性结构所在的文档号、 段落 号、句子号、 词序号、 以及 HTML信息等压縮为一个结构, 放入该语块所在的动 态文件中。
索引单元 203, 用于创建语言线性结构子索引以及语块子索引, 并将语言线 性结构子索引和语块子索引予以合并, 以形成整体索引; 具体地, 索引单元 203 将内存中的全部语块索引项( index terms )写入 vocabulary文件, 将 inverted hits 合并后写入 inv— lists文件, 并将二者之间的关联信息写入 dictionary文件。这三 个文件构成一个完整、 独立的索引段(index run) , 即语块子索引。 而且, 将内存 中的全部线性结构索引项 (index terms ) 写入 vocabulary文件, 将 inverted hits 合并后写入 inv— lists文件, 并将二者之间的关联信息写入 dictionary文件。这三 个文件构成一个完整、 独立的索引段(index run) , 即线性结构子索引。 最后, 索 引单元 203将语言线性结构子索引和语块子索引予以合并, 以形成整体索引。
匹配信息反馈单元 204, 用于从用户的检索输入字符串中提取出语言线性结 构和语块, 并根据所述的整体索引向用户反馈与从用户的检索输入中提取出的语 言线性结构和语块相匹配的信息。
在一个实施方式中, 匹配信息反馈单元 204, 用于依据语言线性结构和语块 的匹配程度由高到低的顺序, 向用户反馈与从用户的检索输入中提取出的语言线 性结构和语块相匹配的信息。 而且, 当从所述用户的检索输入中提取出的语言线 性结构与整体索引中的语言线性结构的重复字数越多时, 所述匹配程度越高。
在一个实施方式中, 匹配信息反馈单元 204, 进一歩用于预先设置语言线性 结构重复权重和语块重复权重; 并基于所述语言线性结构重复权重计算从所述用 户的检索输入中提取出的语言线性结构与整体索引中的语言线性结构的第一重 叠指数, 并基于语块重复权重计算从所述用户的检索输入中提取出的语块与整体 索引中的语块的第二重叠指数; 其中当所述第一重叠指数与第二重叠指数的和越 高, 所述匹配程度越高。
在一个实施方式中, 匹配信息反馈单元 204, 用于在所述整体索引中分别检 索该输入字符串的语言线性结构和语块, 以确定整体索引中与该输入字符串的语 言线性结构相对应的语言线性结构, 以及确定整体索引中与该输入字符串的语块 相对应的语块; 向用户反馈整体索引中该相对应的语言线性结构和该相对应的语 块所涉及的信息。 在一个实施方式中, 用户的检索输入字符串为用第一语言表述 的检索输入字符串; 此时, 匹配信息反馈单元 204, 用于从用户的检索输入字符 串中提取出该输入字符串用第一语言表述的语言线性结构和语块; 确定与该用第 一语言表述的语言线性结构和语块相对应的用第二语言表述的语言线性结构和 语块; 根据所述的整体索引向用户反馈与用第二语言表述的语言线性结构和语块 相匹配且同样用第二语言表述的信息。
基于上述详细说明,本发明实施方式还提出了一种基于语意识别的自然语言 处理系统。 图 3为根据本发明实施方式的基于语意识别的自然语言处理系统结构 图。 如图 3所示, 该系统包括信息收集装置 301、 资料存储装置 302、 自然语言 处理装置 303、索引存储装置 304和检索服务装置 305。其中:信息收集装置 301, 用于对互联网进行扫描检测, 爬取互联网上的信息; 资料存储装置 302, 用于存 储由信息收集装置爬取到的互联网信息, 并优选提供互联网信息的快速定位查 找; 自然语言处理装置 303, 用于利用符号对存储于资料存储装置 302中的篇章 级的词语, 切分为字符串, 并从切出的字符串中提取出语言线性结构和语块; 并 分别对提取出的语言线性结构以及语块进行倒排; 以及用于创建语言线性结构子 索引以及语块子索引, 并将语言线性结构子索引和语块子索引予以合并, 以形成 整体索引; 索引存储装置 304, 用于存储由自然语言处理装置 303生成的整体索 引; 检索服务装置 305, 用于从用户的检索输入字符串中提取出语言线性结构和 语块, 并根据索引存储装置存储的所述的整体索引向用户反馈与从用户的检索输 入中提取出的语言线性结构和语块相匹配的信息。 其中, 信息收集装置 301进一 歩可以接受报刊、 广电和各个媒体会员等所提供的上传信息 (比如新闻资源)服 务。 而且, 检索服务装置 305可以针对普通用户免费查询新闻, 以及针对专业用 户注册并付费之后开通高端服务。
优选地, 自然语言处理装置 303, 用于根据句号、 问号、 叹号、 逗号、 顿号、 分号、 冒号、 引号、 括号、 破折号、 省略号、 着重号、 连接号、 间隔号、 书名 号、 专名号、 注释号、 隐讳号、 虚缺号、 斜线号、 标识号、 代替号、 连珠号和箭 头号, 将所述篇章级的词语切分为字符串。
优选地, 自然语言处理装置 303, 用于使用基于篇章的局部子串统计表作为 临时辅助词典, 用基于多路径规划的切分路径树作为切分模型, 将所述篇章级的 词的等字符编码统一转换为 UTF-8编码格式; 并对转换为 UTF-8编码格式后的 篇章级的词语利用符号切分为字符串。
而且, 检索服务装置 305, 可以用于依据匹配程度由高到低的顺序, 向用户 反馈与从用户的检索输入中提取出的语言线性结构和语块相匹配的信息。
在一个实施方式中, 检索服务装置 305, 用于依据语言线性结构和语块的匹 配程度由高到低的顺序, 向用户反馈与从用户的检索输入中提取出的语言线性结 构和语块相匹配的信息。 其中, 优选地, 当从所述用户的检索输入中提取出的语 言线性结构与整体索引中的语言线性结构的重复字数越多时, 所述匹配程度越 高。
在一个实施方式中, 检索服务装置 305, 进一歩用于预先设置语言线性结构 重复权重和语块重复权重; 并基于所述语言线性结构重复权重计算从所述用户的 检索输入中提取出的语言线性结构与整体索引中的语言线性结构的第一重叠指 数, 并基于语块重复权重计算从所述用户的检索输入中提取出的语块与整体索引 中的语块的第二重叠指数; 其中当所述第一重叠指数与第二重叠指数的和越高, 所述匹配程度越高。 在一个实施方式中, 检索服务装置 305, 用于在所述整体索 引中分别检索该输入字符串的语言线性结构和语块, 以确定整体索引中与该输入 字符串的语言线性结构相对应的语言线性结构, 以及确定整体索引中与该输入字 符串的语块相对应的语块; 向用户反馈整体索引中该相对应的语言线性结构和该 相对应的语块所涉及的信息。 在一个实施方式中, 检索服务装置 305, 用于从用 户的检索输入字符串中提取出该输入字符串用第一语言表述的语言线性结构和 语块; 确定与该用第一语言表述的语言线性结构和语块相对应的用第二语言表述 的语言线性结构和语块; 根据所述的整体索引向用户反馈与用第二语言表述的语 言线性结构和语块相匹配且同样用第二语言表述的信息。
可选地, 第一语言为英文、 日文、 韩文、 阿拉伯文、 西班牙文、 葡萄牙文、 法文或俄罗斯文等,第二语言为中文。第一语言还可以为中文,第二语言为英文、 曰文、 韩文、 阿拉伯文、 西班牙文、 葡萄牙文、 法文或俄罗斯文, 等。
综上所述, 在本发明实施方式中, 首先将篇章级的词语利用符号切分为字符 串, 并从切出的字符串中提取出语言线性结构和语块, 然后分别对提取出的语言 线性结构以及语块进行倒排, 以及创建语言线性结构子索引以及语块子索引, 并 形成整体索引, 最后从用户的检索输入字符串中提取出语言线性结构和语块, 并 根据所述的整体索引向用户反馈与从用户的检索输入中提取出的语言线性结构 和语块相匹配的信息。 由此可见, 应用本发明实施方式以后, 运用了分析语言结 构 +关键词的技术手段, 从语言的线性结构和关键词中精确地提炼出信息的真正 意图, 并用排序的方式智能选择反馈结果, 可以基于计算机语意识别能力的核心 技术, 能够更加智能地识别信息背后的准确含义, 从而可以准确地向用户反馈所 需要的信息。 而且, 通过将信息进行深层、 多层次分析, 不但了解了其代码, 还 识别了信息所要表达的意图, 使计算机更智能、 更人性化地与人类沟通。
另外, 相比较以传统的关键词过滤方法来屏蔽不良信息, 只能识别到词(通 称关键词) 这一级别, 无法更深地延展也不能识别全篇所要表达的内容的缺点, 本发明实施方式可以将语意识别技术应用于网络监管, 以可以发挥更高的效率, 使监管变得更加智能。比如:在某篇新闻中经常出现"达赖喇嘛蛊惑人心"和"西 藏独立对藏民无益"等语句反复出现。 全篇文章实际表达的是正面的信息内容, 但因为 "达赖"和 "藏独"等关键词出现频率太多却极易被屏蔽。 这就是使用单 一关键词监管的软肋。 若使用语意识别技术监管, 其不但识别关键词, 还会通过 分析语句结构来识别所要表达的意图, 从而实现更智能的网络监管。 使上述文章 不会被屏蔽, 达到 "西藏应该独立"——屏蔽、 "西藏独立对西藏有害"——不 屏蔽的精准效果。 而且, 通过对语句进行精细化分析可以大幅提高信息监控的 识别精度, 可精确到小数点。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。 凡在本发明的精神和原则之内, 所作的任何修改、 等同替换、 改进等, 均应包含 在本发明的保护范围之内。

Claims

权 利 要 求 书
1、 一种基于语意识别的自然语言处理方法, 其特征在于, 该方法包括: 将篇章级的词语利用符号切分为字符串,并从切出的字符串中提取出语言线 性结构和语块;
分别对提取出的语言线性结构以及语块进行倒排;
创建语言线性结构子索引以及语块子索引,并将语言线性结构子索引和语块 子索引予以合并, 以形成整体索引;
从用户的检索输入字符串中提取出该输入字符串的语言线性结构和语块,并 根据所述的整体索引向用户反馈与从用户的检索输入中提取出的语言线性结构 和语块相匹配的信息。
2、根据权利要求 1所述的基于语意识别的自然语言处理方法, 其特征在于, 所述将篇章级的词语利用符号切分为字符串包括:
根据句号、 问号、 叹号、 逗号、 顿号、 分号、 冒号、 引号、 括号、 破折号、 省略号、 着重号、 连接号、 间隔号、 书名号、 专名号、 注释号、 隐讳号、 虚缺号、 斜线号、 标识号、 代替号、 连珠号和 /或箭头号, 将所述篇章级的词语切分为字符 串。
3、根据权利要求 1所述的基于语意识别的自然语言处理方法, 其特征在于, 所述将篇章级的词语利用符号切分为字符串包括:
使用基于篇章的局部子串统计表作为临时辅助词典,用基于多路径规划的切 分路径树作为切分模型,将所述篇章级的词语字符编码统一转换为 UTF-8编码格 式;
对转换为 UTF-8编码格式后的篇章级的词语利用符号切分为字符串。
4、根据权利要求 1所述的基于语意识别的自然语言处理方法, 其特征在于, 所述向用户反馈与从用户的检索输入中提取出的语言线性结构和语块相匹配的 信息包括:
依据语言线性结构和语块的匹配程度由高到低的顺序, 向用户反馈与从用户 的检索输入中提取出的语言线性结构和语块相匹配的信息。
5、根据权利要求 4所述的基于语意识别的自然语言处理方法, 其特征在于, 当从所述用户的检索输入中提取出的语言线性结构与整体索引中的语言线性结 构的重复字数越多时, 所述匹配程度越高。
6、根据权利要求 4所述的基于语意识别的自然语言处理方法, 其特征在于, 预先设置语言线性结构重复权重和语块重复权重;
基于所述语言线性结构重复权重计算从所述用户的检索输入中提取出的语 言线性结构与整体索引中的语言线性结构的第一重叠指数, 并基于语块重复权重 计算从所述用户的检索输入中提取出的语块与整体索引中的语块的第二重叠指 数;
当所述第一重叠指数与第二重叠指数的和越高, 所述匹配程度越高。
7、根据权利要求 1所述的基于语意识别的自然语言处理方法, 其特征在于, 所述向用户反馈与从用户的检索输入中提取出的语言线性结构和语块相匹配的 信息包括:
在所述整体索引中分别检索该输入字符串的语言线性结构和语块, 以确定整 体索引中与该输入字符串的语言线性结构相对应的语言线性结构, 以及确定整体 索弓 I中与该输入字符串的语块相对应的语块;
向用户反馈整体索引中该相对应的语言线性结构和该相对应的语块所涉及 的信息。
8、根据权利要求 1所述的基于语意识别的自然语言处理方法, 其特征在于, 所述用户的检索输入字符串为用第一语言表述的检索输入字符串;
所述从用户的检索输入字符串中提取出该输入字符串的语言线性结构和语 块, 并根据所述的整体索引向用户反馈与从用户的检索输入中提取出的语言线性 结构和语块相匹配的信息包括:
从用户的检索输入字符串中提取出该输入字符串用第一语言表述的语言线 性结构和语块;
确定与该用第一语言表述的语言线性结构和语块相对应的用第二语言表述 的语言线性结构和语块;
根据所述的整体索引向用户反馈与用第二语言表述的语言线性结构和语块 相匹配且同样用第二语言表述的信息。
9、根据权利要求 8所述的基于语意识别的自然语言处理方法, 其特征在于, 所述第一语言为中文, 第二语言为英文、 日文、韩文、 阿拉伯文、西班牙文、 葡萄牙文、 法文或俄罗斯文。
10、根据权利要求 8所述的基于语意识别的自然语言处理方法,其特征在于, 所述第一语言为英文、 日文、 韩文、 阿拉伯文、 西班牙文、 葡萄牙文、 法文 或俄罗斯文, 第二语言为中文。
11、 一种基于语意识别的自然语言处理装置, 其特征在于, 该装置包括提取 单元、 倒排单元、 索引单元和匹配信息反馈单元, 其中:
提取单元, 用于将篇章级的词语利用符号切分为字符串, 并从切出的字符串 中提取出语言线性结构和语块;
倒排单元, 用于分别对提取出的语言线性结构以及语块进行倒排;
索引单元, 用于创建语言线性结构子索引以及语块子索引, 并将语言线性结 构子索引和语块子索引予以合并, 以形成整体索引;
匹配信息反馈单元,用于从用户的检索输入字符串中提取出语言线性结构和 语块, 并根据所述的整体索引向用户反馈与从用户的检索输入中提取出的语言线 性结构和语块相匹配的信息。
12、 根据权利要求 11所述的基于语意识别的自然语言处理装置, 其特征在 于,
提取单元, 用于根据句号、 问号、 叹号、 逗号、 顿号、 分号、 冒号、 引号、 括号、 破折号、 省略号、 着重号、 连接号、 间隔号、 书名号、 专名号、 注释号、 隐讳号、 虚缺号、 斜线号、 标识号、 代替号、 连珠号和 /或箭头号, 将所述篇章级 的词语切分为字符串。
13、 根据权利要求 11所述的基于语意识别的自然语言处理装置, 其特征在 于, 提取单元, 用于使用基于篇章的局部子串统计表作为临时辅助词典, 用基于 多路径规划的切分路径树作为切分模型, 将所述篇章级的词语字符编码统一转换 为 UTF-8编码格式; 并对转换为 UTF-8编码格式后的篇章级的词语利用符号切 分为字符串。
14、 根据权利要求 11所述的基于语意识别的自然语言处理装置, 其特征在 于,
匹配信息反馈单元,用于依据语言线性结构和语块的匹配程度由高到低的顺 序, 向用户反馈与从用户的检索输入中提取出的语言线性结构和语块相匹配的信 息。
15、 根据权利要求 14所述的基于语意识别的自然语言处理装置, 其特征在 于, 当从所述用户的检索输入中提取出的语言线性结构与整体索引中的语言线性 结构的重复字数越多时, 所述匹配程度越高。
16、 根据权利要求 14所述的基于语意识别的自然语言处理装置, 其特征在 于,
匹配信息反馈单元,进一歩用于预先设置语言线性结构重复权重和语块重复 权重; 并基于所述语言线性结构重复权重计算从所述用户的检索输入中提取出的 语言线性结构与整体索引中的语言线性结构的第一重叠指数, 并基于语块重复权 重计算从所述用户的检索输入中提取出的语块与整体索引中的语块的第二重叠 指数; 其中当所述第一重叠指数与第二重叠指数的和越高, 所述匹配程度越高。
17、 根据权利要求 11所述的基于语意识别的自然语言处理装置, 其特征在 于,
匹配信息反馈单元,用于在所述整体索引中分别检索该输入字符串的语言线 性结构和语块, 以确定整体索引中与该输入字符串的语言线性结构相对应的语言 线性结构, 以及确定整体索引中与该输入字符串的语块相对应的语块; 向用户反 馈整体索弓 I中该相对应的语言线性结构和该相对应的语块所涉及的信息。
18、 根据权利要求 11所述的基于语意识别的自然语言处理装置, 其特征在 于, 所述用户的检索输入字符串为用第一语言表述的检索输入字符串;
匹配信息反馈单元,用于从用户的检索输入字符串中提取出该输入字符串用 第一语言表述的语言线性结构和语块; 确定与该用第一语言表述的语言线性结构 和语块相对应的用第二语言表述的语言线性结构和语块; 根据所述的整体索引向 用户反馈与用第二语言表述的语言线性结构和语块相匹配且同样用第二语言表 述的信息。
19、 一种基于语意识别的自然语言处理系统, 其特征在于, 包括信息收集装 置、 资料存储装置、 自然语言处理装置和检索服务装置, 其中:
信息收集装置, 用于对互联网进行扫描检测, 爬取互联网上的信息; 资料存储装置, 用于存储由信息收集装置爬取到的互联网信息;
自然语言处理装置, 用于利用符号对存储于资料存储装置中的篇章级的词 语, 切分为字符串, 并从切出的字符串中提取出语言线性结构和语块; 并分别对 提取出的语言线性结构以及语块进行倒排; 以及创建语言线性结构子索引以及语 块子索引, 并将语言线性结构子索引和语块子索引予以合并, 以形成整体索引; 检索服务装置, 用于从用户的检索输入字符串中提取出语言线性结构和语 块, 并根据所述的整体索引向用户反馈与从用户的检索输入中提取出的语言线性 结构和语块相匹配的信息。
20、 根据权利要求 19所述的基于语意识别的自然语言处理系统, 其特征在 于, 该系统进一歩包括索引存储装置, 用于存储由自然语言处理装置生成的整体 索引。
21、 根据权利要求 19所述的基于语意识别的自然语言处理系统, 其特征在 于, 资料存储装置, 进一歩用于提供互联网信息的快速定位查找。
22、 根据权利要求 19所述的基于语意识别的自然语言处理系统, 其特征在 于, 信息收集装置进一歩用于接受上传信息服务。
23、 根据权利要求 19所述的基于语意识别的自然语言处理系统, 其特征在 于, 自然语言处理装置, 用于根据句号、 问号、 叹号、 逗号、 顿号、 分号、 冒号、 引号、 括号、 破折号、 省略号、 着重号、 连接号、 间隔号、 书名号、 专名号、 注释号、 隐讳号、 虚缺号、 斜线号、 标识号、 代替号、 连珠号和或箭头号, 将所 述篇章级的词语切分为字符串。
24、 根据权利要求 19所述的基于语意识别的自然语言处理系统, 其特征在 于, 自然语言处理装置,用于使用基于篇章的局部子串统计表作为临时辅助词典, 用基于多路径规划的切分路径树作为切分模型, 将所述篇章级的词语字符编码统 一转换为 UTF-8编码格式; 并对转换为 UTF-8编码格式后的篇章级的词语利用 符号切分为字符串。
25、 根据权利要求 19所述的基于语意识别的自然语言处理系统, 其特征在 于, 检索服务装置, 用于依据语言线性结构和语块的匹配程度由高到低的顺序, 向用户反馈与从用户的检索输入中提取出的语言线性结构和语块相匹配的信息。
26、 根据权利要求 19所述的基于语意识别的自然语言处理系统, 其特征在 于, 当从所述用户的检索输入中提取出的语言线性结构与整体索引中的语言线性 结构的重复字数越多时, 所述匹配程度越高。
27、 根据权利要求 19所述的基于语意识别的自然语言处理系统, 其特征在 于,
检索服务装置, 进一歩用于预先设置语言线性结构重复权重和语块重复权 重; 并基于所述语言线性结构重复权重计算从所述用户的检索输入中提取出的语 言线性结构与整体索引中的语言线性结构的第一重叠指数, 并基于语块重复权重 计算从所述用户的检索输入中提取出的语块与整体索引中的语块的第二重叠指 数; 其中当所述第一重叠指数与第二重叠指数的和越高, 所述匹配程度越高。
28、 根据权利要求 19所述的基于语意识别的自然语言处理系统, 其特征在 于,
检索服务装置,用于在所述整体索弓 I中分别检索该输入字符串的语言线性结 构和语块, 以确定整体索引中与该输入字符串的语言线性结构相对应的语言线性 结构, 以及确定整体索引中与该输入字符串的语块相对应的语块; 向用户反馈整 体索引中该相对应的语言线性结构和该相对应的语块所涉及的信息。
29、 根据权利要求 19所述的基于语意识别的自然语言处理系统, 其特征在 于, 所述用户的检索输入字符串为用第一语言表述的检索输入字符串;
检索服务装置,用于从用户的检索输入字符串中提取出该输入字符串用第一 语言表述的语言线性结构和语块; 确定与该用第一语言表述的语言线性结构和语 块相对应的用第二语言表述的语言线性结构和语块; 根据所述的整体索引向用户 反馈与用第二语言表述的语言线性结构和语块相匹配且同样用第二语言表述的
I Ft自Θ、。
30、 根据权利要求 29所述的基于语意识别的自然语言处理系统, 其特征在 于, 所述第一语言为英文、 日文、 韩文、 阿拉伯文、 西班牙文、 葡萄牙文、 法文 或俄罗斯文, 第二语言为中文。
31、 根据权利要求 29所述的基于语意识别的自然语言处理系统, 其特征在 于, 所述第一语言为中文, 第二语言为英文、 日文、 韩文、 阿拉伯文、 西班牙文、 葡萄牙文、 法文或俄罗斯文。
7
PCT/CN2012/075802 2011-05-20 2012-05-21 基于语意识别的自然语言处理方法、装置和系统 WO2012159558A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201110131065.6A CN102789464B (zh) 2011-05-20 2011-05-20 基于语意识别的自然语言处理方法、装置和系统
CN201110131065.6 2011-05-20

Publications (1)

Publication Number Publication Date
WO2012159558A1 true WO2012159558A1 (zh) 2012-11-29

Family

ID=47154868

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2012/075802 WO2012159558A1 (zh) 2011-05-20 2012-05-21 基于语意识别的自然语言处理方法、装置和系统

Country Status (2)

Country Link
CN (1) CN102789464B (zh)
WO (1) WO2012159558A1 (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105488035A (zh) * 2014-10-13 2016-04-13 陈伯妤 一种对话式的自然语言处理方法和装置
CN106156110B (zh) * 2015-04-03 2019-07-30 科大讯飞股份有限公司 文本语义理解方法及系统
CN104978665A (zh) * 2015-06-16 2015-10-14 北京畅游天下网络技术有限公司 一种品牌评估方法和装置
CN105095665B (zh) * 2015-08-13 2018-07-06 易保互联医疗信息科技(北京)有限公司 一种中文疾病诊断信息的自然语言处理方法及系统
CN105184053B (zh) * 2015-08-13 2018-09-07 易保互联医疗信息科技(北京)有限公司 一种中文医疗服务项目信息的自动编码方法及系统
CN107145243A (zh) * 2017-03-29 2017-09-08 北京百度网讯科技有限公司 内心想法的输入方法、装置、设备及存储介质
CN108733687A (zh) * 2017-04-18 2018-11-02 陈伯妤 一种基于文字识别的信息检索方法和系统
TWI660341B (zh) * 2018-04-02 2019-05-21 和碩聯合科技股份有限公司 一種搜尋方法以及一種應用該方法的電子裝置
CN109388695B (zh) * 2018-09-27 2022-11-25 深圳前海微众银行股份有限公司 用户意图识别方法、设备及计算机可读存储介质
WO2022211737A1 (en) * 2021-03-31 2022-10-06 Emo Technologies Pte. Ltd. Automatic detection of intention of natural language input text
CN117029863B (zh) * 2023-10-10 2023-12-22 中汽信息科技(天津)有限公司 一种反馈式交通路径规划方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020107844A1 (en) * 2000-12-08 2002-08-08 Keon-Hoe Cha Information generation and retrieval method based on standardized format of sentence structure and semantic structure and system using the same
CN101206643A (zh) * 2006-12-21 2008-06-25 中国科学院计算技术研究所 一种融合了句型模板和统计机器翻译技术的翻译方法
CN101388026A (zh) * 2008-10-09 2009-03-18 浙江大学 一种基于领域本体的语义索引方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100437557C (zh) * 2004-02-04 2008-11-26 北京赛迪翻译技术有限公司 基于语言知识库的机器翻译方法与装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020107844A1 (en) * 2000-12-08 2002-08-08 Keon-Hoe Cha Information generation and retrieval method based on standardized format of sentence structure and semantic structure and system using the same
CN101206643A (zh) * 2006-12-21 2008-06-25 中国科学院计算技术研究所 一种融合了句型模板和统计机器翻译技术的翻译方法
CN101388026A (zh) * 2008-10-09 2009-03-18 浙江大学 一种基于领域本体的语义索引方法

Also Published As

Publication number Publication date
CN102789464A (zh) 2012-11-21
CN102789464B (zh) 2017-11-17

Similar Documents

Publication Publication Date Title
WO2012159558A1 (zh) 基于语意识别的自然语言处理方法、装置和系统
CN106294639B (zh) 基于语义的跨语言专利新创性预判分析方法
Ahmed et al. Language identification from text using n-gram based cumulative frequency addition
KR20160060253A (ko) 자연어 질의 응답 시스템 및 방법
Chen et al. Template detection for large scale search engines
US20100153396A1 (en) Name indexing for name matching systems
CN108038099B (zh) 基于词聚类的低频关键词识别方法
KR100847376B1 (ko) 질의어 자동 추출을 이용한 검색 방법 및 장치
JP2011118689A (ja) 検索方法及びシステム
Alhanjouri Pre processing techniques for Arabic documents clustering
Watrin et al. An N-gram frequency database reference to handle MWE extraction in NLP applications
CN110705285B (zh) 一种政务文本主题词库构建方法、装置、服务器及可读存储介质
Lim et al. Automatic genre detection of web documents
Doostmohammadi et al. Perkey: A persian news corpus for keyphrase extraction and generation
CN113918804A (zh) 商品信息检索系统及方法
TWI290684B (en) Incremental thesaurus construction method
Thanadechteemapat et al. Thai word segmentation for visualization of thai web sites
KR20000036487A (ko) 정보검색기술을 이용한 한영번역 데이터베이스 시스템
Coole et al. Scaling out for extreme scale corpus data
Aksan et al. The Turkish National Corpus (TNC): comparing the architectures of v1 and v2
CN116414939B (zh) 基于多维度数据的文章生成方法
CN110175268B (zh) 一种最长匹配资源映射方法
CN105488035A (zh) 一种对话式的自然语言处理方法和装置
Hládek et al. Evaluation set for Slovak news information retrieval
Al-sarrayrih et al. Clustering arabic documents using frequent itemset-based hierarchical clustering with an N-grams

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 12789616

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 12789616

Country of ref document: EP

Kind code of ref document: A1