KR20150033900A - Apparatus for extracting text emoticon, and recording medium therefor - Google Patents

Apparatus for extracting text emoticon, and recording medium therefor Download PDF

Info

Publication number
KR20150033900A
KR20150033900A KR20130113744A KR20130113744A KR20150033900A KR 20150033900 A KR20150033900 A KR 20150033900A KR 20130113744 A KR20130113744 A KR 20130113744A KR 20130113744 A KR20130113744 A KR 20130113744A KR 20150033900 A KR20150033900 A KR 20150033900A
Authority
KR
South Korea
Prior art keywords
text
emoticons
character
emoticon
text emoticons
Prior art date
Application number
KR20130113744A
Other languages
Korean (ko)
Inventor
김성묵
Original Assignee
에스케이텔레콤 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 에스케이텔레콤 주식회사 filed Critical 에스케이텔레콤 주식회사
Priority to KR20130113744A priority Critical patent/KR20150033900A/en
Publication of KR20150033900A publication Critical patent/KR20150033900A/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

An apparatus for extracting a text emoticon and a recording medium therefor are disclosed in the present invention. Specifically, an apparatus for extracting a text emoticon composed of characters, symbols or characters including special characters according to the present invention has a storage part for storing a text emoticon dictionary; and a controller configured to control the storage part, wherein the controller extracts a text emoticon candidate from an analysis target phrase and sentence; calculates similarity between the extracted text emoticon candidate and the text emoticon included in the text emoticon dictionary; and determines the extracted text emoticon candidate as the text emoticon in a case that the calculated similarity is equal to or higher than a preset threshold.

Description

텍스트 이모티콘 추출 장치, 이를 위한 기록매체 {Apparatus for extracting text emoticon, and recording medium therefor}BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a text emoticon extracting apparatus,

본 발명은 구문 분석을 위한 방법에 관한 것으로서, 보다 상세하게는 분석 대상이 되는 구문에서 텍스트 이모티콘을 추출하기 위한 장치 및 이를 위한 기록매체에 관한 것이다.The present invention relates to a method for analyzing a syntax, and more particularly, to an apparatus and method for extracting text emoticons from a syntax to be analyzed.

인터넷이 널리 보급되고, 유선 및 무선 네트워크의 발전 및 전자 기기의 발전에 따라, 인터넷을 이용한 어학 학습이 점차 각광을 받고 있다. 특히, 온라인 쓰기(writing) 평가 시스템이 개발됨에 따라 학생들이 제출한 답안에 대하여 자동으로 평가 내지 채점 등을 수행한 후 학생들에게 그 결과를 제공하게 된다. 이러한, 온라인 쓰기(writing) 평가 시스템에서 제출된 답안의 문장 분석, 문장 오류 검출 등을 수행할 때, 학생들이 기재한 텍스트 이모티콘이 검출되면, 텍스트 이모티콘은 비텍스트의 요소로 간주되어 이를 무시하고 평가 내지 채점 등을 수행하였다. 즉, 텍스트 이모티콘은 전통적인 문장 분석의 대상이 아니었다. With the widespread use of the Internet, the development of wired and wireless networks, and the development of electronic devices, language learning using the Internet has become increasingly popular. In particular, as an online writing evaluation system is developed, students will automatically evaluate and score answers, and then provide the results to students. When the text emoticon described by the students is detected when analyzing the sentence of the answer submitted in the online writing evaluation system and detecting the sentence error, the text emoticon is regarded as the non-text element, Scoring, and so on. In other words, text emoticons were not subject to traditional sentence analysis.

다만, 최근 온라인 쓰기 시험 데이터에 텍스트 이모티콘이 자주 출현되고 있으며, 텍스트 이모티콘은 사용자 간의 다양한 감정을 표현하는 부가어 기능을 하는 텍스트의 성격이 강해지고 점차 다양화 되므로 텍스트 이모티콘을 자동으로 추출하기 위한 시스템의 구축이 필요하다. However, since text emoticons are frequently appearing in the recent online writing test data, text emoticon is a system for automatically extracting text emoticons since the text functioning as an additional word expressing various emotions among users becomes stronger and diversified gradually Construction is necessary.

한국공개특허 제10-2012-0109943호, 2012년 10월 09일 공개 (명칭: 문장에 내재한 감정 분석을 위한 감정 분류 방법)Korean Patent Laid-Open No. 10-2012-0109943, October 09, 2012 (name: emotion classification method for emotion analysis inherent in the sentence)

본 발명의 목적은 분석 대상이 되는 구문에서 텍스트 이모티콘을 자동으로 추출하기 위한 장치 및 이를 위한 기록매체를 제안한다. An object of the present invention is to provide a device for automatically extracting a text emoticon from a syntax to be analyzed and a recording medium therefor.

또한, 본 발명의 목적은 미리 구축된 텍스트 이모티콘과 일치하지 않더라도 이와 유사한 텍스트 이모티콘을 추출하기 위한 장치 및 이를 위한 기록매체를 제안한다. In addition, the object of the present invention is to provide a device for extracting similar text emoticons, and a recording medium therefor, even if they do not coincide with pre-established text emoticons.

본 발명에서 이루고자 하는 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급하지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.It is to be understood that both the foregoing general description and the following detailed description are exemplary and explanatory and are not restrictive of the invention, unless further departing from the spirit and scope of the invention as defined by the appended claims. It will be possible.

본 발명의 일 양상은, 문자, 기호 또는 특수 문자를 포함하는 캐릭터(character)로 구성되는 텍스트 이모티콘을 추출하는 장치에 있어서, 텍스트 이모티콘 사전을 저장하기 위한 저장부 및 저장부를 제어하도록 구성된 제어부를 포함하고, 제어부는, 분석 대상이 되는 구문에서 텍스트 이모티콘 후보를 추출하고, 추출된 텍스트 이모티콘 후보와 텍스트 이모티콘 사전에 포함된 텍스트 이모티콘과의 유사도를 계산하며, 계산된 유사도가 기 설정된 임계치 이상인 경우 추출된 텍스트 이모티콘 후보를 텍스트 이모티콘으로 결정한다.According to one aspect of the present invention, there is provided an apparatus for extracting text emoticons composed of characters including characters, symbols, or special characters, the apparatus comprising: a storage unit for storing a text emoticone dictionary; and a control unit configured to control a storage unit The control unit extracts the text emoticons candidates from the syntax to be analyzed and calculates the similarity between the extracted text emoticons candidate and the text emoticons included in the text emoticons dictionary. If the calculated similarity is equal to or larger than the predetermined threshold value, Decide the text emoticon candidate as a text emoticon.

본 발명의 다른 일 양상은, 문자, 기호 또는 특수 문자를 포함하는 캐릭터(character)로 구성되는 텍스트 이모티콘을 추출하는 프로그램을 기록한 컴퓨터 판독 가능한 기록매체에 있어서, 분석 대상이 되는 구문에서 텍스트 이모티콘 후보를 추출하는 기능, 추출된 텍스트 이모티콘 후보와 텍스트 이모티콘 사전에 포함된 텍스트 이모티콘과의 유사도를 계산하는 기능 및 계산된 유사도가 기 설정된 임계치 이상인 경우 추출된 텍스트 이모티콘 후보를 텍스트 이모티콘으로 결정하는 기능을 포함한다. According to another aspect of the present invention, there is provided a computer-readable recording medium recording a program for extracting text emoticons composed of characters including characters, symbols, or special characters, A function of calculating the degree of similarity between the extracted text emoticons candidate and the text emoticons included in the text emoticons dictionary, and a function of determining the extracted text emoticons as text emoticons when the calculated similarity is equal to or greater than a predetermined threshold value .

본 발명의 실시예에 따르면, 온라인 쓰기 답안 등과 같이 분석 대상이 되는 구문에 포함되어 있는 텍스트 이모티콘을 자동으로 추출할 수 있다.According to the embodiment of the present invention, the text emoticons included in the syntax to be analyzed, such as online writing answers, can be automatically extracted.

또한, 본 발명의 실시예에 따르면, 미리 구축된 텍스트 이모티콘과의 유사도를 계산함으로써, 미리 구축된 텍스트 이모티콘과 일치하지 않더라도 이와 유사한 텍스트 이모티콘을 추출할 수 있다. Also, according to the embodiment of the present invention, it is possible to extract a similar text emoticon even if it does not coincide with a pre-established text emoticon, by calculating the degree of similarity with the pre-established text emoticons.

본 발명에서 얻을 수 있는 효과는 이상에서 언급한 효과로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.The effects obtained in the present invention are not limited to the effects mentioned above, and other effects not mentioned can be clearly understood by those skilled in the art from the following description .

본 발명에 관한 이해를 돕기 위해 상세한 설명의 일부로 포함되는, 첨부 도면은 본 발명에 대한 실시예를 제공하고, 상세한 설명과 함께 본 발명의 기술적 특징을 설명한다.
도 1은 본 발명의 일 실시예에 따른 텍스트 이모티콘 추출 장치의 구성을 예시하는 도면이다.
도 2는 본 발명의 일 실시예에 따른 텍스트 이모티콘 추출 방법을 예시하는 도면이다.
도 3은 본 발명의 일 실시예에 따른 텍스트 이모티콘 추출 방법을 예시하는 다른 도면이다.
도 4는 본 발명의 일 실시예에 따른 텍스트 이모티콘 여부를 판단하기 위하여 기준이 되는 임계치를 결정하는 방법을 예시하는 도면이다.
도 5에서는 본 발명에 이용될 수 있는 텍스트 이모티콘들을 예시한다.
The accompanying drawings, which are included to provide a further understanding of the invention and are incorporated in and constitute a part of the specification, illustrate embodiments of the invention and, together with the description, serve to explain the technical features of the invention.
1 is a diagram illustrating a configuration of a text emoticons extracting apparatus according to an embodiment of the present invention.
2 is a diagram illustrating a text emoticons extraction method according to an embodiment of the present invention.
FIG. 3 is another diagram illustrating a method for extracting text emoticons according to an exemplary embodiment of the present invention. Referring to FIG.
FIG. 4 is a diagram illustrating a method of determining a reference threshold value for determining whether a text emoticons are present according to an exemplary embodiment of the present invention. Referring to FIG.
FIG. 5 illustrates text emoticons that may be used in the present invention.

이하, 본 발명에 따른 바람직한 실시 형태를 첨부된 도면을 참조하여 상세하게 설명한다. 첨부된 도면과 함께 이하에 개시될 상세한 설명은 본 발명의 예시적인 실시형태를 설명하고자 하는 것이며, 본 발명이 실시될 수 있는 유일한 실시형태를 나타내고자 하는 것이 아니다. 이하의 상세한 설명은 본 발명의 완전한 이해를 제공하기 위해서 구체적 세부사항을 포함한다. 그러나, 당업자는 본 발명이 이러한 구체적 세부사항 없이도 실시될 수 있음을 안다. Hereinafter, preferred embodiments according to the present invention will be described in detail with reference to the accompanying drawings. DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS The following detailed description, together with the accompanying drawings, is intended to illustrate exemplary embodiments of the invention and is not intended to represent the only embodiments in which the invention may be practiced. The following detailed description includes specific details in order to provide a thorough understanding of the present invention. However, those skilled in the art will appreciate that the present invention may be practiced without these specific details.

몇몇 경우, 본 발명의 개념이 모호해지는 것을 피하기 위하여 공지의 구조 및 장치는 생략되거나, 각 구조 및 장치의 핵심기능을 중심으로 한 블록도 형식으로 도시될 수 있다.In some instances, well-known structures and devices may be omitted or may be shown in block diagram form, centering on the core functionality of each structure and device, to avoid obscuring the concepts of the present invention.

명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함(comprising 또는 including)"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서에 기재된 "…부", "…기", "모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다. 또한, "일(a 또는 an)", "하나(one)", "그(the)" 및 유사 관련어는 본 발명을 기술하는 문맥에 있어서(특히, 이하의 청구항의 문맥에서) 본 명세서에 달리 지시되거나 문맥에 의해 분명하게 반박되지 않는 한, 단수 및 복수 모두를 포함하는 의미로 사용될 수 있다.Throughout the specification, when an element is referred to as "comprising" or " including ", it is meant that the element does not exclude other elements, do. Also, the terms " part, "" module," and " module ", etc. in the specification mean a unit for processing at least one function or operation and may be implemented by hardware or software or a combination of hardware and software have. Also, the terms " a or ", "one "," the ", and the like are synonyms in the context of describing the invention (particularly in the context of the following claims) May be used in a sense including both singular and plural, unless the context clearly dictates otherwise.

이하의 설명에서 사용되는 특정 용어들은 본 발명의 이해를 돕기 위해서 제공된 것이며, 이러한 특정 용어의 사용은 본 발명의 기술적 사상을 벗어나지 않는 범위에서 다른 형태로 변경될 수 있다.The specific terminology used in the following description is provided to aid understanding of the present invention, and the use of such specific terminology may be changed into other forms without departing from the technical idea of the present invention.

도 1은 본 발명의 일 실시예에 따른 텍스트 이모티콘 추출 장치의 구성을 예시하는 도면이다. 1 is a diagram illustrating a configuration of a text emoticons extracting apparatus according to an embodiment of the present invention.

본 발명에 따른 텍스트 이모티콘 추출 장치(100)는 온라인 쓰기(writing) 시험 답안 분석, 자동 번역, 텍스트 분석 등과 같은 언어 처리 시 텍스트 이모티콘을 자동으로 추출하는 장치를 의미한다. 도 1에서 도시된 텍스트 이모티콘 추출 장치(100)의 구성은 기능적으로 구분되는 기능 요소들을 나타낸 것으로서, 어느 하나 이상의 구성이 실제 물리적으로는 서로 통합되어 구현될 수도 있다. The text emoticons extracting apparatus 100 according to the present invention refers to a device for automatically extracting text emoticons during language processing such as online test answer analysis, automatic translation, and text analysis. The configuration of the text-emoticons extraction apparatus 100 shown in FIG. 1 shows functional elements that are functionally separated, and any one or more configurations may be physically integrated with one another.

이하, 본 발명에서 텍스트 이모티콘(또는 문자 이모티콘)은 사용자의 감정 표현, 인물 표현, 사물 표현, 의사 표현, 기타 유희적 표현 등을 위하여 문자(한글, 한자, 영어, 일본어 등), 기호(특수 문자, 문장 부호, 괄호, 수학 기호 등) 또는 숫자 등을 조합하여 생성된 아이콘을 의미하며, 도 5에서는 본 발명에 이용될 수 있는 텍스트 이모티콘들을 예시한다. 이하, 설명의 편의를 위하여 텍스트 이모티콘을 구성하는 문자, 기호, 숫자 등을 캐릭터(character)라고 통칭한다. Hereinafter, a text emoticon (or a character emoticon) according to the present invention includes characters (Korean, Chinese characters, English, Japanese, etc.), symbols (special characters, etc.) for emotion expression, character expression, A punctuation mark, a mathematical symbol, etc.) or a number, and FIG. 5 illustrates text emoticons that can be used in the present invention. For convenience of explanation, characters, symbols, numbers, and the like constituting the text emoticons are collectively referred to as characters.

도 1을 참조하면, 본 발명의 일 실시예에 따른 텍스트 이모티콘 추출 장치(100)는 저장부(110) 및 제어부(120)를 포함하여 구성될 수 있다. 또한, 본 발명에 따른 텍스트 이모티콘 추출 장치(100)는 저장부(110) 및 제어부(120)에 추가하여 통신부(130)를 포함하여 구성될 수도 있다. 텍스트 이모티콘 추출 장치(100)를 구성하는 저장부(110) 및 제어부(120)(또는, 이에 추가하여 통신부(130))는 본 발명에 따른 기능을 수행하기 위하여 상호 기능적으로 연결될 수 있다. Referring to FIG. 1, the apparatus 100 for extracting text emoticons according to an exemplary embodiment of the present invention may include a storage unit 110 and a control unit 120. The text emoticons extraction apparatus 100 according to the present invention may include a communication unit 130 in addition to the storage unit 110 and the control unit 120. The storage unit 110 and the control unit 120 (or the communication unit 130 in this case) constituting the text emoticon extracting apparatus 100 may be functionally connected to perform the functions according to the present invention.

각 구성 요소에 대해 보다 구체적으로 설명하면, 저장부(110)는 텍스트 이모티콘 추출 장치(100)의 동작에 필요한 데이터 및 프로그램을 저장하는 수단으로서, 기본적으로 텍스트 이모티콘 추출 장치(100)에 의해 실행될 운영 프로그램 및 응용 프로그램을 저장한다. 특히, 본 발명에 있어서, 저장부(110)는 텍스트 이모티콘 사전(111)을 저장할 수 있다. 텍스트 이모티콘 사전은 텍스트 이모티콘을 일정한 순서와 체계로 배열하여 모아 놓은 집합을 의미하며, 이와 함께 해당 텍스트 이모티콘의 의미 또는 해설 등이 추가될 수도 있다. 또한, 텍스트 이모티콘 사전은 텍스트 이모티콘을 형성하는 기본 단위(혹은 최소 단위)인 캐릭터 모델이 추가될 수도 있다. 기본 단위의 캐릭터 모델은 의미를 가지는 가장 작은 단위의 텍스트 이모티콘을 의미한다. 예를 들어, 도 5에서 긍정적인 기분 표현을 나타내는 텍스트 이모티콘 '^^' 의 경우, '^.^', '^_^', '^o^' 등과 같이 '.', '_', 'o' 등과 같은 캐릭터들이 추가됨으로써 다양하게 변형되어 사용될 수 있으나, 모두 동일하게 긍정적인 기분 표현을 나타내게 된다. 이 경우, 긍정적인 기분 표현을 나타내는 가장 최소 단위의 텍스트 이모티콘인 '^^'가 본 발명에 따른 최소 단위의 캐릭터 모델에 해당될 수 있다. More specifically, the storage unit 110 stores data and programs necessary for the operation of the text emoticons extraction apparatus 100. The storage unit 110 is basically an operation unit Stores programs and applications. In particular, in the present invention, the storage unit 110 may store the text emoticons dictionary 111. A text emoticons dictionary is a collection of text emoticons arranged in a certain order and system, and the meaning or commentary of the text emoticons may be added. In addition, the text emoticons dictionary may be added with a character model which is a basic unit (or a minimum unit) forming a text emoticon. A character model of a basic unit means a text emoticon of the smallest unit having a meaning. For example, in the case of a text emoticon '^^', which expresses a positive mood expression in FIG. 5, '.', '_', ' o ', and so on, but they all have the same positive mood expression. In this case, '^^', which is the smallest text emoticons representing the positive mood expression, may correspond to the minimum unit character model according to the present invention.

통신부(130)는 다른 장치와 유/무선 통신을 가능하게 하는 하나 이상의 모듈을 포함할 수 있다. 특히, 본 발명에 있어서, 통신부(130)는 하나 이상의 다른 장치로부터 구문 분석(즉, 텍스트 이모티콘 추출)을 위한 하나 이상의 문장을 수신할 수 있다. 또한, 통신부(130)는 하나 이상의 장치로부터 수신한 문장의 구문을 분석한 결과(즉, 텍스트 이모티콘 추출 결과)를 하나 이상의 다른 장치로 전송할 수 있다.The communication unit 130 may include one or more modules that enable wired / wireless communication with other devices. In particular, in the present invention, the communication unit 130 may receive one or more sentences for parsing (i.e., extracting text emoticons) from one or more other devices. In addition, the communication unit 130 may transmit the result of analyzing the syntax of the sentence received from one or more devices (i.e., a result of extracting text emoticons) to one or more other devices.

제어부(120)는 텍스트 이모티콘 추출 장치(100)의 전반적인 제어를 수행하는 구성으로, 저장부(110)(또는, 이에 추가하여 통신부(130))의 기능 수행을 기능 수행을 위한 신호의 흐름을 제어하게 된다. 이때, 제어부(120)는 운영 체제(OS: Operation System), 응용 프로그램 및 각 구성을 구동시키는 프로세스 장치, 예컨대, 중앙처리장치(CPU: Central Processing Unit)로 이루어질 수 있다.The controller 120 controls the overall operation of the text emoticon extracting apparatus 100 and controls the flow of a signal for performing the function of the storage 110 (or the communication unit 130) . At this time, the control unit 120 may include an operating system (OS), an application program, and a process unit for driving each configuration, for example, a central processing unit (CPU).

특히, 본 발명에 있어서, 제어부(120)는 텍스트 이모티콘 후보 추출부(121), 유사도 계산부(123), 텍스트 이모티콘 결정부(125)를 포함하여 구성될 수 있다. 또한, 이에 추가하여 제어부(120)는 임계치 결정부(127)를 더 포함하여 구성될 수도 있다. In particular, in the present invention, the control unit 120 may include a text emoticon candidate extracting unit 121, a similarity calculating unit 123, and a text emoticons determining unit 125. In addition, the control unit 120 may further include a threshold value determination unit 127. [

텍스트 이모티콘 후보 추출부(121)는 저장부(110)에 구축된 텍스트 이모티콘 사전과 분석 대상이 되는 구문에 포함된 캐릭터를 비교하여 텍스트 이모티콘 후보를 추출한다. 여기서, 텍스트 이모티콘 후보 추출부(121)는 분석 대상이 되는 구문에 저장부(110)에 구축된 텍스트 이모티콘 사전에 포함되는 텍스트 이모티콘과 동일한 캐릭터가 포함되어 있는 경우에 해당 캐릭터를 텍스트 이모티콘으로 추출할 수 있다. 즉, 텍스트 이모티콘 후보 추출부(121)는 텍스트 이모티콘 사전에 포함된 텍스트 이모티콘의 캐릭터 문자열(character string)과 일치되는 캐릭터가 분석 대상인 구문에 포함되어 있는지 여부로 판단한다. 즉, 캐릭터 문자열이 일치하는 경우에는 추출된 캐릭터는 이하 유사도 판단을 생략하고 텍스트 이모티콘으로 결정할 수 있다.The text emoticons candidate extracting unit 121 extracts text emoticons candidates by comparing the text emoticons constructed in the storage unit 110 with the characters included in the analysis target syntax. If the text emoticon candidate extracting unit 121 includes the same character as the text emoticons included in the text emoticons dictionary built in the storage unit 110, the text emoticon candidate extracting unit 121 extracts the character as a text emoticon . That is, the text emoticons candidate extracting unit 121 determines whether or not the character that matches the character string of the text emoticons included in the text emoticons dictionary is included in the analysis target syntax. That is, if the character strings match, the extracted character can be determined as a text emoticon by skipping the similarity degree judgment below.

또한, 텍스트 이모티콘 후보 추출부(121)는 분석 대상이 되는 구문에 저장부(110)에 구축된 텍스트 이모티콘 사전에 포함되는 텍스트 이모티콘과 동일하지는 않지만 텍스트 이모티콘을 형성하는 최소 단위의 캐릭터 모델이 이용되는 규칙 혹은 패턴을 이용하여 텍스트 이모티콘 후보를 추출할 수 있다. 여기서, 텍스트 이모티콘을 형성하는 최소 단위의 캐릭터 모델이 이용되는 규칙 혹은 패턴으로, 최소 단위의 텍스트가 반복되거나, 최소 단위의 캐릭터 모델에 새로운 캐릭터가 추가되거나, 최소 단위의 캐릭터 모델에 포함되는 캐릭터가 삭제 혹은 다른 캐릭터로 변경되거나, 2개 이상의 최소 단위의 캐릭터 모델이 결합되는 경우 등이 이에 해당될 수 있다. In addition, the text emoticon candidate extracting unit 121 uses a minimum unit character model that is not the same as the text emoticons included in the text emoticons dictionary built in the storage unit 110, but forms a text emoticon Text emoticon candidates can be extracted using rules or patterns. Here, the minimum unit of text is repeated in a rule or pattern in which a minimum unit character model forming the text emoticon is used, a new character is added to the minimum unit character model, or a character included in the minimum unit character model Deleted, or changed to another character, or two or more minimum unit character models are combined.

예를 들어, 웃음 표현을 나타내는 'ㅋㅋ'는 'ㅋㅋㅋㅋㅋ' 등과 반복되어 웃음의 표현을 강조하기 위하여 사용될 수 있으며, 이 경우 텍스트 이모티콘 후보 추출부(121)는 'ㅋㅋㅋㅋㅋ' 등이 텍스트 이모티콘 사전에 포함되지 않더라도 텍스트 이모티콘 후보로 추출할 수 있다. 또한, 앞서 설명한 예시에서 최소 단위의 캐릭터 모델인 '^^'은 다른 캐릭터 '.', '_', 'o'이 결합되어 '^.^', '^_^', '^o^'와 같이 변형될 수 있으며, 이 경우 텍스트 이모티콘 후보 추출부(121)는 '^.^', '^_^', '^o^' 등이 텍스트 이모티콘 사전에 포함되지 않더라도 텍스트 이모티콘 후보로 추출할 수 있다. 또한, 사람의 얼굴 형상을 나타내는 '()'와 사람의 긍정적 혹은 부정적 기분을 나타내는 '^^', 'T.T' 등이 결합되어 '(^^)', '(T.T)'와 같은 텍스트 이모티콘을 구성할 수 있으며, 이 경우 텍스트 이모티콘 후보 추출부(121)는 '(^^)', '(T.T)'가 텍스트 이모티콘 사전에 포함되지 않더라도 텍스트 이모티콘 후보로 추출할 수 있다.In this case, the text emoticon candidate extracting unit 121 extracts a text emoticone dictionary such as' ㅋㅋ ㅋㅋㅋ 'and the like from the text emoticon candidate extracting unit 121. The' It can be extracted as a text emoticons candidate. Also, in the example described above, '^^', which is the minimum unit character model, is a combination of '^. ^', '^ _ ^', '^ O ^', . In this case, the text emoticons candidate extracting unit 121 extracts text emoticons as candidates even if '^. ^', '^ _ ^', '^ O ^', etc. are not included in the text emoticons dictionary . In addition, a text emoticon such as '(^^)' or '(TT)' is combined with '()' representing the face shape of a person and '^^' In this case, the text emoticons candidate extracting unit 121 may extract text emoticon candidates even if '(^^)' and '(TT)' are not included in the text emoticons dictionary.

유사도 계산부(123)는 텍스트 이모티콘 후보 추출부(121)에서 추출한 텍스트 이모티콘 후보들과 저장부(110)에 저장된 텍스트 이모티콘 사전에 포함된 텍스트 이모티콘을 비교하여 유사도를 계산한다. 이때, 유사도 계산부(123)는 캐릭터간 조작인 삽입, 삭제, 치환의 조작(operation)을 이용한 편집 거리(edit distance) 계산을 통해 추출된 텍스트 이모티콘 후보와 텍스트 이모티콘 사전에 포함된 텍스트 이모티콘 간의 유사도를 계산할 수 있다. 여기서, 편집 거리 계산 방식은 분석 대상인 텍스트 이모티콘의 후보를 목표한 텍스트 이모티콘으로 변경하는 데 필요한 캐릭터의 조작(즉, 삽입, 삭제, 치환)의 횟수를 계산하여 유사도를 측정하는 방식을 의미한다. 예를 들어, 추출된 텍스트 이모티콘 후보가 '^o^'이고 목표하는 텍스트 이모티콘이 '^^'인 경우, 'o' 캐릭터 한 번의 삭제만으로 목표하는 텍스트 이모티콘인 '^^'로 변경이 가능하므로 이때, 캐릭터 조작 횟수는 1번에 해당된다. 또한, 추출된 텍스트 이모티콘 후보가 '(^o^)'이고 목표하는 텍스트 이모티콘이 '^^'인 경우, '()' 캐릭터 한 번의 삭제('()'가 최소 단위의 캐릭터 모델인 경우)와 'o' 캐릭터 한 번의 삭제로 목표하는 텍스트 이모티콘인 '^^'로 변경이 가능하므로 이때, 캐릭터 조작 횟수는 2번에 해당될 수 있다. 혹은, '(' 캐릭터, ')' 캐릭터 및 'o' 캐릭터의 삭제로 목표하는 텍스트 이모티콘인 '^^'로 변경이 가능하므로 이때, 캐릭터 조작 횟수는 3번에 해당될 수도 있다. 그리고, 유사도 계산부(123)는 계산된 캐릭터 조작 횟수를 이용하여 0부터 1까지의 범위 내의 값을 가지는 유사도를 산출한다. The similarity calculation unit 123 compares the text emoticons candidates extracted by the text emoticon candidate extraction unit 121 with text emoticons included in the text emoticons stored in the storage unit 110 to calculate the similarity. At this time, the similarity calculation unit 123 calculates the similarity between the extracted text emoticon candidate and the text emoticons included in the text emoticon dictionary through the edit distance calculation using an operation of insertion, deletion, Can be calculated. Here, the editing distance calculation method is a method of calculating the number of operations (i.e., insertion, deletion, and replacement) of a character required to change a candidate of a text emoticon to be analyzed to a target text emoticon to measure the similarity. For example, if the extracted text emoticon candidate is '^ o ^' and the target text emoticon is '^^', you can change it to '^^', which is the target text emoticon only by deleting the 'o' At this time, the number of times of character manipulation corresponds to one. When the extracted text emoticon candidate is '(^ o ^)' and the target text emoticon is '^^', '()' character deletion ('()' is the minimum unit character model) And 'o' character can be changed to the target text emoticon '^^' by one deletion of the character, so that the number of times of character manipulation may correspond to 2 times. Alternatively, since it is possible to change the target character emoticons '^^' by deleting the characters '(character)' and 'o', the number of character manipulations may correspond to three times. Then, the similarity calculation unit 123 calculates a degree of similarity having a value in the range from 0 to 1 using the calculated number of times of character manipulation.

텍스트 이모티콘 결정부(125)는 유사도 계산부(123)에서 텍스트 이모티콘 후보들과 저장부(110)에 저장된 텍스트 이모티콘 사전에 포함된 텍스트 이모티콘 간에 계산된 유사도를 기 설정된 임계치 혹은 임계치 결정부(127)에서 결정한 임계치와 비교하여 해당 텍스트 이모티콘 후보가 텍스트 이모티콘인지 여부를 결정한다. 즉, 텍스트 이모티콘 결정부(125)는 기 설정된 임계치 혹은 임계치 결정부(127)에서 결정한 임계치가 0.5인 경우 유사도가 0.5 이상(혹은 초과)하게 되면, 해당 텍스트 이모티콘 후보를 텍스트 이모티콘이라고 판단한다. The text emoticons determination unit 125 determines the similarity calculated between the text emoticons candidates in the similarity calculation unit 123 and the text emoticons included in the text emoticons dictionary stored in the storage unit 110 to a predetermined threshold or threshold value determination unit 127 And determines whether the text emoticon candidate is a text emoticon by comparing with the determined threshold value. That is, if the threshold determined by the predetermined threshold or threshold value determiner 127 is 0.5, the text emoticon determining unit 125 determines that the text emoticon candidate is a text emoticon if the degree of similarity is 0.5 (or more).

임계치 결정부(127)는 텍스트 이모티콘 결정부(125)에서 텍스트 이모티콘 후보들이 텍스트 이모티콘인지 여부를 판단하기 위한 기준이 되는 임계치를 결정한다. 이때, 임계치 결정부(127)는 분석 대상이 되는 구문의 분석을 통해 의미가 판단되는 단어(혹은 어절, 형태소)가 전체 구문에서 차지하는 비율과 텍스트 이모티콘 결정부(125)에서 판단한 텍스트 이모티콘이 전체 구문에서 차지하는 비율을 통해 텍스트 이모티콘 여부를 판단하기 위하여 기준이 되는 임계치를 실험적으로 결정할 수 있다. 예를 들어, 의미가 판단되는 단어(혹은 어절, 형태소)의 비율이 전체 구문에서 0.7이고, 텍스트 이모티콘의 비율이 전체 구문에서 0.1인 경우, 합산의 결과를 기 설정된 임계치와 비교한다. 이때, 기 설정된 임계치가 0.9인 경우 합산의 결과가 임계치보다 작으므로 텍스트 이모티콘 여부를 판단하기 위하여 기준이 되는 임계치를 하향 조정한다. 예를 들어, 유사도와 비교가 되는 기준치가 0.5인 경우(즉, 0.5 이상(혹은 초과)인 경우 텍스트 이모티콘으로 결정)인 경우, 0.4로 하향 조정할 수 있다. 즉, 임계치 결정부(127)는 텍스트 이모티콘으로 판단하게 되는 기준치를 더 낮춤으로써 보다 많은 텍스트 이모티콘의 후보가 텍스트 이모티콘으로 판단되도록 설정할 수 있다. The threshold value determination unit 127 determines a threshold value that is a criterion for determining whether the text emoticons candidates are text emoticons in the text emoticons determination unit 125. [ At this time, the threshold value determiner 127 determines the ratio of the words (or words and morphemes) whose meaning is determined by the analysis of the analysis target syntax to the entire syntax and the ratio of the text emoticons determined by the text emoticon determining unit 125 to the total syntax A threshold value can be determined experimentally to judge whether a text emoticon is present or not through the ratio of the text emoticon. For example, if the ratio of the word (or word, morpheme) to be judged is 0.7 in the entire sentence and the ratio of the text emoticons is 0.1 in the entire sentence, the result of the summation is compared with a predetermined threshold. At this time, if the predetermined threshold value is 0.9, since the result of summing is smaller than the threshold value, the threshold value which is a reference is adjusted downward to determine whether the text is emoticon. For example, if the reference value to be compared with the similarity is 0.5 (that is, 0.5 or more (or more), it is determined by a text emoticon). That is, the threshold value determiner 127 may set the threshold value of the text emoticons to be lower so that more text emoticons are determined to be text emoticons.

도 2는 본 발명의 일 실시예에 따른 텍스트 이모티콘 추출 방법을 예시하는 도면이다. 2 is a diagram illustrating a text emoticons extraction method according to an embodiment of the present invention.

도 2를 참조하면, 텍스트 이모티콘 추출 장치(100)는 기 구축된 텍스트 이모티콘 사전을 이용하여 분석 대상이 되는 구문에서 텍스트 이모티콘 후보를 추출한다(S201). 이때, 텍스트 이모티콘 추출 장치(100)는 기 구축된 텍스트 이모티콘 사전에 포함되는 기본 단위의 캐릭터 모델이 이용되는 규칙 혹은 패턴을 기반으로 텍스트 이모티콘 후보를 추출할 수 있다. 이때, 텍스트 이모티콘을 형성하는 최소 단위의 캐릭터 모델이 이용되는 규칙 혹은 패턴으로, 최소 단위의 텍스트가 반복되거나, 최소 단위의 캐릭터 모델에 새로운 캐릭터가 추가되거나, 최소 단위의 캐릭터 모델에 포함되는 캐릭터가 삭제 혹은 다른 캐릭터로 변경되거나, 복수의 최소 단위의 캐릭터 모델이 결합되는 경우 등이 이에 해당될 수 있다.Referring to FIG. 2, the text emoticons extraction apparatus 100 extracts a text emoticons candidate from a syntax to be analyzed using a pre-built text emoticons dictionary (S201). At this time, the text emoticons extraction apparatus 100 can extract a text emoticons candidate based on a rule or a pattern in which a character model of a basic unit included in a pre-established text emoticons dictionary is used. At this time, the minimum unit of text is repeated or the new character is added to the minimum unit character model, or the character included in the minimum unit character model is a rule or pattern in which the minimum unit character model forming the text emoticon is used Deleted, or changed to another character, or a plurality of minimum unit character models are combined.

이어, 텍스트 이모티콘 추출 장치(100)는 S201 단계에서 추출된 텍스트 이모티콘 후보들과 기 구축된 텍스트 이모티콘 사전에 포함된 텍스트 이모티콘을 비교하여 유사도를 계산한다(S203). 이때, 텍스트 이모티콘 추출 장치(100)는 캐릭터간 조작인 삽입, 삭제, 치환의 조작을 이용한 편집 거리(edit distance) 계산을 통해 추출된 텍스트 이모티콘 후보와 텍스트 이모티콘 사전에 포함된 텍스트 이모티콘 간의 유사도를 계산할 수 있다.Next, the text emoticons extraction apparatus 100 compares the text emoticons candidates extracted in step S201 with the text emoticons included in the pre-built text emoticons dictionary (S203). At this time, the text emoticon extracting apparatus 100 calculates the similarity between the extracted text emoticons candidate and the text emoticons included in the text emoticons dictionary through calculation of edit distance using operations of inter-character insertion, deletion, and substitution .

이어, 텍스트 이모티콘 추출 장치(100)는 S203 단계에서 계산한 유사도에 따라 해당 텍스트 이모티콘 후보가 텍스트 이모티콘인지 여부를 결정한다(S205). 텍스트 이모티콘 추출 장치(100)는 계산된 유사도를 기 설정된 임계치 혹은 텍스트 이모티콘 추출 장치(100)에서 결정된 임계치와 비교하여 임계치 이상(혹은 초과)인 유사도를 가지는 텍스트 이모티콘 후보를 텍스트 이모티콘으로 결정할 수 있다. Then, the text emoticons extraction apparatus 100 determines whether the text emoticon candidate is a text emoticon according to the degree of similarity calculated in step S203 (S205). The text emoticon extracting apparatus 100 may compare the calculated similarity with a preset threshold or a threshold determined by the text emoticons extracting apparatus 100 to determine a text emoticons candidate having a degree of similarity higher than or equal to a threshold value as a text emoticons.

도 3은 본 발명의 일 실시예에 따른 텍스트 이모티콘 추출 방법을 예시하는 다른 도면이다. FIG. 3 is another diagram illustrating a method for extracting text emoticons according to an exemplary embodiment of the present invention. Referring to FIG.

도 3을 참조하면, 텍스트 이모티콘 추출 장치(100)는 기 구축된 텍스트 이모티콘 사전을 이용하여 분석 대상이 되는 구문에서 기 구축된 텍스트 이모티콘 사전에 포함된 텍스트 이모티콘과 일치하는 텍스트 이모티콘을 추출한다(S201). 이때, 텍스트 이모티콘 추출 장치(100)는 텍스트 이모티콘 사전에 포함된 텍스트 이모티콘의 캐릭터 문자열(character string)과 일치되는 캐릭터가 분석 대상인 구문에 포함되어 있는지 여부로 분석 대상 구분에서 텍스트 이모티콘을 추출할 수 있다. 즉, 캐릭터 문자열이 일치하는 경우에는 추출된 캐릭터는 이하 유사도 판단을 생략하고 텍스트 이모티콘으로 결정할 수 있다. Referring to FIG. 3, the text emoticons extraction apparatus 100 extracts a text emoticon corresponding to a text emoticon included in a pre-built text emoticons dictionary in a syntax to be analyzed using the pre-built text emoticons dictionary (S201 ). At this time, the text emoticon extracting apparatus 100 can extract a text emoticon from the analysis target segment whether or not the character that matches the character string of the text emoticon included in the text emoticon dictionary is included in the analysis target syntax . That is, if the character strings match, the extracted character can be determined as a text emoticon by skipping the similarity degree judgment below.

그리고, 텍스트 이모티콘 추출 장치(100)는 기 구축된 텍스트 이모티콘 사전을 이용하여 분석 대상이 되는 구문에서 텍스트 이모티콘 후보를 추출한다(S303). 이때, 텍스트 이모티콘 추출 장치(100)는 기 구축된 텍스트 이모티콘 사전에 포함되는 기본 단위의 캐릭터 모델이 이용되는 규칙 혹은 패턴을 이용하여 텍스트 이모티콘 후보를 추출할 수 있다.Then, the text emoticons extraction apparatus 100 extracts the text emoticons candidates from the syntax to be analyzed using the pre-built text emoticons dictionary (S303). At this time, the text emoticon extracting apparatus 100 can extract a text emoticon candidate using a rule or a pattern in which a character model of a basic unit included in a pre-built text emoticons dictionary is used.

이어, 텍스트 이모티콘 추출 장치(100)는 S303 단계에서 추출된 텍스트 이모티콘 후보들과 기 구축된 텍스트 이모티콘 사전에 포함된 텍스트 이모티콘을 비교하여 유사도를 계산한다(S305). 이때, 텍스트 이모티콘 추출 장치(100)는 캐릭터간 조작인 삽입, 삭제, 치환의 조작을 이용한 편집 거리(edit distance) 계산을 통해 추출된 텍스트 이모티콘 후보와 텍스트 이모티콘 사전에 포함된 텍스트 이모티콘 간의 유사도를 계산할 수 있다.Next, the text emoticon extracting apparatus 100 compares the text emoticons candidates extracted in step S303 with the text emoticons included in the pre-built text emoticons dictionary (S305). At this time, the text emoticon extracting apparatus 100 calculates the similarity between the extracted text emoticons candidate and the text emoticons included in the text emoticons dictionary through calculation of edit distance using operations of inter-character insertion, deletion, and substitution .

이어, 텍스트 이모티콘 추출 장치(100)는 S305 단계에서 계산한 유사도에 따라 해당 텍스트 이모티콘 후보가 텍스트 이모티콘인지 여부를 결정한다(S307). 텍스트 이모티콘 추출 장치(100)는 계산된 유사도를 기 설정된 임계치 혹은 텍스트 이모티콘 추출 장치(100)에서 결정된 임계치와 비교하여 임계치 이상(혹은 초과)인 유사도를 가지는 텍스트 이모티콘 후보를 텍스트 이모티콘으로 결정할 수 있다. Then, the text emoticons extraction apparatus 100 determines whether the text emoticon candidate is a text emoticon according to the degree of similarity calculated in step S305 (S307). The text emoticon extracting apparatus 100 may compare the calculated similarity with a preset threshold or a threshold determined by the text emoticons extracting apparatus 100 to determine a text emoticons candidate having a degree of similarity higher than or equal to a threshold value as a text emoticons.

도 4는 본 발명의 일 실시예에 따른 텍스트 이모티콘 여부를 판단하기 위하여 기준이 되는 임계치를 결정하는 방법을 예시하는 도면이다. FIG. 4 is a diagram illustrating a method of determining a reference threshold value for determining whether a text emoticons are present according to an exemplary embodiment of the present invention. Referring to FIG.

도 4를 참조하면, 텍스트 이모티콘 추출 장치(100)는 전체 구문에서 구문의 분석을 통해 의미가 판단된 단어(혹은 어절, 형태소)의 비율과 전체 구문에서 텍스트 이모티콘 비율을 합산한다(S401). 즉, 텍스트 이모티콘 추출 장치(100)는 전체 구문에서 의미가 판단되는 단어(혹은 어절, 형태소)의 비율(예를 들어, 0.x)과 전체 구문에서 앞서 도 2 혹은 도 3의 방법을 통해 결정된 텍스트 이모티콘의 비율(예를 들어, 0.x')을 합산한다. Referring to FIG. 4, the text emoticon extracting apparatus 100 sums the ratios of the words (or words and morphemes) whose meaning is determined through the analysis of the syntax in the entire syntax and the ratios of the text emoticons in the entire syntax (S401). That is, the text emoticon extracting apparatus 100 extracts the text emoticon extracted by the text emoticon extracting apparatus 100 from the ratio (for example, 0.x) of words (or word and morpheme) (E.g., 0.x ') of the text emoticon.

이어, 텍스트 이모티콘 추출 장치(100)는 S401 단계에서 합산한 결과가 1과 비교하여 1보다 큰지 혹은 작은지 판단한다(S403).Then, the text emoticon extracting apparatus 100 determines whether the result of summing up in step S401 is larger or smaller than 1 in step S403.

이어, 텍스트 이모티콘 추출 장치(100)는 S403 단계에서 판단한 결과를 이용하여 텍스트 이모티콘 여부를 판단하기 위하여 기준이 되는 임계치의 최적의 값을 결정한다(S405). 즉, 텍스트 이모티콘 추출 장치(100)는 S403 단계에서 의미가 판단된 단어(혹은 어절, 형태소)의 비율과 결정된 텍스트 이모티콘의 비율의 합이 기 설정된 임계치 보다 작은 경우, 텍스트 이모티콘 여부를 판단하기 위하여 기준이 되는 임계치를 하향 조정한다. 반면, S403 단계에서 의미가 판단된 단어(혹은 어절, 형태소)의 비율과 결정된 텍스트 이모티콘의 비율의 합이 기 설정된 임계치 보다 큰 경우, 텍스트 이모티콘 여부를 판단하기 위하여 기준이 되는 임계치를 상향 조정한다.Next, the text emoticons extraction apparatus 100 determines an optimal value of a threshold used as a reference for determining whether the text emoticons are present (S405), using the result determined in operation S403. That is, when the sum of the ratio of the word (or the word and morpheme) determined in step S403 and the ratio of the determined text emoticon is smaller than a preset threshold value, the text emoticon extracting apparatus 100 extracts the text emoticon Is adjusted downward. On the other hand, if the sum of the ratio of the words (or word and morpheme) judged to be significant in step S403 and the ratio of the determined text emoticons is greater than a predetermined threshold value, the threshold to be a reference for determining whether the text emoticons are upward is adjusted upward.

이와 같이, 본 발명에 따른 텍스트 이모티콘 추출 방안은 기 구축된 텍스트 이모티콘 사전을 활용하여 분석 대상이 되는 다양한 구문에서 텍스트 이모티콘을 자동으로 추출할 수 있다. 나아가, 분석 대상이 되는 구문에서 텍스트 이모티콘을 추출함으로써 구문의 의미를 보다 효과적으로 해석함으로써 정확한 구문 분석 결과를 도출할 수 있다.As described above, the text emoticons extracting method according to the present invention can automatically extract text emoticons from various syntaxes to be analyzed by utilizing pre-built text emoticons dictionaries. Furthermore, by extracting the text emoticons from the syntax to be analyzed, it is possible to derive the correct parsing result by analyzing the meaning of the syntax more effectively.

본 발명에 따른 실시예는 다양한 수단, 예를 들어, 하드웨어, 펌웨어(firmware), 소프트웨어 또는 그것들의 결합 등에 의해 구현될 수 있다. 하드웨어에 의한 구현의 경우, 본 발명의 일 실시예는 하나 또는 그 이상의 ASICs(application specific integrated circuits), DSPs(digital signal processors), DSPDs(digital signal processing devices), PLDs(programmable logic devices), FPGAs(field programmable gate arrays), 프로세서, 콘트롤러, 마이크로 콘트롤러, 마이크로 프로세서 등에 의해 구현될 수 있다.Embodiments in accordance with the present invention may be implemented by various means, for example, hardware, firmware, software, or a combination thereof. In the case of hardware implementation, an embodiment of the present invention may include one or more application specific integrated circuits (ASICs), digital signal processors (DSPs), digital signal processing devices (DSPDs), programmable logic devices (PLDs) field programmable gate arrays, processors, controllers, microcontrollers, microprocessors, and the like.

또한, 펌웨어나 소프트웨어에 의한 구현의 경우, 본 발명의 일 실시예는 이상에서 설명된 기능 또는 동작들을 수행하는 모듈, 절차, 함수 등의 형태로 구현되어, 다양한 컴퓨터 수단을 통하여 판독 가능한 기록매체에 기록될 수 있다. 여기서, 기록매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 기록매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 예컨대 기록매체는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(Magnetic Media), CD-ROM(Compact Disk Read Only Memory), DVD(Digital Video Disk)와 같은 광 기록 매체(Optical Media), 플롭티컬 디스크(Floptical Disk)와 같은 자기-광 매체(Magneto-Optical Media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치를 포함한다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함할 수 있다. 이러한 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.In addition, in the case of an implementation by firmware or software, an embodiment of the present invention may be embodied in the form of a module, a procedure, a function, and the like for performing the functions or operations described above, Lt; / RTI > Here, the recording medium may include program commands, data files, data structures, and the like, alone or in combination. Program instructions to be recorded on a recording medium may be those specially designed and constructed for the present invention or may be available to those skilled in the art of computer software. For example, the recording medium may be an optical recording medium such as a magnetic medium such as a hard disk, a floppy disk and a magnetic tape, a compact disk read only memory (CD-ROM), a digital video disk (DVD) Optical media such as a floppy disk and a hardware device specifically configured to store and execute program instructions such as ROM, RAM, flash memory and the like. Examples of program instructions may include machine language code such as those generated by a compiler, as well as high-level language code that may be executed by a computer using an interpreter or the like. Such hardware devices may be configured to operate as one or more software modules to perform the operations of the present invention, and vice versa.

이상과 같이, 본 명세서와 도면에는 본 발명의 바람직한 실시예에 대하여 개시하였으나, 여기에 개시된 실시예외에도 본 발명의 기술적 사상에 바탕을 둔 다른 변형 예들이 실시 가능하다는 것은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 자명한 것이다. 또한, 본 명세서와 도면에서 특정 용어들이 사용되었으나, 이는 단지 본 발명의 기술 내용을 쉽게 설명하고 발명의 이해를 돕기 위한 일반적인 의미에서 사용된 것이지, 본 발명의 범위를 한정하고자 하는 것은 아니다. 따라서, 상술한 상세한 설명은 모든 면에서 제한적으로 해석되어서는 아니 되고 예시적인 것으로 고려되어야 한다. 본 발명의 범위는 첨부된 청구항의 합리적 해석에 의해 선정되어야 하고, 본 발명의 등가적 범위 내에서의 모든 변경은 본 발명의 범위에 포함된다.While the present invention has been described in connection with what is presently considered to be practical exemplary embodiments, it is to be understood that the invention is not limited to the disclosed embodiments, but, on the contrary, It will be apparent to those skilled in the art. Furthermore, although specific terms are used in this specification and the drawings, they are used in a generic sense only to facilitate the description of the invention and to facilitate understanding of the invention, and are not intended to limit the scope of the invention. Accordingly, the foregoing detailed description is to be considered in all respects illustrative and not restrictive. The scope of the present invention should be determined by rational interpretation of the appended claims, and all changes within the scope of equivalents of the present invention are included in the scope of the present invention.

아울러, 본 발명에 따른 장치나 단말은 하나 이상의 프로세서로 하여금 앞서 설명한 기능들과 프로세스를 수행하도록 하는 명령에 의하여 구동될 수 있다. 예를 들어 그러한 명령으로는, 예컨대 JavaScript나 ECMAScript 명령 등의 스크립트 명령과 같은 해석되는 명령이나 실행 가능한 코드 혹은 컴퓨터로 판독 가능한 매체에 저장되는 기타의 명령이 포함될 수 있다. 나아가 본 발명에 따른 장치는 서버 팜(Server Farm)과 같이 네트워크에 걸쳐서 분산형으로 구현될 수 있으며, 혹은 단일의 컴퓨터 장치에서 구현될 수도 있다.In addition, a device or terminal according to the present invention may be driven by instructions that cause one or more processors to perform the functions and processes described above. Such instructions may include, for example, interpreted instructions such as script commands, such as JavaScript or ECMAScript commands, or other instructions stored in executable code or computer readable media. Further, the apparatus according to the present invention may be implemented in a distributed manner across a network, such as a server farm, or may be implemented in a single computer device.

또한, 본 발명에 따른 장치에 탑재되고 본 발명에 따른 방법을 실행하는 컴퓨터 프로그램(프로그램, 소프트웨어, 소프트웨어 어플리케이션, 스크립트 혹은 코드로도 알려져 있음)은 컴파일 되거나 해석된 언어나 선험적 혹은 절차적 언어를 포함하는 프로그래밍 언어의 어떠한 형태로도 작성될 수 있으며, 독립형 프로그램이나 모듈, 컴포넌트, 서브루틴 혹은 컴퓨터 환경에서 사용하기에 적합한 다른 유닛을 포함하여 어떠한 형태로도 전개될 수 있다. 컴퓨터 프로그램은 파일 시스템의 파일에 반드시 대응하는 것은 아니다. 프로그램은 요청된 프로그램에 제공되는 단일 파일 내에, 혹은 다중의 상호 작용하는 파일(예컨대, 하나 이상의 모듈, 하위 프로그램 혹은 코드의 일부를 저장하는 파일) 내에, 혹은 다른 프로그램이나 데이터를 보유하는 파일의 일부(예컨대, 마크업 언어 문서 내에 저장되는 하나 이상의 스크립트) 내에 저장될 수 있다. 컴퓨터 프로그램은 하나의 사이트에 위치하거나 복수의 사이트에 걸쳐서 분산되어 통신 네트워크에 의해 상호 접속된 다중 컴퓨터나 하나의 컴퓨터 상에서 실행되도록 전개될 수 있다.Further, a computer program (also known as a program, software, software application, script or code) that is embedded in the apparatus according to the present invention and which implements the method according to the present invention includes a compiled or interpreted language, a priori or procedural language , And may be deployed in any form including standalone programs or modules, components, subroutines, or other units suitable for use in a computer environment. A computer program does not necessarily correspond to a file in the file system. The program may be stored in a single file provided to the requested program, or in multiple interactive files (e.g., a file storing one or more modules, subprograms, or portions of code) (E.g., one or more scripts stored in a markup language document). A computer program may be deployed to run on multiple computers or on one computer, located on a single site or distributed across multiple sites and interconnected by a communications network.

아울러, 본 발명에 따른 실시예를 설명하는데 있어서, 특정한 순서로 도면에서 동작들을 묘사하고 있지만, 이는 바람직한 결과를 얻기 위하여 도시된 그 특정한 순서나 순차적인 순서대로 그러한 동작들을 수행하여야 한다거나 모든 도시된 동작들이 수행되어야 하는 것으로 이해되어서는 안 된다. 특정한 경우, 멀티태스킹과 병렬 프로세싱이 유리할 수 있다. 또한, 상술한 실시형태의 다양한 시스템 컴포넌트의 분리는 그러한 분리를 모든 실시형태에서 요구하는 것으로 이해되어서는 안되며, 설명한 프로그램 컴포넌트와 시스템들은 일반적으로 단일의 소프트웨어 제품으로 함께 통합되거나 다중 소프트웨어 제품에 패키징될 수 있다는 점을 이해하여야 한다.Moreover, in describing the embodiments according to the present invention, operations are depicted in the drawings in a particular order, but it is to be understood that they should perform such operations in that particular order or sequential order shown in order to obtain the desired result, Should not be understood as being performed. In certain cases, multitasking and parallel processing may be advantageous. Also, the separation of the various system components of the above-described embodiments should not be understood as requiring such separation in all embodiments, and the described program components and systems will generally be integrated together into a single software product or packaged into multiple software products It should be understood.

본 발명에 따른 텍스트 이모티콘 추출 방안은 온라인 쓰기 답안 분석, 자동 번역, 텍스트 분석 등 다양한 언어 처리 기술 분야에 적용하는 것이 가능하다. The method for extracting text emoticons according to the present invention can be applied to various language processing technology fields such as analysis of online writing answers, automatic translation, and text analysis.

100: 텍스트 이모티콘 추출 장치 110: 저장부
111: 텍스트 이모티콘 사전 120: 제어부
121: 텍스트 이모티콘 후보 추출부 123: 유사도 계산부
125: 텍스트 이모티콘 결정부 127: 임계치 결정부
130: 통신부
100: Text Emoticons Extracting Apparatus 110:
111: text emoticons dictionary 120:
121: text emoticone candidate extracting unit 123: similarity calculating unit
125: Text Emoticon Determination Unit 127: Threshold Determination Unit
130:

Claims (7)

문자, 기호 또는 특수 문자를 포함하는 캐릭터(character)로 구성되는 텍스트 이모티콘을 추출하는 장치에 있어서,
텍스트 이모티콘 사전을 저장하기 위한 저장부; 및
상기 저장부를 제어하도록 구성된 제어부를 포함하고,
상기 제어부는,
분석 대상이 되는 구문에서 텍스트 이모티콘 후보를 추출하고,
상기 추출된 텍스트 이모티콘 후보와 상기 텍스트 이모티콘 사전에 포함된 텍스트 이모티콘과의 유사도를 계산하며,
상기 계산된 유사도가 기 설정된 임계치 이상인 경우 상기 추출된 텍스트 이모티콘 후보를 텍스트 이모티콘으로 결정하는 텍스트 이모티콘 추출 장치.
1. An apparatus for extracting a text emoticon composed of a character, a symbol or a character including a special character,
A storage for storing a text emoticons dictionary; And
And a control unit configured to control the storage unit,
Wherein,
A text emoticon candidate is extracted from a phrase to be analyzed,
Calculating a similarity between the extracted text emoticons candidate and the text emoticons included in the text emoticons dictionary,
And determines the extracted text emoticons candidates as text emoticons when the calculated similarity is equal to or greater than a predetermined threshold value.
제1항에 있어서,
상기 저장부는 상기 텍스트 이모티콘을 형성하는 기본 단위인 캐릭터 모델을 저장하고,
상기 제어부는,
상기 캐릭터 모델이 이용되는 규칙을 기반으로 상기 텍스트 이모티콘 후보를 추출하는 텍스트 이모티콘 추출 장치.
The method according to claim 1,
Wherein the storage unit stores a character model that is a basic unit for forming the text emoticons,
Wherein,
And extracting the text emoticon candidate based on rules in which the character model is used.
제1항에 있어서,
상기 캐릭터 모델이 이용되는 규칙은 상기 캐릭터 모델의 반복, 상기 캐릭터 모델에 다른 캐릭터의 추가, 상기 캐릭터 모델에 포함되는 캐릭터의 삭제, 상기 캐릭터 모델에 포함되는 캐릭터의 변경되거나, 복수의 캐릭터 모델의 결합인 텍스트 이모티콘 추출 장치.
The method according to claim 1,
The rule that the character model is used may include a repetition of the character model, addition of another character to the character model, deletion of a character included in the character model, change of a character included in the character model, or combination of a plurality of character models Text emoticons extraction device.
제1항에 있어서, 상기 제어부는,
상기 추출된 텍스트 이모티콘 후보에 포함되는 캐릭터의 삽입, 삭제 또는 치환의 조작을 이용한 편집 거리(edit distance) 계산을 통해 상기 텍스트 이모티콘 사전에 포함된 텍스트 이모티콘과의 유사도를 계산하는 텍스트 이모티콘 추출 장치.
The apparatus of claim 1,
And calculating a similarity with the text emoticons included in the text emoticons dictionary through calculation of an edit distance using an operation of inserting, deleting or replacing characters included in the extracted text emoticons candidates.
제1항에 있어서, 상기 제어부는,
상기 분석 대상이 되는 구문에서 상기 텍스트 이모티콘 사전에 포함되는 텍스트 이모티콘의 캐릭터 문자열(character string)과 일치하는 캐릭터를 상기 텍스트 이모티콘으로 결정하는 텍스트 이모티콘 추출 장치.
The apparatus of claim 1,
And a character matching the character string of the text emoticons included in the text emoticons in the syntax to be analyzed is determined as the text emoticons.
제1항에 있어서,
상기 임계치는 상기 분석 대상이 되는 구문에서 의미가 판단되는 단어의 비율 및 상기 분석 대상이 되는 구문에서 상기 결정된 텍스트 이모티콘의 비율을 이용하여 조정되는 텍스트 이모티콘 추출 장치.
The method according to claim 1,
Wherein the threshold value is adjusted using a ratio of words judged to be meaningful in the syntax to be analyzed and a ratio of the determined text emoticons in the syntax to be analyzed.
문자, 기호 또는 특수 문자를 포함하는 캐릭터(character)로 구성되는 텍스트 이모티콘을 추출하는 프로그램을 기록한 컴퓨터 판독 가능한 기록매체에 있어서,
분석 대상이 되는 구문에서 텍스트 이모티콘 후보를 추출하는 기능;
상기 추출된 텍스트 이모티콘 후보와 상기 텍스트 이모티콘 사전에 포함된 텍스트 이모티콘과의 유사도를 계산하는 기능; 및
상기 계산된 유사도가 기 설정된 임계치 이상인 경우 상기 추출된 텍스트 이모티콘 후보를 텍스트 이모티콘으로 결정하는 기능을 포함하는 프로그램을 기록한 컴퓨터 판독 가능한 기록매체.
A computer-readable recording medium recording a program for extracting a text emoticon composed of a character, a symbol, or a character including a special character,
A function of extracting a text emoticon candidate from a syntax to be analyzed;
Calculating a similarity between the extracted text emoticons candidate and the text emoticons included in the text emoticons dictionary; And
And determining the extracted text emoticons candidates as text emoticons when the calculated similarity degree is equal to or greater than a predetermined threshold value.
KR20130113744A 2013-09-25 2013-09-25 Apparatus for extracting text emoticon, and recording medium therefor KR20150033900A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR20130113744A KR20150033900A (en) 2013-09-25 2013-09-25 Apparatus for extracting text emoticon, and recording medium therefor

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR20130113744A KR20150033900A (en) 2013-09-25 2013-09-25 Apparatus for extracting text emoticon, and recording medium therefor

Publications (1)

Publication Number Publication Date
KR20150033900A true KR20150033900A (en) 2015-04-02

Family

ID=53030983

Family Applications (1)

Application Number Title Priority Date Filing Date
KR20130113744A KR20150033900A (en) 2013-09-25 2013-09-25 Apparatus for extracting text emoticon, and recording medium therefor

Country Status (1)

Country Link
KR (1) KR20150033900A (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180065184A (en) * 2016-12-07 2018-06-18 동국대학교 산학협력단 Method for measuring semantic fitness between word-color, and apparatus thereof
WO2021071224A1 (en) * 2019-10-07 2021-04-15 주식회사 플랫팜 Device for providing message service for actively building expression item database including sub-expression items and method therefor
WO2021071231A1 (en) * 2019-10-07 2021-04-15 주식회사 플랫팜 Message service providing device for actively building database of expression items including sub-expression items, and method thereof
CN113987115A (en) * 2021-09-26 2022-01-28 润联智慧科技(西安)有限公司 Text similarity calculation method, device, equipment and storage medium

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180065184A (en) * 2016-12-07 2018-06-18 동국대학교 산학협력단 Method for measuring semantic fitness between word-color, and apparatus thereof
WO2021071224A1 (en) * 2019-10-07 2021-04-15 주식회사 플랫팜 Device for providing message service for actively building expression item database including sub-expression items and method therefor
WO2021071231A1 (en) * 2019-10-07 2021-04-15 주식회사 플랫팜 Message service providing device for actively building database of expression items including sub-expression items, and method thereof
US11366846B2 (en) 2019-10-07 2022-06-21 Platfarm Inc. Apparatus and a method for providing expression item services which constructing digital communication environments
CN113987115A (en) * 2021-09-26 2022-01-28 润联智慧科技(西安)有限公司 Text similarity calculation method, device, equipment and storage medium

Similar Documents

Publication Publication Date Title
WO2020119075A1 (en) General text information extraction method and apparatus, computer device and storage medium
CN103154936B (en) For the method and system of robotization text correction
Green et al. Better Arabic parsing: Baselines, evaluations, and analysis
US9600469B2 (en) Method for detecting grammatical errors, error detection device for same and computer-readable recording medium having method recorded thereon
JP6532088B2 (en) Autonomous learning alignment-based alignment corpus generation device and method thereof, morpheme analysis device of destruction expression using alignment corpus, and morphological analysis method thereof
Singh et al. Automatic normalization of word variations in code-mixed social media text
EP3639155A1 (en) Transforming encodings of documents with embedded mathematical formulas
Hancke et al. Exploring CEFR classification for German based on rich linguistic modeling
US8880391B2 (en) Natural language processing apparatus, natural language processing method, natural language processing program, and computer-readable recording medium storing natural language processing program
Xia Codeswitching language identification using subword information enriched word vectors
KR20150033900A (en) Apparatus for extracting text emoticon, and recording medium therefor
Li et al. Improving named entity recognition in tweets via detecting non-standard words
Barrett et al. Cross-lingual transfer of correlations between parts of speech and gaze features
CN110633456B (en) Language identification method, language identification device, server and storage medium
Xue et al. Improved correction detection in revised ESL sentences
KR102108129B1 (en) Apparatus for interpreting meaning of text emoticon, and recording medium therefor
Mansouri et al. State-of-the-art english to persian statistical machine translation system
Tschuggnall et al. Countering Plagiarism by Exposing Irregularities in Authors' Grammar
Ogrodniczuk et al. End-to-end coreference resolution baseline system for Polish
Hsieh et al. Introduction to CKIP Chinese spelling check system for SIGHAN Bakeoff 2013 evaluation
Sirts et al. Evaluating Sentence Segmentation and Word Tokenization Systems on Estonian Web Texts.
CN112287077A (en) Statement extraction method and device for combining RPA and AI for document, storage medium and electronic equipment
Adams et al. Inducing bilingual lexicons from small quantities of sentence-aligned phonemic transcriptions
Muhamad et al. Proposal: A hybrid dictionary modelling approach for malay tweet normalization
Rofiq Indonesian news extractive text summarization using latent semantic analysis

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application