KR102500106B1 - 약어 사전 구축 장치 및 방법 - Google Patents

약어 사전 구축 장치 및 방법 Download PDF

Info

Publication number
KR102500106B1
KR102500106B1 KR1020190162003A KR20190162003A KR102500106B1 KR 102500106 B1 KR102500106 B1 KR 102500106B1 KR 1020190162003 A KR1020190162003 A KR 1020190162003A KR 20190162003 A KR20190162003 A KR 20190162003A KR 102500106 B1 KR102500106 B1 KR 102500106B1
Authority
KR
South Korea
Prior art keywords
abbreviation
original
dictionary
counseling
recognized
Prior art date
Application number
KR1020190162003A
Other languages
English (en)
Other versions
KR20210071628A (ko
Inventor
한영섭
이세희
이종언
Original Assignee
주식회사 엘지유플러스
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 엘지유플러스 filed Critical 주식회사 엘지유플러스
Priority to KR1020190162003A priority Critical patent/KR102500106B1/ko
Publication of KR20210071628A publication Critical patent/KR20210071628A/ko
Application granted granted Critical
Publication of KR102500106B1 publication Critical patent/KR102500106B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

본 발명의 예시적인 실시예는 상담 메모와 같은 특정 문서 내의 약어에 특화된 약어 사전을 상담 메모에 대응하는 녹취록과의 상관성을 이용하여 구축하기 위한 장치에 관한 것으로, 상담 메모에서 약어를 인식하기 위한 약어인식부; 상기 상담 메모와 대응하는 녹취록에서 상기 인식된 약어의 음절이 일정 수 이상 포함된 하나 이상의 원어 후보를 추출하기 위한 원어후보추출부; 상기 추출된 하나 이상의 원어 후보 중 하나를 상기 인식된 약어와의 상관성을 기초로 원어로 선정하기 위한 원어선정부; 및 상기 인식된 약어와 상기 선정된 원어를 쌍으로 하는 약어사전을 구축하기 위한 약어사전구축부를 포함할 수 있다.

Description

약어 사전 구축 장치 및 방법{Apparatus and Method for construction of Acronym Dictionary}
본 발명은 상담 메모 내의 약어에 특화된 약어 사전을 자동으로 구축하기 위한 기술에 관한 것이다.
기술, 인문, 사회 등의 다양한 분야에서 작성된 전자문서의 언어적 내용을 분석하기 위하여 형태소 분석, 개체명 인식, 구문분석 등의 다양한 기술적인 시도가 있다. 이와 같은 기술적 시도로서, 언어적 내용을 분석하여 사전 구축을 위한 방법으로는 자동, 수동의 방법이 있다. 자동은 컴퓨터장치가 사람의 개입 없이 자동으로 주어진 단어에 대한 약어를 찾는 방법으로서, 이와 같은 방법을 사용할 경우 큰 비용 없이 사전 구축이 가능하나 낮은 정확도 때문에 사전에 오류가 많게 된다. 반면, 수동의 경우는 사람이 직접 사전을 구축하는 방법으로서, 이 경우 사전 구축을 위해 높은 비용과 많은 시간이 든다는 단점이 있다.
전술한 단점을 해결하기 위하여 전자문서와 일반문서에서 빈번하게 사용되는 언어적 표현인 약어에 대하여 해당 약자와 이에 해당하는 원어를 반자동으로 찾음으로써 언어 분석의 성능을 높이는 약어 사전 구축 시스템 및 방법에 대한 기술(공개특허공보 제10-2011-0061229호, 2011.06.09.)(이하, 특허문헌이라 칭함)이 제안된 바 있다.
한편, 상담사간의 편의를 위하여 상담 메모를 남길 때 약어를 쓰는 경우가 많다. 고객상담 분류, 요약, 키워드추출 등 고객 상담데이터를 분석하기 위해서는 분류 등의 자연언어처리 모델이 약어와 원 단어를 같은 뜻으로 학습되게 할 필요가 있다.
이처럼 상담 메모 내의 약어를 원어로 복원하기 위해서 일반적으로 사전 방식 등을 활용하며, 사전 구축을 위해 상담 메모 내 약어와 원 단어를 매칭할 필요가 있는데, 기 제안된 바 있는 특허문헌은 약어 후보를 추출하고 순위화 하는데 있어서 약어 후보를 어떻게 순위화하고 선별할 것인지에 대하여 명시하지 못하거나 약어를 선정할 때 단순 베이지안 분류기를 사용하고 있기 때문에, 상담 메모 내의 약어에 특화된 약어 사전의 구축 시 정확도가 저하될 수 있다.
따라서, 상담 메모와 같은 특정 문서 내의 약어에 특화된 새로운 약어 사전의 구축 기술이 필요하다. 이는 상담 메모와 녹취록과의 상관성을 이용하여 구축하는 방식이며, 녹취록 데이터 활용이 가능해 진 것은 5G가 도입됨에 따라, 고객의 소리를 더욱 깔끔하게 수신하여 녹취를 텍스트로 변환하는 성공률이 올랐기 때문이다.
공개특허공보 제10-2011-0061229호(2011.06.09.)
본 발명은 전술한 종래의 문제점을 해결하기 위한 것으로, 그 목적은 상담 메모와 같은 특정 문서 내의 약어에 특화된 약어 사전을 상담 메모에 대응하는 녹취록과의 상관성을 이용하여 구축하기 위한 장치 및 방법을 제공하는 것이다.
전술한 목적을 달성하기 위하여 본 발명의 일 측면에 따른 약어 사전 구축 장치는, 상담 메모에서 약어를 인식하기 위한 약어인식부; 상기 상담 메모와 대응하는 녹취록에서 상기 인식된 약어의 음절이 일정 수 이상 포함된 하나 이상의 원어 후보를 추출하기 위한 원어후보추출부; 상기 추출된 하나 이상의 원어 후보 중 하나를 상기 인식된 약어와의 상관성을 기초로 원어로 선정하기 위한 원어선정부; 및 상기 인식된 약어와 상기 선정된 원어를 쌍으로 하는 약어사전을 구축하기 위한 약어사전구축부를 포함할 수 있고, 상기 원어후보추출부에서 추출되는 원어 후보가 없을 경우 상기 약어인식부에서 인식된 해당 약어를 약어사전의 구축 대상에서 제외하기 위한 약어대상제외부를 더 포함할 수 있다.
상기 원어선정부는 약어와 원어 후보가 동일 상담 콜의 상담 메모와 녹취록에서 각각 독립적으로 발생할 확률과 동시에 발생할 확률을 기초로 해당하는 약어와 원어 후보 간의 상관성을 산출하고, 상관성이 가장 높은 하나의 원어 후보를 원어로 선정할 수 있고, 상기 상관성은 PMI(Pointwise Mutual Information) 방식을 통해 산출할 수 있으며, 상기 약어인식부는 기 설정된 신규 단어를 약어로 인식할 수 있다.
전술한 목적을 달성하기 위하여 본 발명의 다른 측면에 따른 약어 사전 구축 방법은, (a) 상담 메모에서 약어를 인식하는 단계; (b) 상기 상담 메모와 대응하는 녹취록에서 상기 인식된 약어의 음절이 일정 수 이상 포함된 하나 이상의 원어 후보를 추출하는 단계; (c) 상기 추출된 하나 이상의 원어 후보 중 하나를 상기 인식된 약어와의 상관성을 기초로 원어로 선정하기 위한 단계; 및 (d) 상기 인식된 약어와 상기 선정된 원어를 쌍으로 하는 약어사전을 구축하는 단계를 포함할 수 있고, 상기 단계 (b)에서 추출되는 원어 후보가 없을 경우 상기 단계 (a)에서 인식된 해당 약어를 약어사전의 구축 대상에서 제외하기 위한 단계를 더 포함할 수 있다.
상기 단계 (c)는 약어와 원어 후보가 동일 상담 콜의 상담 메모와 녹취록에서 각각 독립적으로 발생할 확률과 동시에 발생할 확률을 기초로 해당하는 약어와 원어 후보 간의 상관성을 산출하고, 상관성이 가장 높은 하나의 원어 후보를 원어로 선정할 수 있고, 상기 상관성은 PMI(Pointwise Mutual Information) 방식을 통해 산출할 수 있으며, 상기 단계 (a)는 기 설정된 신규 단어를 약어로 인식할 수 있다.
전술한 목적을 달성하기 위하여 본 발명의 또 다른 측면에 따르면, 상기 약어 사전 구축 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체가 제공될 수 있다.
전술한 목적을 달성하기 위하여 본 발명의 또 다른 측면에 따르면, 상기 약어 사전 구축 방법을 하드웨어와 결합하여 실행시키기 위하여 컴퓨터로 읽을 수 있는 기록 매체에 저장된 애플리케이션이 제공될 수 있다.
전술한 목적을 달성하기 위하여 본 발명의 또 다른 측면에 따르면, 상기 약어 사전 구축 방법을 컴퓨터에서 실행시키기 위하여 컴퓨터로 읽을 수 있는 기록 매체에 저장된 컴퓨터 프로그램이 제공될 수 있다.
이상에서 설명한 바와 같이 본 발명의 다양한 측면에 따르면, 상담 메모 내의 약어에 특화된 약어 사전을 상담 메모에 대응하는 녹취록과의 상관성을 이용하여 높은 정확도를 가지고 구축할 수 있다.
따라서, 텍스트 기반 기계학습 모델 학습 시에 신규 단어인 약어에 대한 OOV(out-of-vocabulary) 문제 즉, 다룰 수 있는 단어의 개수를 넘었을 때 자주 등장하지 않는 단어를 생략하는 문제를 해결할 수 있고, 이에 의해 녹취록의 추출요약시에 정답문인 상담 메모(의 약어)와 입력텍스트인 녹취록(의 원어)간의 단어 매칭에 정확도를 높여 요약문의 정확도를 향상할 수 있다.
또한, 고객이 챗봇으로 상담 시에 신규 단어인 약어를 입력했을 때, 챗봇이 약어를 기존 단어로 치환해서 의도를 정확하게 인식할 수 있다.
또한, 상담사의 약어 용어를 모르는 도메인 지식이 부족한 사람이 약어에 대해서 빠르게 인지할 수 있다.
또한, 본 발명은 정답 데이터셋이 없을 때 유용하다. 기존 베이지안 분류 방식과 달리 비지도학습 방법으로 정답 데이터셋을 구축할 필요가 없다.
또한, 자동으로 약어 사전을 구축할 수 있기 때문에 신규 키워드 생성시에 일일이 수동으로 사전을 구축하는 방식보다 효율적이고, 특히 상담 메모-녹취록과 같이 약어 포함 문서와 원어 포함 문서가 쌍으로 있을 때 본 발명을 적용하여 상담 메모 내의 약어에 대해 정확도 높은 약어 사전을 구축할 수 있다.
도 1은 본 발명의 예시적인 실시예에 따른 약어 사전 구축 장치의 구성도,
도 2는 상담 메모 및 대응하는 녹취록의 예시도,
도 3은 약어 및 대응하는 원어 후보의 예시도,
도 4는 약어 x와 원어 후보 y가 같은 콜에서 발생될 확률 P(x,y)과 각각 독립적으로 발생했을 때의 확률 P(x),P(y)에 대한 예시도,
도 5는 약어 사전에 구축되는 약어 및 대응하는 원어 쌍의 예시도,
도 6은 본 발명의 예시적인 실시예에 따른 약어 사전 구축 방법의 흐름도이다.
이하, 첨부도면을 참조하여 본 발명의 실시예에 대해 구체적으로 설명한다. 각 도면의 구성요소들에 참조부호를 부가함에 있어서 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 한다. 또한, 본 발명의 실시예에 대한 설명 시 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.
도 1은 본 발명의 예시적인 실시예에 따른 약어 사전 구축 장치의 구성도로, 동 도면에 도시된 바와 같이, 약어인식부(11), 원어후보추출부(13), 원어선정부(15), 약어사전구축부(17), 및 약어대상제외부(19)를 포함할 수 있다.
약어인식부(11)는 상담 메모에서 약어를 인식하기 위한 것으로, 예를 들어, 상담메모DB(11a)로부터 상담 메모를 입력받고, 입력된 상담 메모 내에 기 설정된 신규 단어가 있으면 해당 단어를 약어로 인식할 수 있다.
원어후보추출부(13)는 상담 메모와 대응하는 녹취록에서 약어인식부(11)를 통해 인식된 해당 약어의 음절이 일정 수 이상 포함된 하나 이상의 원어 후보를 추출하기 위한 것으로, 예를 들어, 약어인식부(11)로부터 인식된 약어를 입력받고 녹취록DB(13a)로부터 해당 녹취록을 입력받은 후, 해당 녹취록에서 해당 약어의 음절이 과반수 이상 포함된 모든 단어를 원어 후보로 추출할 수 있다.
도 2는 상담 메모 및 대응하는 녹취록의 예시도로, 동 예시도를 참조하면, 일 예로 약어인식부(11)는 콜 #001의 상담 메모에서 "데스A"를 약어로 인식하고 원어후보추출부(13)는 동일 콜 #001의 녹취록(또는 상담녹취데이터라 칭함)에서 "데이터스페셜A"를 원어 후보로 추출할 수 있으며, 다른 예로 약어인식부(11)는 콜 #002의 상담 메모에서 "인티"를 약어로 인식하고 원어후보추출부(13)는 동일 콜 #002의 녹취록에서 "인터넷과 티비"를 원어 후보로 추출할 수 있다.
즉, 본 발명의 예시적인 실시예에 따르면 고유명사 선정 후 약어 후보를 선정하는 기존 방식과 달리 상담 메모에서 약어를 선정한 후 이에 대응하는 녹취록에서 원어 후보를 선정할 수 있다.
또한, 도 3은 약어 및 대응하는 원어 후보의 예시도로, 동 예시도를 참조하면, 상담 메모에서 기 설정될 신규 단어 "데스"가 발견되었을 시에 이를 약어로 인식하고, 약어의 음절이 과반수 이상 포함된 모든 단어 예를 들어 "데스(Death)", "데스티네이션", "데이터스페셜", "데스스타" 등을 원어 후보로 선정할 수 있고, 이 때 원어 후보가 없을 경우 해당 신규 단어를 약어 대상에서 제외할 수 있다.
다시 도 1에서, 원어선정부(15)는 원어후보추출부(13)를 통해 선정/추출된 하나 이상의 원어 후보 중 하나를 약어인식부(11)를 통해 인식된 해당 약어와의 상관성을 기초로 원어로 선정하기 위한 것으로, 예를 들어, 약어와 원어 후보가 동일 상담 콜의 상담 메모와 녹취록에서 각각 독립적으로 발생할 확률과 동시에 발생할 확률을 기초로 해당하는 약어와 원어 후보 간의 상관성을 산출하고, 상관성이 가장 높은 하나의 원어 후보를 원어로 선정할 수 있다.
약어와 원어후보 간의 상관성은 PMI(Pointwise Mutual Information) 방식 또는 TF-IDF(Term Frequency - Inverse Document Frequency) 방식 등을 통해 산출할 수 있다.
PMI(Pointwise Mutual Information) 방식을 통한 약어와 원어후보 간의 상관성 점수 산출 과정은 다음과 같다.
도 4는 약어 x와 원어 후보 y가 같은 콜에서 발생될 확률 P(x,y)과 각각 독립적으로 발생했을 때의 확률 P(x),P(y)에 대한 예시도로, 하기 식 (1)을 통해 양 변수 x, y에 대한 PMI를 구하여 스코어를 계산한다.
식 (1)
Figure 112019126541519-pat00001
식 (1)에서 x, y는 각각의 단어 즉, 약어와 원어 후보를 가리킨다. 두 단어의 연관성을 구하는 것으로, 두 단어가 독립적으로 발생했다고 가정 했을 때의 동시 발생 확률을 비교하는 것이다.
PMI는 일반적으로 두 단어가 같은 문서에서 발생될 확률을 계산하나, 본 실시예에서는 약어는 상담메모에서, 원어는 녹취록에서의 독립적인 발생확률 p(x) 및 p(y)와 동일 콜에서 나타날 동시 발생 확률 p(x,y)를 기초로 식 (1)에서 PMI 값을 구하고 해당 PMI 값이 두 단어 간의 상관성 점수가 된다.
즉, 본 실시예에서는 약어와 원어 후보가 같은 콜에서 발생될 확률과 각각 독립적으로 발생했을 때의 확률을 이용하여 약어와 원어 후보의 상관성을 구한다. 이때 하나 이상의 원어 후보 중 상관성이 가장 높은 단어를 원어로 선정한다.
약어사전구축부(17)는 약어인식부(11)를 통해 인식된 약어와 원어선정부(15)를 통해 선정된 원어를 쌍으로 하는 약어사전을 구축하기 위한 것으로, 예를 들어, 도 5에 예시된 바와 같이, "연폰", "연:폰", 또는 "연;폰" 등의 약어를 "연락은 핸드폰으로 주세요"와 같은 원어와 쌍으로 저장하고, 약어 "인티"와 원어 "인터넷과 티비"의 쌍, 약어 "갤10"과 원어 "갤럭시S10"의 쌍, 약어 "기변"과 원어 "기기변경"의 쌍, 약어 "데스A"와 원어 "데이터스페셜A 요금제"의 쌍 등을 약어사전 DB에 저장하여 약어 사전을 구축할 수 있다.
한편, 약어대상제외부(19)는 원어후보추출부(13)에서 추출되는 원어 후보가 없을 경우 약어인식부(11)에서 인식된 해당 약어를 약어사전의 구축 대상에서 제외할 수 있다.
도 6은 본 발명의 예시적인 실시예에 따른 약어 사전 구축 방법의 흐름도로, 도 1의 장치에 적용되므로 해당 장치의 동작과 병행하여 설명한다.
먼저, 약어인식부(11)를 통해 상담 메모에서 약어를 인식하는데, 예를 들어, 기 설정된 신규 단어가 상담 메모에 있으면 해당 단어를 약어로 인식할 수 있다(S601).
이어, 원어후보추출부(13)는 상담 메모와 대응하는 녹취록 즉, 상담 메모와 동일 (상담) 콜의 해당 녹취록으로부터 단계 S601에서 인식된 해당 약어의 음절이 일정 수(일 예로, 과반수) 이상 포함된 모든 단어를 원어 후보로 추출한다(S604).
이어, 약어대상제외부(19)는 단계 S604에서 원어후보추출부(13)를 통해 추출된 원어 후보가 하나 이상 있는지 여부를 판단하고(S605), 단계 S605의 판단 결과 원어 후보가 하나도 없다고 판단되면 단계 S601에서 약어인식부(11)를 통해 인식된 해당 약어를 약어사전의 구축을 위한 대상에서 제외하고 종료토록 한다(S607).
이어, 단계 S605의 판단 결과 단계 S604에서 원어후보추출부(13)를 통해 추출된 원어 후보가 하나 이상 있을 경우,
원어선정부(15)는 추출된 하나 이상의 원어 후보 중 하나를 약어인식부(11)를 통해 인식된 해당 약어와의 상관성을 기초로 원어로 선정하되, 일 예로 약어와 원어 후보가 동일 상담 콜의 상담 메모와 녹취록에서 각각 독립적으로 발생할 확률과 동시에 발생할 확률을 기초로 해당하는 약어와 각 원어 후보 간의 상관성 점수를 계산하고(S609), 단계 S609의 상관성 점수 계산 결과를 기초로 하나 이상의 원어 후보를 순위화 한 후, 순위화 결과 상관성 점수가 가장 높은 최상 순위의 하나의 원어 후보를 원어로 선정한다(S611).
예를 들어, 단계 S609에서 약어와 원어후보 간의 상관성 점수는 PMI(Pointwise Mutual Information) 방식 또는 TF-IDF(Term Frequency - Inverse Document Frequency) 방식 등을 통해 산출할 수 있고, 일 예로 PMI(Pointwise Mutual Information) 방식을 통한 약어와 원어후보 간의 상관성 점수 산출 과정은 전술한 바와 같다.
마지막으로, 약어사전구축부(17)는 단계 S601에서 약어인식부(11)를 통해 인식된 약어와 단계 S611에서 원어선정부(15)를 통해 선정된 원어를 쌍으로 하는 약어-원어 쌍을 선별하고(S613), 선별된 약어-원어 쌍을 약어사전DB에 저장하여 약어 사전을 구축한다(S615).
전술한 본 발명의 예시적인 실시예에 따르면, 상담 메모와 같은 약어 포함 문서 내의 약어에 특화된 약어 사전을 상담 메모에 대응하는 녹취록과 같은 원어 포함 문서와의 상관성을 이용하여 높은 정확도를 가지고 구축할 수 있고, 특히 상담 메모-녹취록과 같이 약어 포함 문서와 원어 포함 문서가 쌍으로 있을 때 본 발명을 적용하여 상담 메모 내의 약어에 대해 정확도 높은 약어 사전을 구축할 수 있다.
본 발명에서 전반적으로 사용되는 "상담 메모"는 약어 포함 문서를 예시한 것이고, "녹취록"은 약어 포함 문서에 대응하는 원어 포함 문서를 예시하는 것으로, "상담 메모"와 "녹취록"은 그 자체에 한정되지 않고 "약어 포함 문서"와 "원어 포함 문서"로 해석되어야 한다.
한편, 전술한 약어 사전 구축 방법에 따르면 해당 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체를 구현할 수 있다.
또 한편, 전술한 약어 사전 구축 방법에 따르면 해당 방법을 하드웨어와 결합하여 실행시키기 위하여 컴퓨터로 읽을 수 있는 기록 매체에 저장된 애플리케이션을 구현할 수 있다.
또 다른 한편, 전술한 약어 사전 구축 방법에 따르면 해당 방법을 컴퓨터에서 실행시키기 위하여 컴퓨터로 읽을 수 있는 기록 매체에 저장된 컴퓨터 프로그램을 구현할 수 있다.
예를 들어, 전술한 바와 같이 본 발명의 예시적인 실시예에 따른 약어 사전 구축 방법은 다양한 컴퓨터로 구현되는 동작을 수행하기 위한 프로그램 명령을 포함하는 컴퓨터 판독가능 기록 매체 또는 이러한 기록 매체에 저장된 애플리케이션으로 구현될 수 있다. 상기 컴퓨터 판독 가능 기록 매체는 프로그램 명령, 로컬 데이터 파일, 로컬 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 기록 매체는 본 발명의 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD와 같은 광기록 매체, 플롭티컬 디스크와 같은 자기-광 매체, 및 롬, 램, 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함할 수 있다.
이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 발명에 개시된 실시예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.
11: 약어인식부
13: 원어후보추출부
15: 원어선정부
17: 약어사전구축부
19: 약어대상제외부

Claims (13)

  1. 상담 메모에서 약어를 인식하기 위한 약어인식부;
    상기 상담 메모와 대응하는 녹취록에서 상기 인식된 약어의 음절이 일정 수 이상 포함된 하나 이상의 원어 후보를 추출하기 위한 원어후보추출부;
    상기 추출된 하나 이상의 원어 후보 중 하나를 상기 인식된 약어와의 상관성을 기초로 원어로 선정하기 위한 원어선정부; 및
    상기 인식된 약어와 상기 선정된 원어를 쌍으로 하는 약어사전을 구축하기 위한 약어사전구축부;
    를 포함하는 약어 사전 구축 장치.
  2. 제1항에 있어서,
    상기 원어후보추출부에서 추출되는 원어 후보가 없을 경우 상기 약어인식부에서 인식된 해당 약어를 약어사전의 구축 대상에서 제외하기 위한 약어대상제외부를 더 포함하는 것을 특징으로 하는 약어 사전 구축 장치.
  3. 제1항에 있어서,
    상기 원어선정부는 약어와 원어 후보가 동일 상담 콜의 상담 메모와 녹취록에서 각각 독립적으로 발생할 확률과 동시에 발생할 확률을 기초로 해당하는 약어와 원어 후보 간의 상관성을 산출하고, 상관성이 가장 높은 하나의 원어 후보를 원어로 선정하는 것을 특징으로 하는 약어 사전 구축 장치.
  4. 제3항에 있어서,
    상기 상관성은 PMI(Pointwise Mutual Information) 방식을 통해 산출하는 것을 특징으로 하는 약어 사전 구축 장치.
  5. 제1항에 있어서,
    상기 약어인식부는 기 설정된 신규 단어를 약어로 인식하는 것을 특징으로 하는 약어 사전 구축 장치.
  6. 약어 사전 구축 장치에서 수행하는 약어 사전 구축 방법으로서,
    (a) 상담 메모에서 약어를 인식하는 단계;
    (b) 상기 상담 메모와 대응하는 녹취록에서 상기 인식된 약어의 음절이 일정 수 이상 포함된 하나 이상의 원어 후보를 추출하는 단계;
    (c) 상기 추출된 하나 이상의 원어 후보 중 하나를 상기 인식된 약어와의 상관성을 기초로 원어로 선정하기 위한 단계; 및
    (d) 상기 인식된 약어와 상기 선정된 원어를 쌍으로 하는 약어사전을 구축하는 단계;
    를 포함하는 약어 사전 구축 방법.
  7. 제6항에 있어서,
    상기 단계 (b)에서 추출되는 원어 후보가 없을 경우 상기 단계 (a)에서 인식된 해당 약어를 약어사전의 구축 대상에서 제외하기 위한 단계를 더 포함하는 것을 특징으로 하는 약어 사전 구축 방법.
  8. 제6항에 있어서,
    상기 단계 (c)는 약어와 원어 후보가 동일 상담 콜의 상담 메모와 녹취록에서 각각 독립적으로 발생할 확률과 동시에 발생할 확률을 기초로 해당하는 약어와 원어 후보 간의 상관성을 산출하고, 상관성이 가장 높은 하나의 원어 후보를 원어로 선정하는 것을 특징으로 하는 약어 사전 구축 방법.
  9. 제6항에 있어서,
    상기 상관성은 PMI(Pointwise Mutual Information) 방식을 통해 산출하는 것을 특징으로 하는 약어 사전 구축 방법.
  10. 제6항에 있어서,
    상기 단계 (a)는 기 설정된 신규 단어를 약어로 인식하는 것을 특징으로 하는 약어 사전 구축 방법.
  11. 제6항 내지 제10항 중 어느 한 항의 상기 약어 사전 구축 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체.
  12. 제6항 내지 제10항 중 어느 한 항의 상기 약어 사전 구축 방법을 하드웨어와 결합하여 실행시키기 위하여 컴퓨터로 읽을 수 있는 기록 매체에 저장된 애플리케이션.
  13. 제6항 내지 제10항 중 어느 한 항의 상기 약어 사전 구축 방법을 컴퓨터에서 실행시키기 위하여 컴퓨터로 읽을 수 있는 기록 매체에 저장된 컴퓨터 프로그램.
KR1020190162003A 2019-12-06 2019-12-06 약어 사전 구축 장치 및 방법 KR102500106B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190162003A KR102500106B1 (ko) 2019-12-06 2019-12-06 약어 사전 구축 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190162003A KR102500106B1 (ko) 2019-12-06 2019-12-06 약어 사전 구축 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20210071628A KR20210071628A (ko) 2021-06-16
KR102500106B1 true KR102500106B1 (ko) 2023-02-16

Family

ID=76602961

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190162003A KR102500106B1 (ko) 2019-12-06 2019-12-06 약어 사전 구축 장치 및 방법

Country Status (1)

Country Link
KR (1) KR102500106B1 (ko)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011227749A (ja) * 2010-04-21 2011-11-10 Nippon Telegr & Teleph Corp <Ntt> 略語完全語復元装置とその方法と、プログラム
JP2018055491A (ja) 2016-09-29 2018-04-05 富士通株式会社 言語処理装置、言語処理方法、及び言語処理プログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100837797B1 (ko) * 2006-09-22 2008-06-13 고려대학교 산학협력단 약어 생성 유형을 고려하는 약어 사전 자동 구축 방법, 그기록 매체 및 약어 생성 유형을 고려하는 약어 사전 자동구축 장치
KR20110061229A (ko) 2009-12-01 2011-06-09 한국전자통신연구원 약어사전 구축 시스템 및 이를 이용한 약어사전 구축 방법
KR20160061448A (ko) * 2014-11-20 2016-06-01 한국전자통신연구원 원시 말뭉치로부터 미등록 단어를 추출하는 방법

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011227749A (ja) * 2010-04-21 2011-11-10 Nippon Telegr & Teleph Corp <Ntt> 略語完全語復元装置とその方法と、プログラム
JP2018055491A (ja) 2016-09-29 2018-04-05 富士通株式会社 言語処理装置、言語処理方法、及び言語処理プログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
윤여창 외 3명, ‘약어 생성 유형을 고려한 한국어 약어 사전 자동 구축’, 한국인지과학회 2006년도 춘계학술대회, 2006.06., pp.81 - 85. 1부.*

Also Published As

Publication number Publication date
KR20210071628A (ko) 2021-06-16

Similar Documents

Publication Publication Date Title
US11455542B2 (en) Text processing method and device based on ambiguous entity words
US10176804B2 (en) Analyzing textual data
CN109887497B (zh) 语音识别的建模方法、装置及设备
JP5599662B2 (ja) 統計的な方法を用いて漢字を自国語の発音列に変換するシステムおよび方法
Xue et al. Normalizing microtext
CN110033760B (zh) 语音识别的建模方法、装置及设备
Schuster et al. Japanese and korean voice search
CN110427618B (zh) 对抗样本生成方法、介质、装置和计算设备
CN108140019B (zh) 语言模型生成装置、语言模型生成方法以及记录介质
CN107229627B (zh) 一种文本处理方法、装置及计算设备
CN112287680B (zh) 一种问诊信息的实体抽取方法、装置、设备及存储介质
CN111737979B (zh) 语音文本的关键词修正方法、装置、修正设备及存储介质
Li et al. Improving text normalization using character-blocks based models and system combination
CN111881297A (zh) 语音识别文本的校正方法及装置
CN112784009A (zh) 一种主题词挖掘方法、装置、电子设备及存储介质
US10120843B2 (en) Generation of parsable data for deep parsing
EP3944234A1 (en) Method for processing a video file comprising audio content and visual content comprising text content
US8135573B2 (en) Apparatus, method, and computer program product for creating data for learning word translation
CN110956043A (zh) 基于别名标准化的领域专业词汇词嵌入向量训练方法、系统及介质
KR102500106B1 (ko) 약어 사전 구축 장치 및 방법
US20220270589A1 (en) Information processing device, information processing method, and computer program product
KR20200074624A (ko) 도메인 기반의 음성 인식 모델의 최적화가 가능한 음성 인식 장치 및 그 동작 방법
JP6545633B2 (ja) 単語スコア計算装置、単語スコア計算方法及びプログラム
JP6486789B2 (ja) 音声認識装置、音声認識方法、プログラム
Qafmolla Automatic language identification

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right