KR101130444B1 - 기계번역기법을 이용한 유사문장 식별 시스템 - Google Patents

기계번역기법을 이용한 유사문장 식별 시스템 Download PDF

Info

Publication number
KR101130444B1
KR101130444B1 KR1020040086343A KR20040086343A KR101130444B1 KR 101130444 B1 KR101130444 B1 KR 101130444B1 KR 1020040086343 A KR1020040086343 A KR 1020040086343A KR 20040086343 A KR20040086343 A KR 20040086343A KR 101130444 B1 KR101130444 B1 KR 101130444B1
Authority
KR
South Korea
Prior art keywords
delete delete
text
text segments
sentences
sentence
Prior art date
Application number
KR1020040086343A
Other languages
English (en)
Other versions
KR20050045822A (ko
Inventor
크리스토퍼 비. ?
브로켓크리스토퍼제이.
돌란윌리암비.
Original Assignee
마이크로소프트 코포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 마이크로소프트 코포레이션 filed Critical 마이크로소프트 코포레이션
Publication of KR20050045822A publication Critical patent/KR20050045822A/ko
Application granted granted Critical
Publication of KR101130444B1 publication Critical patent/KR101130444B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/44Statistical methods, e.g. probability models
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing

Abstract

본 발명은 동일 사건에 대하여 작성된 다른 기사들의 클러스터로부터 텍스트 분절들의 세트를 획득한다. 텍스트 분절들의 세트는 그 후 텍스트 정렬기법을 수행하여 텍스트 내의 텍스트 분절로부터 유사문장들을 식별하도록 된다. 또한, 본 발명은 유사문장을 생성하는데 사용될 수 있다.
자연언어 처리, 발견적 방법, 클러스터링, 통계적 정렬, 데이터베이스

Description

기계번역기법을 이용한 유사문장 식별 시스템{SYSTEM FOR IDENTIFYING PARAPHRASES USING MACHINE TRANSLATION TECHNIQUES}
도 1은 본 발명이 사용될 수 있는 환경의 일실시예를 나타낸 블록도.
도 2a는 본 발명의 일실시예에 따른 유사문장 인식 및 생성 시스템을 나타낸 블록도.
도 2b는 트레이닝용으로 텍스트 분절들의 유사문장화된 셋트들을 선택하기 위하여 유사문장 인식 콤포넌트를 사용하는 것을 나타낸 도면.
도 3은 도2에 도시된 시스템의 동작을 나타낸 흐름도.
도 4는 본 발명의 일실시예에 따른 두 개의 문장들로 된 페어들 사이의 정렬을 나타낸 도면.
본 발명은 텍스트에서 유사문장을 식별하는 것에 관한 것으로서, 특히 기계번역기법을 사용하여 유사문장들을 식별하고 생성하는 것에 관한 것이다.
유사문장들의 인식 및 생성은 자연언어 처리시스템의 수많은 적용예들에 있어서의 중요한 단면이다. 텍스트의 두 개의 다른 부분들이 의미에 있어서 동등한 것을 식별할 수 있다는 것은, 시스템으로 하여금 더욱 인텔리전트하게 동작하도록 한다. 이러한 분야의 작업에 있어서의 기초적인 목적은, 어휘, 단어순서, 판독레벨, 및 간결도와 같은 특성을 조절하면서, 그 의미론적인 내용을 보전함과 아울러, 텍스트의 한 부분을 재해석할 수 있는 프로그램을 만들어내는 것이다.
유사문장의 식별 및 생성의 장점을 이용한 한 적용예로서, 질의답변(Question Answering) 시스템을 들 수 있다. 예컨대, "Jone Doe는 언제 이 일을 마쳤는가?"라는 질문(여기서, 개체 Jone Doe는 유명인)을 생각해 볼 때, 글로벌 컴퓨터 네트워크(또는, 글로벌 컴퓨터 네트워크상에 기사들을 발행하는 뉴스 리포트 시스템) 등의 큰 데이터의 총체(data corpus)에는, 이미 그 질문에 답하는 텍스트를 포함하고 있을 수도 있다. 사실상, 그러한 데이터 총체는 이미 그 질문에 답하는 텍스트를 포함하고 있을 수 있으며, 그 질문과 정확하게 동일한 용어로 구성되어 있을 수 있다. 그러므로, 종래의 검색엔진은 그 질문과 매칭되는 텍스트를 검색하여, 적당한 결과를 되돌려 줌에 있어서 아무런 애로사항이 없을 수도 있다.
그러나, 이러한 애로사항은, 인트라넷과 같은 더 작은 데이터 총체에서 검색을 하는 경우에는 더 큰 문제가 될 수 있다. 그러한 경우, 작은 데이터총체가 질문에 답하는 텍스트를 포함할 지라도, 답변은 질문과 다른 용어로 구성될 수 있는 것이다. 예를 들어, 다음 문장들은 전술한 질의에 답하는 모든 문장들이지만, 질의와 다른 용어들로 구성되어 있다.
Jone Doe는 어제 사임하였다.
Jone Doe는 어제 자신의 직위를 떠났다.
Jone Doe는 어제 공영 우체국을 떠났다.
Jone Doe는 어제 은퇴하였다.
어제, Jone Doe는 새로운 직업탐험에 도전하기로 결심하였다.
이러한 답변들은 질문과는 다르게 표현되어 있으므로, 검색중인 데이터 총체내의 텍스트적인 답변들만이 주어지는 경우, 종래의 검색엔진이 양호한 결과를 가져오는데는 애로사항이 있기 마련이다.
유사문장들의 인식과 생성에 문제점들을 안고 있는 종래 시스템에서, 제한된 콘텍스트(context)내의 문제점을 해결하고자 수기 코드화(hand-coded)하는데는 큰 노력이 든다. 예컨대, 큰 수기 코드 시스템들에서는, 동일한 것들을 일컫는 다양한 다른 방법들과 명령 및 제어시스템에 적합한 형태 사이의 맵핑을 하려고 한다. 물론, 이것은, 코드의 작성자가 사용자가 문장을 구성할수 있는 각각의 다른 방법들을 생각해낼 수 없을 것이므로, 매우 어려운 것이다. 따라서, 연구 커뮤니티의 포커스는 수작업에서 유사문장을 식별하고 생성하는 자동적인 방법으로 옮겨가게 되었다.
텍스트화된 유사문장 관계를 자동적으로 식별하기 위한 시스템에 대한 최근의 연구로서, 「D. Lin and P. Pantel, "DIRT-DISCOVERY OF INFERENCE RULES FROM TEXT", Proceedings of ACMSIGKDD Conference on Knowledge Discovery and Data Mining, page 323-328 (2001)」가 있다. DIRT 논문에서는, 뉴스와이어 데이터의 파싱(parsing)된 데이터 총체내에서 동일한 "앵커포인트(anchor point)"(즉, 동일 유사한 단어)들을 연결짓는 의존관계 경로(dependency path)의 분포특성을 조사한 다. 파싱된 총체(corpus)는 단지 대량의 단일언어로 이루어진 데이터 소스로 볼 수 있기 때문에, 새로운 데이터의 특성들이 전혀 이용될 수 없다. 기본적인 아이디어는, 동일 또는 유사한 단어들을 연결짓는 높은 빈도의 의존관계 그래프 경로들이 그 의미에 있어서 유사할 것이라는 점이다. 기가바이트(Giga byte)의 신문 데이터에 대하여 수행하는 경우, 다음과 같은 패턴들을 시스템이 식별하였다.
X is resolved by Y.
X resolves Y.
X finds a solution to Y.
X tries to solve Y.
DIRT 시스템에서는, "X 동사 Y"와 같은 "삼중 관계(triple)"의 한정된 소팅(sorting)에 제한되었다.
유사문장 식별에 대한 또 다른 논문으로서, 「Y. Shinyama, S. Sekine, K. Sudo and R. Grisham, "AUTOMATIC PARAPHRASE ACQUISITION FROM NEWS ARTICLES", Proceedings of Human Language Technology Conference, San Diego, CA (HLT 2002)」가 있다. Shinyama 등의 논문에서는, 동일한 사건에 대하여 설명하는 다른 신문들로부터 기사들이 종종 유사문장 관계를 예시한다는 점에 주목한다. 상기 논문에서는, 명기된 개체들(예컨대, 사람, 장소, 날짜, 및 주소)이 동일한 토픽 또는 동일한 날의 다른 신문기사들에 대하여 동일하게 유지되고 있다는 가정에 의존하는 기술을 설명하고 있다. 예컨대, "살인" 또는 "직원"의 그룹핑 또는 클러스터들로, 기사들이 기존 정보처리시스템을 사용하여 클러스터링(clustering) 된다. 통계적인 태그수단(statistical tagger)을 사용하여 명기된 개체들에 대한 주석이 추가된 후, 형태론적 및 구문론적인 분석이 이루어져, 구문상의 의존관계 트리(dependency tree)가 생성된다. 각 클러스터 내에서, 포함하고 있는 명기된 개체들에 기초하여 문장들이 클러스터링된다. 예컨대, 동일한 네 개의 이름의 개체들이 공유되기 때문에, 이하의 문장들이 클러스터링 된다.
Vice President Osamu Kuroda of Nihon Yamamuri Glass Corp. was promoted to President.
Nihon Yamamuri Glass Corp. decided the promotion of Vice President Osamu Kuroda to President on Monday.
명기된 개체들내에서 중첩이 이루어지므로, 이러한 문장들은 유사문장 관계에 의해 연결지워진다고 가정된다. Shinyama 등의 논문에서는, 그 후, 정보추출 분야의 기존의 기계장치를 사용하여 이러한 문장들을 연결짓는 패턴들을 식별하고자 한다.
또한, Shinyama 등의 논문에서는, 매우 간단한 어구 수준의 패턴들을 파악하고자 하였지만, 명기된 개체들의 앵커포인트들에 대한 자신의 의존성에만 기술이 제한되었다. 이러한 쉽게 식별되는 앵커들이 없이는, Shinyama 등의 논문에서는 한 쌍의 문장으로부터 아무것도 파악할 수 없는 것이다. Shinyama 등이 파악한 패턴들은 모두 특정 유형의 개체와 특정 도메인 내의 어떤한 유형의 사건 사이의 관계에 중심을 둔다. 이러한 결과들은 매우 미흡한 것으로서, 트레이닝된(training) 문장들이 매우 적은 명기된 개체들을 포함하는 경우, 특히 그러하다.
또한, 유사문장에 대한 또 다른 논문으로서, 「Barzilay R. and L. Lee, "LEARNING TO PARAPHRASE: AN UNSUPERVISED APPROACH USING MULTIPLE-SEQUENCE ALIGNMENT", Proceedings of HLT/NAACL: (2003), Edmonton, Canada」에서는, 단일 소스로부터, 및 몇 년간의 데이터로부터, 어간이 유사한 신문 기사들을 클러스터링 하는데 토픽 검출 소프트웨어가 사용된다. 더 자세하게는, Barzilary 등의 논문에서는, 테러리스트 사건들을 다룬 기사들을 식별하고자 하였다. 그 후, 기본적인 전체 형식을 공유하거나, 또는 복수의 키워드들을 공유하는 문장들을 찾기 위해, 이러한 기사들로부터 문장들을 클러스터링하였다. 이러한 클러스터들은, 특정의 대입 성분들을 허용하는 문장들의 형판모델(templatic model)을 설정하는 기초로 사용된다. 요약하면, Barzilay 등의 논문에서는, 다른 사건들, 특히 몇 년 떨어져 발생한 사건들일지라도, 이들에 대한 유사한 설명들을 검색하는데 포커스를 두었다. 또한, 서식수단(form means)에 의해 문장들을 그룹화하는데 포커스를 두는 것으로, 이러한 기술은 더욱 재미있는 어떤 유사문장들은 검색할 수 없게 된다.
또한, Barzilay 및 Lee의 논문에서는, 두 문장을 유사한 것으로 분류하기 위해서, 높은 단어순서 유사도를 요구하고 있다. 예컨대, 한 사건의 설명의 능동형/수동형의 변형예 조차 관련되는 것으로 분류하지 않을 수 있다. Barzilay 등의 논문에서 파악되는 형판 유사문장 관계는, 전체적으로 고정된 단어순서를 공유하는 일련의 문장들로부터 유도된다. 또한, 시스템에 의해 파악되는 유사문장들은 이러한 더욱 큰 고정된 구조내에서 유동성을 갖는 영역에 상당한다. Barzilay 및 Lee의 논문은 생성 구조를 제안하는 논문중에서 독보적으로 보인다는 것에 주목한다. 본 단원에서 논의되는 다른 작업은 유사문단의 인식만을 목적으로 한다.
Barzilay 및 McKeown 의 또 다른 논문, "Extracting Paraphrases From a Parallel Corpus, Proceedings of ACL/EACL(2001)" 은, 단일 소스 문서의 다중 번역기법(Multiple Translation)에 의존한다. 그러나, Barzilay 및 McKeown 은 특히 자신들의 작업을 기계번역기법과 구분지었다. 그들은 이르기를, 관련 문장들내의 단어들간의 완벽한 매칭없이는, 누구도 "명확한 병렬 총체(clean parallel corpora)에 기초하여 MT 커뮤니티에서 개발된 방법"을 사용할 수 없다고 하였다. 따라서, BArzilay 및 McKeown은 표준 기계번역 기법이 단일언어 유사문장의 학습에 적용될 수 있음을 거부하였다.
또 다른 종래 기술의 시스템이 유사문장을 취급하였다. 이 시스템은, 유사문장 관계의 유한상태 표현을 구축하기 위해, 단일 소스의 다중 유사문장에 의존한다. 「B. Pang, K. Knight, and D. Marcu, SYNTAX BASED ALIGNMENT OF MULTIPLE TRANSLATION: EXTRACTING PARAPHRASES AND GENERATING NEW SENTENCES, Proceedings of NAACL-HLT, 2003」를 참조바란다.
또 다른 종래 기술의 참조문헌은 유사문장 인식을 취급하였다. 「Ibrahim, Ali, "EXTRACTING PARAPHRASES FROM ALIGNED CORPORA, Master Thesis, MIT (2002), HTTP://www.ai.mit.edu/people/jimmylin/papers/ibrahim02.pdf」. 그의 논문에서, Ibrahim은 문장들은 "정렬되거나" 또는, "정렬화"에 해당하게 되고, 유사문장들이 식별되는 것을 나타내었다. 그러나, 이 이론에서 사용된 바와 같이, "정렬화(Alignment)"라는 용어는, 단어 또는 어구 정렬이라기 보다는 문장정렬을 의미하며, 종래의 기계번역시스템에서 수행되는 단어 및 어구 정렬을 의미하지는 않는다. 그 대신, 이 이론에서 논의되는 정렬은, 문장들을 단일 언어에 각자의 해당 번역문들로 정렬하고자 하는, 이하의 논문에 기초한다.
「GAle, William, A. and Church, Kenneth W., "A PROGRAM FOR ALIGNING SENTENCES IN BILINGUAL CORPORA", Proceedings of the Associations for Computational Linguistics, Pages 177-184 (1991)」. Ibrahim은, 예컨대, Jules Verne 소설의 다중의 영어 번역문내에 문장들을 정렬하는데 본 알고리즘을 사용하였다. 그러나, 문장구조는 번역문 마다 상당히 변할 수 있는 것이다. 한 변역자가 하나의 긴 문장으로 표현한 것을 다른 번역자가 두 개의 짧은 문장들로 맵핑시킬 수도 있는 것이다. 이는 한 소설의 다른 변역문들내의 전체 문장들의 수는 일치하지 않으며, 어떤 종류의 자동화 문장정렬 절차가 동일한 문장들을 식별하는데 필요함을 의미한다. 이러한 정렬된 단일언어 문장들로부터 유사문장들을 추출하기 위해 Ibrahim이 사용한 전체 기법은, Barzilay, McKeown 의 참조문헌과, Lin 등에 의해 기술된 DIRT 프레임워크 변형에 더하여 전술한, 다중-번역 개념으로부터 도출된다.
본 발명은, 공통 사건에 대하여 쓰여진 복수의 다른 기사들(한 클러스터의 기사들)로부터 텍스트 분절들의 세트를 획득한다. 그 후, 상기 셋트내의 텍스트 분절들은 단어/어구 정렬기법이 수행되어 유사문장을 식별하게 된다. 텍스트 분절 페어들로부터 유사문장들을 생성하는데 디코더가 사용될 수 있다.
일실시예에서, 텍스트 분절들의 세트의 소스들은 매우 근접한 기간내의 동일한 사건에 대하여 작성된 다른 기사들이다. 예컨대, 텍스트 분절들은 그러한 기사들로부터 추출된 특정한 문장들일 수 있다. 예컨대, 동일한 사건에 대하여 거의 동일한 시간에 작성된 뉴스 기사들의 처음 두 문장들은, 때로는 매우 유사한 정보를 담고 있다. 따라서, 일실시예에서, 동일한 사건에 대하여 거의 같은 시간에 작성된 복수의 다른 기사들중 처음 두 문장들은 함께 클러스터링 되어, 문장 셋트들의 소스로서 사용된다. 물론, 비교적 큰 수의 기사들이 다양한 다른 사건들에 대하여 작성되는 경우, 및 각 클러스터가 동일한 사건에 대하여 쓰여진 한 그룹의 기사들을 포함하는 경우, 복수의 기사들의 클러스터들이 형성될 수 있다.
일실시예에서, 그 후, 기사들의 클러스터로부터 유도된 주어진 텍스트 분절의 세트내의 텍스트 분절들이 그 세트내의 다른 텍스트 분절들과 쌍을 이루고, 입력으로서 주어진 쌍을 이룬 텍스트 분절들의 유사문장들을 식별하는데 단어/어구 정렬기법(또는 기계번역 기법)이 사용된다. 일반적으로, 단어/어구 정렬시스템은 다른 언어들의 텍스트 분절들상에서 동작하는 반면, 본 발명의 일실시예에 따르면, 공통의 언어의 텍스트 분절들상에서 정렬시스템이 동작한다. 간단하게, 텍스트 분절들은 동일한 것을 말하는 다른 방법들로 보여진다.
일실시예에서, 텍스트 분절 세트들은 발견적(heuristic) 기법 또는 기타 필터링 기법을 사용하여 필터링 될 수 있다. 또 다른 실시예에서, 단어/어구 정렬시스템내에서 유사문장을 식별하기 위해 생성되는 모델들은 또한 이어지는 트레이닝(training) 데이터내에서 유사문장을 식별하는데 사용된다.
본 발명의 또 다른 실시예에 따르면, 정렬시스템에 의해 출력되는 주어진 유사문장들이 주어진 모델들을 생성하기 위하여 디코딩 알고리즘이 사용된다.
본 발명은, 단어/어구 정렬 기법을 사용하여 유사문장 관계들을 식별하고 잠재적으로 생성하는 것을 다룬 것이다. 그러나, 본 발명을 더욱 자세하게 논의하기 전에, 본 발명이 사용될 수 있는 예시적인 환경에 대하여 논의한다.
도 1은, 본 발명이 구현될 수 있는, 적합한 컴퓨팅 시스템 환경(100)의 일례를 나타낸다. 컴퓨팅 시스템 환경(100)은, 적합한 컴퓨팅 환경의 일례일 뿐, 본 발명의 사용범위 또는 이용가능성을 제한하고자 한 것은 아니다. 컴퓨팅 환경(100)은, 일실시예의 동작 환경(100)에 도시된 콤포넌트(component)들중 어느 하나 또는 그 조합에 관한 의존관계(dependency)나 요구사항(requirement)을 가지는 것으로 해석되어서는 않된다.
본 발명은, 수 많은 기타의 범용 또는 특수용 컴퓨팅 시스템 환경 또는 구성들로 동작가능하다. 본 발명에 사용하기에 적합한, 공지된 컴퓨팅 시스템들, 환경들, 및/또는 구성들의 예들로는, 이에 제한되지 않지만, 퍼스널 컴퓨터, 서버 컴퓨터, 핸드-헬드 또는 랩톱 장비, 멀티프로세서 시스템, 마이크로프로세서 기반의 시스템들, 셋톱 박스, 프로그래머블 사용자 전자기기, 네트워크 PC, 마이크로컴퓨터, 메인프레임 컴퓨터, 상기 시스템 또는 장치들중 어느 것이라도 포함하는 분산형 컴퓨팅 환경 등을 포함한다.
본 발명은, 컴퓨터에 의해 실행되는, 프로그램 모듈과 같은 컴퓨터-실행가능 명령어들의 범용 콘텍스트로 설명될 수 있다. 일반적으로, 프로그램 모듈로는, 특정 작업을 수행하거나, 특정한 추상적 데이터 형태를 구현하는, 루틴, 프로그램, 오브젝트들, 콤포넌트, 데이터 구조, 등을 포함한다. 또한, 본 발명은, 통신 네트워크를 통해 링크되는, 리모트처리장치들에 의해 작업이 수행되는, 분산형 컴퓨팅 환경에서 구현될 수도 있다. 분산형 컴퓨팅 환경에서는, 메모리 저장장치들을 포함하는 리모트 컴퓨터 저장매체 및 로컬 컴퓨터 저장장매체 모두에, 프로그램 모듈들이 위치될 수 있다.
도 1을 참조하면, 본 발명을 구현하기 위한 일실시예의 시스템은, 컴퓨터(110) 형태의 범용 컴퓨팅 장치를 포함한다. 컴퓨터(110)의 콤포넌트들로는, 이에 제한되지는 않지만, 처리장치(120), 시스템 메모리(130), 및 시스템 메모리를 포함하는 다양한 시스템 콤포넌트들을 처리장치(120)에 접속시키기는 시스템 버스(121)를 포함한다. 시스템 버스(121)는, 메모리 버스 또는 메모리 컨트롤러, 주변장치 버스, 임의의 다양한 버스 아키텍처를 사용한 로컬 버스를 포함하는 다양한 형태의 버스 구조들중 임의의 것일 수 있다. 일례로서, 이에 제한되지는 않지만, 이러한 구조들로는, ISA(Industry Standard Architecture) 버스, MCA(Micro Channel Architecture) 버스, EISA(Enhanced ISA) 버스, VESA(Video Electronics Strandards Association) 로컬 버스, 및 Mezzanine 버스로 알려진 PCI(Peripheral Component Interconnect) 버스를 포함한다.
일반적으로, 컴퓨터(110)는 다양한 컴퓨터 판독가능 매체를 포함한다. 컴퓨터 판독가능 매체는 컴퓨터(110)에 의해 액세스가 가능한 임의의 이용가능한 매체 일 수 있으며, 휘발성 및 비휘발성 매체 모두를 포함한다. 일례로서, 이에 제한되지는 않지만, 컴퓨터 판독가능 매체는 컴퓨터 저장매체 및 통신매체를 포함할 수 있다. 컴퓨터 저장매체로는, 컴퓨터 판독가능 명령, 데이터 구조, 프로그램 모듈, 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된, 휘발성 및 비휘발성, 그리고 소거가능 및 소거불가능 매체 모두를 포함한다. 컴퓨터 저장매체로는, 이에 제한되지 않지만, RAM, ROM, EEPROM, 플래시 메모리 또는 기타 메모리 기술, CD-ROM, DVD, 또는 기타 광학 디스크 저장장치, 자기 카셋트, 자기 테이프, 자기 디스크 저장장치 또는 기타 자기 저장장치, 또는 원하는 정보를 저장하는데 사용될 수 있는, 컴퓨터(100)에 의해 액세스 될 수 있는, 임의의 기타 매체를 포함한다. 일반적으로, 통신매체는, 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈, 또는 기타 데이터를, 캐리어 웨이브 또는 기타 전송매체와 같은 변조된 데이터 신호내에서 구현하며, 임의의 정보전달매체를 포함한다. "변조된 데이터신호"라는 용어는, 신호내의 정보를 인코딩하도록 설정 또는 변경되는 하나 이상의 특성들을 갖는 신호를 의미한다. 일례로서, 이에 제한되지는 않지만, 통신 매체는 유선 네트워크 또는 직접식-유선(direct-wired) 네트워크와 같은 유선 매체, 및 어쿠스틱, FR, 적외선, 기타 무선매체와 같은 무선 매체를 포함한다. 전술한 것들의 어떤 것이라도 조합되어 컴퓨터 판독가능 매체의 범주내에 또한 포함될 수 있다.
시스템 메모리(130)는, ROM(131) 및 RAM(132)과 같은 휘발성 및/또는 비휘발성 메모리의 형태의 컴퓨터 저장매체를 포함한다. 시동 루틴과 같은, 컴퓨터(110) 내의 콤포넌트들간의 정보 교환을 돕는 기본적인 루틴들을 포함하는, BIOS(133)는 일반적으로 ROM(131)에 저장된다. RAM(132)은 일반적으로 처리장치(120)에 의해 즉치로 액세스 되거나, 및/또는 현재 동작되고 있는, 데이터 및/또는 프로그램 모듈들을 포함한다. 일례로서, 이에 제한되지 않지만, 도 1은 운영시스템(134), 어플리케이션 프로그램(135), 기타 프로그램 모듈(136), 및 프로그램 데이터(137)를 나타낸다.
또한, 컴퓨터(110)는 기타의 소거가능/소거불가능, 휘발성/비휘발성 컴퓨터 저장매체를 포함할 수 있다. 예컨대, 도 1은, 소거불가능, 비휘발성 자성 매체로 판독 또는 기입하는 하드디스크 드라이브(141), 소거가능, 비휘발성 자성 디스크(152)로 판독 또는 기입하는 자기디스크 드라이브(151), CD-ROM, 또는 기타 광학매체와 같은, 소거가능, 비휘발성 광학디스크(156)로 판독 또는 기입하는 광학디스크 드라이브(155)를 나타낸다. 기타 실시예의 동작환경에 사용될 수 있는, 소거가능/소거불가능, 휘발성/비휘발성 컴퓨터 저장매체로는, 이에 제한되지는 않지만, 자기테이프 카셋트, 플래시 메모리 카드, DVD, 디지털 비디오 테이프, 반도체 RAM, 반도체 ROM, 등을 포함한다. 일반적으로, 하드디스크 드라이브(141)는 인터페이스(140)와 같은, 소거불가능 메모리 인터페이스를 통해 시스템 버스(121)로 연결되며, 자기디스크 드라이브(151) 및 광학디스크 드라이브(155)는 인터페이스(150)와 같은 소거가능 메모리 인터페이스에 의해 시스템 버스(121)로 연결된다.
도 1에 도시된, 전술한 바와 같은, 드라이브 및 그와 관련된 컴퓨터 저장매체들은, 컴퓨터 판독가능 명령어들의 저장매체, 데이터 구조, 프로그램 모듈 및 기타 컴퓨터(110)용 데이터를 제공한다. 도 1에 있어서, 예컨대, 하드디스크 드라이브 드라이브(141)는 운영체제(144), 어플리케이션 프로그램(145), 기타 프로그램 모듈(146), 및 프로그램 데이터(147)를 저장하는 것으로 도시되어 있다. 이러한 콤포넌트들은 운영체제(134), 어플리케이션 프로그램(135), 기타 프로그램 모듈(136), 및 프로그램 데이터(147)와 동일할 수도 또는 다를 수도 있음에 주목한다. 운영체제(144), 어플리케이션 프로그램(145), 기타 프로그램 모듈(146), 및 프로그램 데이터(147)는, 최소로 다른 카피본들이 되는 것을 나타내도록, 여기서 다른 번호들로 주어졌다.
사용자는, 키보드(162), 마이크로폰(163), 및 마우스, 트랙볼 또는 터치패드와 같은 포인팅 장치(161) 등의 입력장치를 통해 컴퓨터(110)로 명령 및 정보를 기입(enter)할 수 있다. 기타의 입력장치(도시 생략)으로는, 조이스틱, 게임패드, 새털라이트 디쉬(satellite dish), 스캐너, 등을 포함할 수 있다. 이러한 입력장치들은, 종종 시스템 버스에 접속되는 사용자 입력 인터페이스(160)를 통해 처리장치(120)에 연결되지만, 패러렐 포트, 게임 포트, USB 등의 기타의 인터페이스 및 버스 구조에 의해 연결될 수도 있다. 모니터(191) 또는 기타 형태의 디스플레이 장치가 또한 비디오 인터페이스(190)와 같은 인터페이스를 통해 시스템 버스로 연결된다. 모니터에 더하여, 컴퓨터들은 또한, 스피커(197) 및 프린터(196)와 같은, 출력 주변 인터페이스(190)를 통해 연결될 수 있는, 기타의 주변 출력장치들을 포함할 수 있다.
컴퓨터(110)는 리모트 컴퓨터(180)와 같은, 하나 이상의 리모트 컴퓨터들로 의 논리적 연결을 사용하는 네트워크화된 환경에서 동작할 수도 있다. 리모트 컴퓨터(180)는 퍼스널 컴퓨터, 핸드헬드 장치, 서버, 라우터, 네트워크 PC, 피어 장치(peer device), 또는 기타의 공통 네트워크 노드일 수 있으며, 일반적으로, 컴퓨터(110)와 관련하여 전술한 모든 콤포넌트들 또는 복수의 콤포넌트들을 포함한다. 도 1에 도시된 논리적 연결은, LAN(171) 및 WAN(173)을 포함하지만, 기타의 네트워크들을 포함할 수도 있다. 이러한 네트워크 환경은, 사무실, 광대역 기업 컴퓨터 네트워크, 인트라넷, 및 인터넷 등에서 평범한 것이다.
LAN 네트워킹 환경에서 사용되는 경우, 컴퓨터(110)는 네트워크 인터페이스 또는 어댑터(170)를 통해 LAN(171)에 연결된다. WAN 네트워킹 환경에서 사용되는 경우, 컴퓨터(110)는 일반적으로 모뎀(172) 또는 기타 인터넷 등의 WAN(173)상의 통신설정을 위한 수단을 포함한다. 외장형 또는 내장형일 수 있는 모뎀(172)은, 사용자 입력인터페이스(160) 또는 기타 적절한 메카니즘을 통해 시스템 버스(121)로 연결될 수 있다. 네트워크화된 환경에 있어서, 컴퓨터(110)와 관련하여 도시된 프로그램 모듈 및 그 부분들은, 리모트 메모리 저장장치에 저장될 수 있다. 예컨대, 이에 제한되지는 않지만, 도 1은 리모트 어플리케이션 프로그램(185)이 리모트 컴퓨터(180)상에 상주하는 것으로 도시되어 있다. 이해할 수 있는 바와 같이, 도시된 네트워크 연결은 예시적인 것이며, 기타의 컴퓨터들간의 통신링크 설정수단이 사용될 수 있다.
본 발명은 도 1에 대하여 설명한 바와 같은 컴퓨터 시스템 상에서 수행될 수 있음에 주목한다. 그러나, 본 발명은, 서버, 메시지 핸들링이 가능한 컴퓨터 상에 서, 또는 본 발명의 다른 부분들이 분산된 컴퓨팅 시스템의 다른 부분들에서 수행되는 분산형 시스템 상에서, 실행될 수 있다.
도 2a는, 유사문장 처리시스템(200)의 일실시예를 나타낸 블록도이다. 시스템(200)은 다큐먼트 데이터베이스(202)로 액세스하며, 다큐먼트 클러스터링 시스템(204), 텍스트 분절 선택 시스템(206), 단어/어구 정렬 시스템(210), 식별 시스템 입력 텍스트(211), 및 생성시스템 입력텍스트(212)를 포함한다. 도 3은 도 2a에 도시된 시스템(200)의 동작을 나타낸 흐름도이다.
일례로서, 다큐먼트 데이터베이스(202)는, 다양한 다른 뉴스 에이전시에 의해 작성된 다양한 다른 뉴스 기사들을 포함한다. 일례로서, 각각의 기사는 언제 기사가 작성되었는지를 간략하게 나타내는 타임 스탬프를 포함한다. 또한, 일례로서, 다른 뉴스 에이전시로부터의 복수의 기사들이 다양한 다른 사건들에 대하여 작성될 수 있다.
물론, 본 발명은 뉴스 기사에 대하여 설명되었지만, 일반적인 과정을 설명하는 기술적인 기사나, 일반적인 의학절차를 설명하는 다른 의학기사들 등의, 다른 소스 다큐먼트들이 또한 사용될 수 있다.
다큐먼트 클러스터링 시스템(204)은 도 3에서 블록 214로 도시된 바와 같이 다큐먼트 데이터베이스(202)에 액세스한다. 도 2a에는 단일의 데이터베이스(202)가 도시되어 있지만, 대신 복수의 데이터베이스가 액세스될 수 있다.
클러스터링 시스템(204)은 동일한 사건에 대하여 작성된 다큐먼트 데이터베이스(202)내의 기사들을 식별한다. 일실시예에서, 대략적으로 동일한 시간에 쓰여 지는 것으로 기사들이 또한 식별된다 (서로간의 소정의 시간적 범위내, 예컨대, 한달, 한 주, 하루, 수 시간내, 등등). 동일한 사건에 대하여 (또는, 동일한 시간에서) 작성된 것으로 식별된 기사들은, 다큐먼트 클러스터(218)를 형성한다. 이러한 것은 도 3의 블록 216으로 도시되어 있다.
관련된 소스의 기사들이 클러스트(218)로 식별되면, 원하는 바에 따라, 이러한 기사들내의 텍스트 분절(문장, 어구, 헤드라인, 문단, 등)들이 추출된다. 예컨대, 뉴스 기사들의 저널리즘적 관습은, 기사의 처음 한 두 문장은 나머지 기사의 요약을 나타내는 것으로 권고한다. 따라서, 본 발명의 일실시예에 따르면, (일례로, 다른 뉴스 에이전시들에서 작성된) 기사들은 클러스터(218)들로 클러스터링되고, 텍스트 분절 선택시스템(206)으로 제공되어, 각 클러스터(218)내의 각 기사의 처음 두 문장들이 추출된다. 본 발명의 설명은 문장들에 대하여 진행하였지만, 이는 예시적인 것일 뿐, 기타의 텍스트 분절들이 용이하게 사용될 수 있다. 기사들의 각 클러스터(218)의 문장들은, 클러스터링된 기사에 상응하는 문장 세트(222)로 출력된다. 문장 세트(222)들은 텍스트 분절 선택시스템(206)에 의해 단어/어구 정렬시스템(210)으로 출력된다. 이는 도 3에서 블록 220으로 나타내어져 있다.
문장들이 사용되는 특정예에서, 이러한 식으로 수집된 많은 문장들은, 문체적인 이유로 다른 뉴스에이전시의 편집자들에 의해 조금씩 재작성된, 몇몇 단일 소스 문장의 버전들로 나타난다. 자주, 이러한 문장들의 세트들은, 문장에서 나타나는 절들의 순서와 같이, 방법상에서 조금씩만 다른 것으로 나타났다.
텍스트 분절 선택시스템(206)은 각 클러스터의 문장들의 세트(222)들을 생성 한다. 단어/어구 정렬 시스템(210)은, 세트내 문장들의 홀리스틱(holistic) 검사에 기초하여, 단어들 또는 어구들간의 맵핑들을 추출함으로써, 문장들의 큰 세트들상에서 동작할 수 있음에 주목한다. 그러나, 본 논의는 문장 페어의 생성과 그러한 페어들에 대한 정렬의 수행에 대해서만, 일실시예로서 설명한다. 따라서, 일실시예에서, 식별된 문장의 세트들은, 문장들의 페어로 형성된다. 따라서, 텍스트 분절 선택시스템(206)은, 다른 각각의 문장에 대하여 세트 내의 각각의 문장의 짝짓기를 수행한다(이하, 페어링(pairing)). 일실시예에서는, 문장의 페어들이 선택적으로 필터링 되는 단계를 수행하며, 다른 실시예에서는, 단어/어구 정렬시스템(210)으로 바로 출력된다. 본 실시예에 대한 필터링이 설명되겠지만, 필터링과 관련된 단계들은 선택적임을 주목한다.
일실시예에서, 텍스트 분절 선택시스템(206)은, 공유되는 핵심내용의 단어에 기반하여 문장 페어들을 필터링하는 발견적 방법(heuristic)을 실행한다. 예컨대, 일실시예에서, 시스템(206)은 문장 페어들을 필터링하여, 각각 적어도 네 개의 문자로 이루어진 적어도 세 개의 단어들을 공유하지 않는 문장 페어들을 제거한다. 물론, 필터링은 선택적이지만, 사용된다면, 실행되는 필터링 알고리즘이 폭넓게 변경될 수 있다. 과거의 결과들에 대한 필터링 (이는, 단어/어구 정렬시스템(210)을 텍스트 분절 선택시스템(206)으로 피드백시키는 피드백 루프를 필요로 한다), 다른 수의 내용 단어들에 대한 필터링, 의미론적이고 구문론적인 정보에 대한 필터링 등의, 임의의 다양한 다른 필터링 기법들이 사용될 수 있다. 어떠한 경우에는, 문장의 세트들이 페어링 되고, 필터링 되어, 단어/어구 정렬시스템(210)으로 제공될 수 있다.
일실시예에서, 단어/어구 정렬시스템(210)은, 세트(222)들내의 문장들간의 어휘적 대응관계를 학습하고자, 통계적 기계번역 문헌에서 비롯되는, 종래의 단어/어구 정렬 알고리즘을 실행한다. 예컨대, 다음 두 개의 문장이 문장 페어로 기계번역 시스템(210)으로 입력된다고 가정하자:
"Storms and tornadoes killed at least 14 people as they ripped through the central U.S. States of Kansas and Missouri"
"A swarm of tornadoes crashed through the Midwest, killing at least 19 people in Kansas and Missouri".
이러한 문장들은, 차이점이 몇 가지 있지만, 공통의 편집 소스를 갖고 있을 수 있다. 어떠한 경우, 일례로서, 이러한 문장들은 동일한 사건에 대하여 거의 동일한 시간에 두 개의 다른 뉴스 에이전스에 의해 작성되었다. 문장내의 차이점으로는, "ripped through"는 "crashed through"에 상응하고, "Central U.S. states"이 "Midwest"에 상응하여, 어절의 순서상에 차이점이 있으며, "killed"는 "killing"에 상응하여 단어들간의 형태학상의 차이점이 있으며, 리포트된 희생자수의 차이점을 포함한다.
도 4는, 종래의 정렬시스템(210)에 따라 단어들과 어구들이 정렬된 후에, 문장들내의 단어들과 다중의 단어 어구들간의 상응관계를 나타낸다. 통계적 정렬 알고리즘은, 단어들을 연결하는 라인들에 의해 나타낸 바와 같이, 대부분의 상응관계들에 대하여, 다르지만 평행한 정보의 조각들간의 연결관계를 설정하였다. 예컨 대, 명사절 "Storms and tornadoes" 및 "a swarm of tornadoes"는 직접적으로 비교되지는 않는다. 따라서, 더 많은 데이터가 요구됨에 따라, "storms"와 "swarm" 간의 연결관계 및 "storms"와 "a" 간의 연결관계는 사라지게 될 것이다. 두 문장간의 연결관계의 어긋남 패턴(crossing pattern)에 의해 어절의 순서의 차이가 나태내어 질 수 있다.
일실시예에서, 「P.F. Brown et al., "The Mathematics of Statistical Machinie Translation: Parameter Estimation", Computational Linguistics, 19:263-312, (June 1993)」에 공지된 기법들을 사용하여, 단어/어구 정렬시스템(210)이 실행된다. 물론, 단어들과 입력 텍스트 사이의 관계를 식별하기 위하여 기타 기계번역 또는 단어/어구 정렬 기법들이 사용될 수 있다. 문장 세트들에 대하여 정렬시스템(210)을 사용하여 정렬 모델을 개발하고, 통계적 단어 및/또는 어구 정렬을 수행하는 것은, 도 3의 블록 230으로 나타내어져 있다.
그 후, 단어/어구 정렬 시스템(210)은, 입력 데이터에 기초하여 발생되었던 정렬 모델들(234)에 따라, 정렬된 단어 및 어구들(232)을 출력한다. 기본적으로, 상기 인용된 정렬시스템에서, 단어의 상응관계를 식별하도록 모델들이 트레이닝(train)된다. 정렬 기법에서는, 도 4에 도시된 바와 같이, 먼저 텍스트 분절들 내의 단어들간의 단어 정렬을 찾는다. 다음, 시스템은 각각의 정렬에 대하여 확률을 할당하고, 후속의 트레이닝 데이터에 기초하여 확률을 최적화하여 더욱 정확한 모델을 생성한다. 정렬 모델(234)들과 정렬된 단어 및 어구들(232)을 출력하는 것이 도 3의 블록 236에 도시되어 있다.
일례로서, 정렬 모델(234)은, 단어 정렬에 할당된 번역 확률, 단어 또는 어구들이 문장내에서 이동할 확률을 나타내는 이동 확률, 단일 단어가 다른 텍스트 분절내의 두 개의 다른 단어에 해당할 수 있는 확률을 나타내는 다양성(fertility) 확률 등과 같은, 종래의 번역모델 파라미터들을 포함한다.
블록들(237, 238, 및 239)은, 트레이닝(training) 자체에 대하여 시스템을 부트스트랩핑 하는데 사용되는 선택적 처리 단계들을 나타낸다. 이들은 도 2b에 대하여 아래에 더욱 상세하게 설명된다.
부트스트랩핑이 사용되지 않는 실시예에 있어서, 시스템(211)은 시스템(210)의 출력을 수신하여 서로 유사문장화(paraphrase)된 단어, 어구, 또는 문장들을 식별한다. 식별된 유사문장들(213)은 시스템(211)에 의해 출력된다. 이는 도 3의 블록(242)으로 나타내어져 있다.
또한, 정렬된 어구 및 모델들은 생성시스템 입력텍스트(212)로 제공될 수 있다. 일례로서, 시스템(212)은, 그 입력에 대한 유사문장(238)을 생성하는 단어 및/또는 어구들을 입력으로 수신하는, 종래의 디코더이다. 따라서, 시스템(212)은, 정렬된 단어 및 어구(232)들 및 정렬 시스템(210)에 의해 생성된 정렬 모델(234)들을 사용하여 입력 텍스트의 유사문장을 생성하는데 사용될 수 있다. 정렬된 단어 및 어구들과 정렬 모델들에 기초하여 입력텍스트의 유사문장을 생성하는 것은 도 3의 블록 240에 의해 도시되어 있다. 일실시예의 생성시스템으로서, 「Y. Wang and A.Waibel, "Deoding Algorithm in Statistical Machine Translation", Proceedings of 35th Annual Meeting of the Association of Computational Linguistics(1997) 」가 공지되어 있다.
도 2b는 도 2a와, 식별시스템(211)이 또한 부트스트랩 트레이닝(training)에 사용된다는 점을 제외하고 유사하다. 이는, 도 3의 블록 237-239에 더욱 자세하게 도시되어 있다. 예컨대, 도 2 및 도 3에 대하여, 단어/어구 정렬시스템(210)이 전술한 바와 같이 출력 정렬모델(234) 및 정렬된 단어 및 어구들(232)을 갖는다고 가정하자. 그러나, 이제 각 다큐먼트 클러스터(218)의 전체 텍스트가, 시스템을 더욱 더 트레이닝하는데 사용하기 위한 보충 문장세트(300)을 식별하는 식별시스템(211)에 공급된다 (또한, 일례로서 문장들이 사용되고, 기타의 텍스트 분절들이 사용될 수 있다). 정렬 모델(234) 및 정렬된 단어 및 어구들(232)과 함께, 식별시스템(211)은 클러스터링된 다큐먼트(218)들의 텍스트를 처리하여, 각각의 클러스터들로부터 문장 세트(300)들을 재선택할 수 있다. 이것은 블록 237로 도시되어 있다. 그 후, 재선택된 문장 세트(300)는 단어/어구 정렬시스템(210)으로 제공되고, 재선택된 문장 세트(300)들에 기초하여, 정렬 모델(234)들 및 정렬된 단어 및 어구들(232), 및 그들의 관련된 확률행렬을 생성 또는 재계산한다. 단어 및 어구 정렬의 수행과 재선택된 문장 세트들에 대한 정렬 모델들 및 정렬된 단어 및 어구들의 생성은, 도 3의 블록 239 및 239로 도시되어 있다.
이하, 재계산된 정렬 모델(234) 및 새롭게 정렬된 단어 및 어구(232)들은, 식별시스템(211)으로 다시 입력되고, 다시 다큐먼트 클러스터(218)들내의 텍스트를 처리하여 새로운 문장 세트를 식별하도록 시스템(211)에 의해 사용될 수 있다. 또한, 새로운 문장세트들은 단어/어구 정렬시스템(210)으로 다시 피드백 되고, 시스템의 트레이닝(training)을 더욱 가다듬도록 공정이 진행될 수 있다.
본 발명을 사용하여 처리된 유사문장에 대하여는, 다양한 적용예들이 존재한다. 예컨대, 유사문장 처리시스템의 잠재적 적용예로서, 종래 기술에 공지된 바와 같은, 질의응답 시스템, 더욱 일반적인 정보처리 시스템을 포함한다. 이러한 시스템은, 질의(query)에 기초하여 다큐먼트 세트를 리턴하는데 있어서, 두 개의 텍스트 분절의 유사도를 결정하기 위해 유사문장 점수를 생성할 수 있다. 마찬가지로, 이러한 시스템은, 더욱 양호한 매칭결과를 찾거나, 호출을 개선하기 위해서, 유사문장 생성능력을 사용하여 질의 확장(query expansion, 복수 형태의 단일의 본래 질의를 생성함)을 수행할 수 있다.
유사문장의 인식 및 생성에 대한 다른 적용예로서, 복수의 다큐먼트들의 요약화를 포함한다. 유사문장 인식기법을 활용하여, 요약문을 생성하기 위하여, 자동 다큐먼트 요약시스템이 다른 다큐먼트들 내의 유사한 문장을 찾아, 다큐먼트 세트 내의 가장 두드러진 정보를 결정한다.
유사문장 인식 및 생성에 대한 또 다른 적용예로서, 다이얼로그(dialog) 시스템이 있다. 이러한 시스템은, 입력을 에코(echo)하지만 다르게 표현되어, 정확하게 동일한 입력을 되풀이하는 것을 방지하는, 응답을 생성할 수 있다. 이는 보다 자연스럽고 대화적인 사운드를 다이얼로그 시스템이 표현하도록 한다.
또한, 유사문장 인식 및 생성기법은, 단어처리 시스템에서 사용될 수 있다. 단어처리 시스템은, 자동적으로 재작성된 문체를 생성하고, 이러한 재작성된 문체를 사용자에게 제안하는데 사용될 수 있다. 예컨대, 이는, 사용자가 다큐먼트를 작성하고 있는 도중, 한 문단에서라도, 한 어구를 많은 횟수 반복하는 경우에 효과적이다. 마찬가지로, 단어처리 시스템은, 한 다큐먼트내에 퍼져있는 반복된 (그러나, 다르게 표현된) 정보를 플래그(flag)하는 특성을 포함할 수 있다. 마찬가지로, 이러한 단어처리 시스템은, 유사문장으로서 한 편의 산문을 재작성(rewrite)하는 특성을 포함할 수 있다.
또한, 본 발명은, 명령 및 제어 시스템에서 사용될 수 있다. 관습적으로, 사람들은 폭넓게 변화하는 용어들을 사용하는 것들을 필요로 한다. 유사문장을 식별하는 것은, 입력이 변화하는 방식으로 표현되는 경우라도, 이러한 시스템이 적절한 명령 및 제어 조치를 구현하도록 한다.
따라서, 본 발명의 일실시예에 따르면, 공통의 사건을 설명하는 텍스트 소스들이 클러스터링된다. 그러한 텍스트 소스들 내의 소정의 텍스트 분절들은, 텍스트 분절들의 세트로 추출된다. 각 세트내의 텍스트 분절는 유사문장을 식별하도록 정렬시스템으로 제공된다. 따라서, 본 발명은, 복수의 클러스터들 간의 유사문장들을 식별하고 있다. 식별된 유사문장 관계는, 많은 다른 클러스터들내의 텍스트 분절 페어들을 사용하여 발견될 수 있다. 또한, 일실시예에서, 발견된 유사문장들은, 그 후, 후속의 트레이닝 과정동안 더 많은 유사문장 관계를 발견하는데 사용된다. 이는 종래의 유사문장 인식시스템에 비해 많은 장점을 가져오는 것이다.
본 발명이 특정 실시예를 참조하여 설명되었지만, 당업자라면, 본 발명의 개념 및 범주를 일탈하지 않고 상세하고 다양한 형태의 변경예가 이루어질 수 있음 알 수 있을 것이다.

Claims (30)

  1. 유사문장(paraphrase) 처리시스템을 트레이닝(training)하는 방법으로서,
    복수의 다큐먼트를 액세스하는 단계;
    상기 복수의 다큐먼트로부터, 공통 주제에 관해 서로 다른 작성자들에 의해 작성된 관련 텍스트들의 클러스터(cluster)를 식별하는 단계 - 상기 관련 텍스트들의 클러스터는 그 출처가 서로 다른 뉴스 에이전시들이고 공통 사건에 관한 것이라고 또한 식별됨 -;
    상기 관련 텍스트들의 클러스터를 수신하는 단계;
    상기 클러스터로부터 텍스트 분절들(text segments)의 세트(set)를 선택하는 단계 - 상기 선택하는 단계는 상기 관련 텍스트들 중 필요한 텍스트 분절들을 관련 텍스트 분절들의 세트로 그룹화하는 단계를 포함함 -; 및
    텍스트 정렬(textual alignment)을 이용하여 상기 관련 텍스트 분절들의 세트 내에 포함된 텍스트 분절들 내의 텍스트들 간의 유사문장 관계를 식별하는 단계
    를 포함하고,
    상기 텍스트 정렬은 통계적 텍스트 정렬(statistical textual alignment)을 이용하여 상기 관련 텍스트 분절들의 세트 내의 텍스트 분절들 내의 단어들을 정렬하는 것, 및 상기 정렬된 단어들에 기초하여 상기 유사문장 관계를 식별하는 것을 포함하는, 트레이닝 방법.
  2. 제1항에 있어서,
    상기 식별된 유사문장 관계에 기초하여 정렬 모델을 계산하는 단계를 더 포함하는, 트레이닝 방법.
  3. 제2항에 있어서,
    입력 텍스트를 수신하는 단계; 및
    상기 정렬 모델에 기초하여 상기 입력 텍스트의 유사문장을 생성하는 단계를 더 포함하는, 트레이닝 방법.
  4. 제1항에 있어서,
    상기 텍스트 분절들의 세트를 선택하는 단계는,
    상기 텍스트 분절들 내의 공유된 단어들의 수에 기초하여 상기 세트에 대한 텍스트 분절들을 선택하는 단계를 포함하는, 트레이닝 방법.
  5. 제1항에 있어서,
    상기 관련 텍스트들의 클러스터를 식별하는 단계는,
    소정의 시간 내에 작성된 서로의 텍스트들을 식별하는 단계를 포함하는, 트레이닝 방법.
  6. 제1항에 있어서,
    상기 필요한 텍스트 분절들을 그룹화하는 단계는,
    각각의 클러스터 내의 각각의 뉴스 기사의 제1 소정 수의 문장들을 상기 관련 텍스트 분절들의 세트로 그룹화하는 단계를 포함하는, 트레이닝 방법.
  7. 제6항에 있어서,
    상기 텍스트 분절들의 세트를 선택하는 단계는,
    관련 텍스트 분절들의 임의의 세트 내의 각각의 문장을, 상기 임의의 세트 내의 다른 문장과 각각 페어링(pairing)하는 단계를 포함하는, 트레이닝 방법.
  8. 삭제
  9. 삭제
  10. 삭제
  11. 삭제
  12. 삭제
  13. 삭제
  14. 삭제
  15. 삭제
  16. 삭제
  17. 삭제
  18. 삭제
  19. 삭제
  20. 삭제
  21. 삭제
  22. 삭제
  23. 삭제
  24. 삭제
  25. 삭제
  26. 삭제
  27. 삭제
  28. 삭제
  29. 삭제
  30. 삭제
KR1020040086343A 2003-11-12 2004-10-27 기계번역기법을 이용한 유사문장 식별 시스템 KR101130444B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/706,102 US7412385B2 (en) 2003-11-12 2003-11-12 System for identifying paraphrases using machine translation
US10/706,102 2003-11-12

Publications (2)

Publication Number Publication Date
KR20050045822A KR20050045822A (ko) 2005-05-17
KR101130444B1 true KR101130444B1 (ko) 2012-07-02

Family

ID=34435622

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020040086343A KR101130444B1 (ko) 2003-11-12 2004-10-27 기계번역기법을 이용한 유사문장 식별 시스템

Country Status (10)

Country Link
US (2) US7412385B2 (ko)
EP (1) EP1531402A3 (ko)
JP (1) JP2005149494A (ko)
KR (1) KR101130444B1 (ko)
CN (1) CN100371927C (ko)
AU (1) AU2004218705B2 (ko)
BR (1) BRPI0404348A (ko)
CA (1) CA2484410C (ko)
MX (1) MXPA04010820A (ko)
RU (1) RU2368946C2 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210038260A (ko) 2019-09-30 2021-04-07 광운대학교 산학협력단 머신 러닝 기반 한국 고객 서비스 어시스턴트 보조 시스템

Families Citing this family (259)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US7660740B2 (en) 2000-10-16 2010-02-09 Ebay Inc. Method and system for listing items globally and regionally, and customized listing according to currency or shipping area
US7752266B2 (en) 2001-10-11 2010-07-06 Ebay Inc. System and method to facilitate translation of communications between entities over a network
ITFI20010199A1 (it) 2001-10-22 2003-04-22 Riccardo Vieri Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico
US7941348B2 (en) 2002-06-10 2011-05-10 Ebay Inc. Method and system for scheduling transaction listings at a network-based transaction facility
US8078505B2 (en) 2002-06-10 2011-12-13 Ebay Inc. Method and system for automatically updating a seller application utilized in a network-based transaction facility
US8719041B2 (en) 2002-06-10 2014-05-06 Ebay Inc. Method and system for customizing a network-based transaction facility seller application
US8428934B2 (en) * 2010-01-25 2013-04-23 Holovisions LLC Prose style morphing
US7742985B1 (en) 2003-06-26 2010-06-22 Paypal Inc. Multicurrency exchanges between participants of a network-based transaction facility
US7584092B2 (en) * 2004-11-15 2009-09-01 Microsoft Corporation Unsupervised learning of paraphrase/translation alternations and selective application thereof
US7412385B2 (en) * 2003-11-12 2008-08-12 Microsoft Corporation System for identifying paraphrases using machine translation
US8190419B1 (en) 2006-09-11 2012-05-29 WordRake Holdings, LLC Computer processes for analyzing and improving document readability
US9189568B2 (en) 2004-04-23 2015-11-17 Ebay Inc. Method and system to display and search in a language independent manner
US7552046B2 (en) * 2004-11-15 2009-06-23 Microsoft Corporation Unsupervised learning of paraphrase/translation alternations and selective application thereof
US7546235B2 (en) * 2004-11-15 2009-06-09 Microsoft Corporation Unsupervised learning of paraphrase/translation alternations and selective application thereof
JP4645242B2 (ja) * 2005-03-14 2011-03-09 富士ゼロックス株式会社 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム
US7937396B1 (en) * 2005-03-23 2011-05-03 Google Inc. Methods and systems for identifying paraphrases from an index of information items and associated sentence fragments
US8719244B1 (en) 2005-03-23 2014-05-06 Google Inc. Methods and systems for retrieval of information items and associated sentence fragments
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US7937265B1 (en) 2005-09-27 2011-05-03 Google Inc. Paraphrase acquisition
US7908132B2 (en) * 2005-09-29 2011-03-15 Microsoft Corporation Writing assistance using machine translation techniques
US7739254B1 (en) * 2005-09-30 2010-06-15 Google Inc. Labeling events in historic news
US20080040339A1 (en) * 2006-08-07 2008-02-14 Microsoft Corporation Learning question paraphrases from log data
US8639782B2 (en) 2006-08-23 2014-01-28 Ebay, Inc. Method and system for sharing metadata between interfaces
US8626486B2 (en) * 2006-09-05 2014-01-07 Google Inc. Automatic spelling correction for machine translation
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8423908B2 (en) * 2006-09-08 2013-04-16 Research In Motion Limited Method for identifying language of text in a handheld electronic device and a handheld electronic device incorporating the same
JP5082374B2 (ja) * 2006-10-19 2012-11-28 富士通株式会社 フレーズアラインメントプログラム、翻訳プログラム、フレーズアラインメント装置およびフレーズアラインメント方法
US8078451B2 (en) * 2006-10-27 2011-12-13 Microsoft Corporation Interface and methods for collecting aligned editorial corrections into a database
KR100911372B1 (ko) * 2006-12-05 2009-08-10 한국전자통신연구원 통계적 기계번역 시스템에서 단어 및 구문들간의 번역관계를 자율적으로 학습하기 위한 장치 및 그 방법
CN101563682A (zh) * 2006-12-22 2009-10-21 日本电气株式会社 语句改述方法、程序以及系统
CA2675208A1 (en) * 2007-01-10 2008-07-17 National Research Council Of Canada Means and method for automatic post-editing of translations
US20080221866A1 (en) * 2007-03-06 2008-09-11 Lalitesh Katragadda Machine Learning For Transliteration
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
CN104866469B (zh) * 2007-04-11 2018-10-02 谷歌有限责任公司 具有第二语言模式的输入法编辑器
US20080294398A1 (en) * 2007-05-25 2008-11-27 Justsystems Evans Research, Inc. Method and apparatus for the automated construction of models of activities from textual descriptions of the activities
CN101802812B (zh) * 2007-08-01 2015-07-01 金格软件有限公司 使用互联网语料库的自动的上下文相关的语言校正和增强
US9053089B2 (en) 2007-10-02 2015-06-09 Apple Inc. Part-of-speech tagging using latent analogy
US8725490B2 (en) * 2007-10-18 2014-05-13 Yahoo! Inc. Virtual universal translator for a mobile device with a camera
US9594748B2 (en) * 2007-10-25 2017-03-14 Disney Enterprises, Inc. System and method for localization of assets using dictionary file build
US20090119090A1 (en) * 2007-11-01 2009-05-07 Microsoft Corporation Principled Approach to Paraphrasing
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8612469B2 (en) 2008-02-21 2013-12-17 Globalenglish Corporation Network-accessible collaborative annotation tool
WO2009105735A2 (en) 2008-02-21 2009-08-27 Globalenglish Corporation Web-based tool for collaborative, social learning
US8065143B2 (en) 2008-02-22 2011-11-22 Apple Inc. Providing text input using speech data and non-speech data
US20090228427A1 (en) * 2008-03-06 2009-09-10 Microsoft Corporation Managing document work sets
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US8504354B2 (en) * 2008-06-02 2013-08-06 Microsoft Corporation Parallel fragment extraction from noisy parallel corpora
US8464150B2 (en) 2008-06-07 2013-06-11 Apple Inc. Automatic language identification for dynamic text processing
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8768702B2 (en) 2008-09-05 2014-07-01 Apple Inc. Multi-tiered voice feedback in an electronic device
US8898568B2 (en) 2008-09-09 2014-11-25 Apple Inc. Audio user interface
US8712776B2 (en) 2008-09-29 2014-04-29 Apple Inc. Systems and methods for selective text to speech synthesis
US20100082324A1 (en) * 2008-09-30 2010-04-01 Microsoft Corporation Replacing terms in machine translation
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US8494835B2 (en) * 2008-12-02 2013-07-23 Electronics And Telecommunications Research Institute Post-editing apparatus and method for correcting translation errors
US9959870B2 (en) 2008-12-11 2018-05-01 Apple Inc. Speech recognition involving a mobile device
US8862252B2 (en) * 2009-01-30 2014-10-14 Apple Inc. Audio user interface for displayless electronic device
US8527500B2 (en) * 2009-02-27 2013-09-03 Red Hat, Inc. Preprocessing text to enhance statistical features
US8396850B2 (en) * 2009-02-27 2013-03-12 Red Hat, Inc. Discriminating search results by phrase analysis
US8380507B2 (en) 2009-03-09 2013-02-19 Apple Inc. Systems and methods for determining the language to use for speech generated by a text to speech engine
US20100299132A1 (en) * 2009-05-22 2010-11-25 Microsoft Corporation Mining phrase pairs from an unstructured resource
US10891659B2 (en) 2009-05-29 2021-01-12 Red Hat, Inc. Placing resources in displayed web pages via context modeling
US20120311585A1 (en) 2011-06-03 2012-12-06 Apple Inc. Organizing task items that represent tasks to perform
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10540976B2 (en) 2009-06-05 2020-01-21 Apple Inc. Contextual voice commands
US8285706B2 (en) * 2009-06-10 2012-10-09 Microsoft Corporation Using a human computation game to improve search engine performance
US20100332217A1 (en) * 2009-06-29 2010-12-30 Shalom Wintner Method for text improvement via linguistic abstractions
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US8682649B2 (en) 2009-11-12 2014-03-25 Apple Inc. Sentiment prediction from textual data
US8311838B2 (en) 2010-01-13 2012-11-13 Apple Inc. Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts
US8381107B2 (en) 2010-01-13 2013-02-19 Apple Inc. Adaptive audio feedback system and method
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US8543381B2 (en) * 2010-01-25 2013-09-24 Holovisions LLC Morphing text by splicing end-compatible segments
US20110184723A1 (en) * 2010-01-25 2011-07-28 Microsoft Corporation Phonetic suggestion engine
US8566078B2 (en) * 2010-01-29 2013-10-22 International Business Machines Corporation Game based method for translation data acquisition and evaluation
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8478699B1 (en) * 2010-04-30 2013-07-02 Google Inc. Multiple correlation measures for measuring query similarity
US8554542B2 (en) * 2010-05-05 2013-10-08 Xerox Corporation Textual entailment method for linking text of an abstract to text in the main body of a document
US8788260B2 (en) * 2010-05-11 2014-07-22 Microsoft Corporation Generating snippets based on content features
US8484016B2 (en) 2010-05-28 2013-07-09 Microsoft Corporation Locating paraphrases through utilization of a multipartite graph
US20120330643A1 (en) * 2010-06-04 2012-12-27 John Frei System and method for translation
US8713021B2 (en) 2010-07-07 2014-04-29 Apple Inc. Unsupervised document clustering using latent semantic density analysis
US8719006B2 (en) 2010-08-27 2014-05-06 Apple Inc. Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis
US8719014B2 (en) 2010-09-27 2014-05-06 Apple Inc. Electronic device with text error correction based on voice recognition data
US20120109623A1 (en) * 2010-11-01 2012-05-03 Microsoft Corporation Stimulus Description Collections
US8903719B1 (en) 2010-11-17 2014-12-02 Sprint Communications Company L.P. Providing context-sensitive writing assistance
US20120143593A1 (en) * 2010-12-07 2012-06-07 Microsoft Corporation Fuzzy matching and scoring based on direct alignment
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US10515147B2 (en) 2010-12-22 2019-12-24 Apple Inc. Using statistical language models for contextual lookup
US8838433B2 (en) * 2011-02-08 2014-09-16 Microsoft Corporation Selection of domain-adapted translation subcorpora
US8781836B2 (en) 2011-02-22 2014-07-15 Apple Inc. Hearing assistance system for providing consistent human speech
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US9098488B2 (en) 2011-04-03 2015-08-04 Microsoft Technology Licensing, Llc Translation of multilingual embedded phrases
US8972240B2 (en) * 2011-05-19 2015-03-03 Microsoft Corporation User-modifiable word lattice display for editing documents and search queries
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US10672399B2 (en) 2011-06-03 2020-06-02 Apple Inc. Switching between text data and audio data based on a mapping
US8812294B2 (en) 2011-06-21 2014-08-19 Apple Inc. Translating phrases from one language into another using an order-based set of declarative rules
US8706472B2 (en) 2011-08-11 2014-04-22 Apple Inc. Method for disambiguating multiple readings in language conversion
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US8762156B2 (en) 2011-09-28 2014-06-24 Apple Inc. Speech recognition repair using contextual information
CN103092829B (zh) * 2011-10-27 2015-11-25 北京百度网讯科技有限公司 一种复述资源获取方法及系统
KR20130047471A (ko) * 2011-10-31 2013-05-08 한국전자통신연구원 자동번역 시스템의 패러프레이징 데이터 구축방법
US9348479B2 (en) 2011-12-08 2016-05-24 Microsoft Technology Licensing, Llc Sentiment aware user interface customization
US9378290B2 (en) 2011-12-20 2016-06-28 Microsoft Technology Licensing, Llc Scenario-adaptive input method editor
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9754585B2 (en) 2012-04-03 2017-09-05 Microsoft Technology Licensing, Llc Crowdsourced, grounded language for intent modeling in conversational interfaces
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US8775442B2 (en) 2012-05-15 2014-07-08 Apple Inc. Semantic search using a single-source semantic model
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
WO2013185109A2 (en) 2012-06-08 2013-12-12 Apple Inc. Systems and methods for recognizing textual identifiers within a plurality of words
CN104428734A (zh) 2012-06-25 2015-03-18 微软公司 输入法编辑器应用平台
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US8959109B2 (en) 2012-08-06 2015-02-17 Microsoft Corporation Business intelligent in-document suggestions
CN104823183B (zh) 2012-08-30 2018-04-24 微软技术许可有限责任公司 基于特征的候选选择
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US8935167B2 (en) 2012-09-25 2015-01-13 Apple Inc. Exemplar-based latent perceptual modeling for automatic speech recognition
US9116880B2 (en) 2012-11-30 2015-08-25 Microsoft Technology Licensing, Llc Generating stimuli for use in soliciting grounded linguistic information
US9146919B2 (en) 2013-01-16 2015-09-29 Google Inc. Bootstrapping named entity canonicalizers from English using alignment models
US10199051B2 (en) 2013-02-07 2019-02-05 Apple Inc. Voice trigger for a digital assistant
US10223349B2 (en) 2013-02-20 2019-03-05 Microsoft Technology Licensing Llc Inducing and applying a subject-targeted context free grammar
US9733821B2 (en) 2013-03-14 2017-08-15 Apple Inc. Voice control to diagnose inadvertent activation of accessibility features
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
US10642574B2 (en) 2013-03-14 2020-05-05 Apple Inc. Device, method, and graphical user interface for outputting captions
US9977779B2 (en) 2013-03-14 2018-05-22 Apple Inc. Automatic supplementation of word correction dictionaries
US10572476B2 (en) 2013-03-14 2020-02-25 Apple Inc. Refining a search based on schedule items
CN110096712B (zh) 2013-03-15 2023-06-20 苹果公司 通过智能数字助理的用户培训
KR102057795B1 (ko) 2013-03-15 2019-12-19 애플 인크. 콘텍스트-민감성 방해 처리
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
CN105027197B (zh) 2013-03-15 2018-12-14 苹果公司 训练至少部分语音命令系统
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
CN110442699A (zh) 2013-06-09 2019-11-12 苹果公司 操作数字助理的方法、计算机可读介质、电子设备和系统
KR101809808B1 (ko) 2013-06-13 2017-12-15 애플 인크. 음성 명령에 의해 개시되는 긴급 전화를 걸기 위한 시스템 및 방법
DE112014003653B4 (de) 2013-08-06 2024-04-18 Apple Inc. Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen
US10656957B2 (en) 2013-08-09 2020-05-19 Microsoft Technology Licensing, Llc Input method editor providing language assistance
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US9779087B2 (en) * 2013-12-13 2017-10-03 Google Inc. Cross-lingual discriminative learning of sequence models with posterior regularization
KR101615621B1 (ko) * 2014-04-23 2016-04-27 한국과학기술원 동일 지시어 해소 시스템 및 방법
JPWO2015162737A1 (ja) * 2014-04-23 2017-04-13 株式会社東芝 音訳作業支援装置、音訳作業支援方法及びプログラム
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
EP3480811A1 (en) 2014-05-30 2019-05-08 Apple Inc. Multi-command single utterance input method
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
CN105335343A (zh) 2014-07-25 2016-02-17 北京三星通信技术研究有限公司 文本编辑方法和装置
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
RU2639684C2 (ru) * 2014-08-29 2017-12-21 Общество С Ограниченной Ответственностью "Яндекс" Способ обработки текстов (варианты) и постоянный машиночитаемый носитель (варианты)
JP6190341B2 (ja) * 2014-09-04 2017-08-30 日本電信電話株式会社 データ生成装置、データ生成方法、及びプログラム
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
JP6466138B2 (ja) * 2014-11-04 2019-02-06 株式会社東芝 外国語文作成支援装置、方法及びプログラム
JP6320982B2 (ja) 2014-11-26 2018-05-09 ネイバー コーポレーションNAVER Corporation 翻訳文エディタ提供装置、並びに翻訳文エディタ提供方法
TWI573028B (zh) * 2014-11-26 2017-03-01 納寶股份有限公司 用於提供譯文編輯器的設備和方法
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
WO2016122512A1 (en) * 2015-01-29 2016-08-04 Hewlett-Packard Development Company, L.P. Segmentation based on clustering engines applied to summaries
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
RU2610241C2 (ru) * 2015-03-19 2017-02-08 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Способ и система синтеза текста на основе извлеченной информации в виде rdf-графа с использованием шаблонов
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
CN106156010B (zh) * 2015-04-20 2019-10-11 阿里巴巴集团控股有限公司 翻译训练方法、装置、系统、以及在线翻译方法及装置
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
CN105488025B (zh) 2015-11-24 2019-02-12 小米科技有限责任公司 模板构建方法和装置、信息识别方法和装置
CN108292306A (zh) * 2015-11-25 2018-07-17 皇家飞利浦有限公司 电子临床自由文本的阅读者驱动的释义
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
CN105653620B (zh) * 2015-12-25 2020-05-22 上海智臻智能网络科技股份有限公司 智能问答系统的日志分析方法及装置
JP6671027B2 (ja) * 2016-02-01 2020-03-25 パナソニックIpマネジメント株式会社 換言文生成方法、該装置および該プログラム
US11727198B2 (en) 2016-02-01 2023-08-15 Microsoft Technology Licensing, Llc Enterprise writing assistance
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
CN107861937B (zh) * 2016-09-21 2023-02-03 松下知识产权经营株式会社 对译语料库的更新方法、更新装置以及记录介质
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
KR102589638B1 (ko) 2016-10-31 2023-10-16 삼성전자주식회사 문장 생성 장치 및 방법
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
KR101851785B1 (ko) * 2017-03-20 2018-06-07 주식회사 마인드셋 챗봇의 트레이닝 세트 생성 장치 및 방법
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
US10275452B2 (en) 2017-05-12 2019-04-30 International Business Machines Corporation Automatic, unsupervised paraphrase detection
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10423665B2 (en) * 2017-08-02 2019-09-24 Oath Inc. Method and system for generating a conversational agent by automatic paraphrase generation based on machine translation
US11321522B1 (en) 2017-08-04 2022-05-03 Grammarly, Inc. Artificial intelligence communication assistance for composition utilizing communication profiles
CN107766337A (zh) * 2017-09-25 2018-03-06 沈阳航空航天大学 基于深度语义关联的译文预测方法
US10606943B2 (en) 2017-10-09 2020-03-31 International Business Machines Corporation Fault injection in human-readable information
US20190163756A1 (en) * 2017-11-29 2019-05-30 International Business Machines Corporation Hierarchical question answering system
US10558762B2 (en) 2018-02-24 2020-02-11 International Business Machines Corporation System and method for adaptive quality estimation for machine translation post-editing
KR102637340B1 (ko) 2018-08-31 2024-02-16 삼성전자주식회사 문장 매핑 방법 및 장치
RU2699396C1 (ru) * 2018-11-19 2019-09-05 Общество С Ограниченной Ответственностью "Инвек" Нейронная сеть для интерпретирования предложений на естественном языке
US11151452B2 (en) * 2018-12-07 2021-10-19 Capital One Services, Llc Systems and methods for legal document generation
US11126794B2 (en) * 2019-04-11 2021-09-21 Microsoft Technology Licensing, Llc Targeted rewrites
WO2020229889A1 (en) 2019-05-10 2020-11-19 Yseop Sa Natural language text generation using semantic objects
US10817576B1 (en) * 2019-08-07 2020-10-27 SparkBeyond Ltd. Systems and methods for searching an unstructured dataset with a query
US11501088B1 (en) 2020-03-11 2022-11-15 Yseop Sa Techniques for generating natural language text customized to linguistic preferences of a user
US11210473B1 (en) * 2020-03-12 2021-12-28 Yseop Sa Domain knowledge learning techniques for natural language generation
KR102370729B1 (ko) 2021-06-03 2022-03-07 최연 문장 작성 시스템
US20230019081A1 (en) * 2021-07-16 2023-01-19 Microsoft Technology Licensing, Llc Modular self-supervision for document-level relation extraction

Family Cites Families (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4319711A (en) * 1977-10-11 1982-03-16 Robertshaw Controls Company Wall thermostat and the like
US4277784A (en) * 1979-07-13 1981-07-07 Commodore Electronics Limited Switch scanning means for use with integrated circuits
US4337822A (en) * 1979-08-16 1982-07-06 Hyltin Tom M Digital thermostat
US4264034A (en) * 1979-08-16 1981-04-28 Hyltin Tom M Digital thermostat
US4460125A (en) * 1981-05-14 1984-07-17 Robertshaw Controls Company Wall thermostat and the like
SE466029B (sv) 1989-03-06 1991-12-02 Ibm Svenska Ab Anordning och foerfarande foer analys av naturligt spraak i ett datorbaserat informationsbehandlingssystem
US5103078A (en) * 1990-02-01 1992-04-07 Boykin T Brooks Programmable hot water heater control method
US5107918A (en) * 1991-03-01 1992-04-28 Lennox Industries Inc. Electronic thermostat
US5495413A (en) 1992-09-25 1996-02-27 Sharp Kabushiki Kaisha Translation machine having a function of deriving two or more syntaxes from one original sentence and giving precedence to a selected one of the syntaxes
US6139201A (en) 1994-12-22 2000-10-31 Caterpillar Inc. Integrated authoring and translation system
US5870700A (en) 1996-04-01 1999-02-09 Dts Software, Inc. Brazilian Portuguese grammar checker
US5999896A (en) * 1996-06-25 1999-12-07 Microsoft Corporation Method and system for identifying and resolving commonly confused words in a natural language parser
US6076051A (en) 1997-03-07 2000-06-13 Microsoft Corporation Information retrieval utilizing semantic representation of text
DE69818796T2 (de) * 1997-06-26 2004-08-05 Koninklijke Philips Electronics N.V. Maschinenorganisiertes verfahren und vorrichtung zum übersetzen einer wortorganisierten textquelle in einen wortorganisierten zieltext
US6098033A (en) 1997-07-31 2000-08-01 Microsoft Corporation Determining similarity between words
US5960080A (en) * 1997-11-07 1999-09-28 Justsystem Pittsburgh Research Center Method for transforming message containing sensitive information
US6424983B1 (en) 1998-05-26 2002-07-23 Global Information Research And Technologies, Llc Spelling and grammar checking system
US6035269A (en) * 1998-06-23 2000-03-07 Microsoft Corporation Method for detecting stylistic errors and generating replacement strings in a document containing Japanese text
US6188976B1 (en) 1998-10-23 2001-02-13 International Business Machines Corporation Apparatus and method for building domain-specific language models
US6848080B1 (en) 1999-11-05 2005-01-25 Microsoft Corporation Language input architecture for converting one text form to another text form with tolerance to spelling, typographical, and conversion errors
US6315211B1 (en) * 1999-12-03 2001-11-13 Emerson Electric Co. Hardwired or battery powered digital thermostat
US7107204B1 (en) * 2000-04-24 2006-09-12 Microsoft Corporation Computer-aided writing system and method with cross-language writing wizard
CN100520768C (zh) * 2000-04-24 2009-07-29 微软公司 带有跨语言阅读向导的计算机辅助阅读系统和方法
US6961692B1 (en) * 2000-08-01 2005-11-01 Fuji Xerox Co, Ltd. System and method for writing analysis using the linguistic discourse model
US7043420B2 (en) 2000-12-11 2006-05-09 International Business Machines Corporation Trainable dynamic phrase reordering for natural language generation in conversational systems
US7054803B2 (en) * 2000-12-19 2006-05-30 Xerox Corporation Extracting sentence translations from translated documents
JP2002245037A (ja) * 2001-02-16 2002-08-30 Atr Onsei Gengo Tsushin Kenkyusho:Kk 句アラインメント方法
JP3764058B2 (ja) * 2001-03-01 2006-04-05 株式会社東芝 翻訳装置、翻訳方法及び翻訳プログラム
US7146308B2 (en) 2001-04-05 2006-12-05 Dekang Lin Discovery of inference rules from text
CA2446262A1 (en) * 2001-05-04 2002-11-14 Paracel, Inc. Method and apparatus for high-speed approximate sub-string searches
US20030055625A1 (en) 2001-05-31 2003-03-20 Tatiana Korelsky Linguistic assistant for domain analysis methodology
US7050964B2 (en) 2001-06-01 2006-05-23 Microsoft Corporation Scaleable machine translation system
CN1391180A (zh) * 2001-06-11 2003-01-15 国际商业机器公司 外语写作辅助方法和辅助工具
JP2003263433A (ja) * 2002-03-07 2003-09-19 Advanced Telecommunication Research Institute International 統計的機械翻訳機における翻訳モデルの生成方法
US7031911B2 (en) * 2002-06-28 2006-04-18 Microsoft Corporation System and method for automatic detection of collocation mistakes in documents
US7076422B2 (en) 2003-03-13 2006-07-11 Microsoft Corporation Modelling and processing filled pauses and noises in speech recognition
US7412385B2 (en) 2003-11-12 2008-08-12 Microsoft Corporation System for identifying paraphrases using machine translation
US7496621B2 (en) 2004-07-14 2009-02-24 International Business Machines Corporation Method, program, and apparatus for natural language generation
US7908132B2 (en) 2005-09-29 2011-03-15 Microsoft Corporation Writing assistance using machine translation techniques

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Learning to Paraphrase: An Unsupervised Approach Using Multiple-sequence Alignment," Regina Barzilay 외 1인, Proceedings of HLT-NAACL 2003, pp.16-23 (2003.06.30.) 1부.*

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210038260A (ko) 2019-09-30 2021-04-07 광운대학교 산학협력단 머신 러닝 기반 한국 고객 서비스 어시스턴트 보조 시스템

Also Published As

Publication number Publication date
CN100371927C (zh) 2008-02-27
JP2005149494A (ja) 2005-06-09
EP1531402A3 (en) 2006-05-31
RU2004129675A (ru) 2006-03-20
KR20050045822A (ko) 2005-05-17
MXPA04010820A (es) 2007-11-14
RU2368946C2 (ru) 2009-09-27
AU2004218705B2 (en) 2010-03-11
CA2484410C (en) 2013-12-03
US20050102614A1 (en) 2005-05-12
US20060053001A1 (en) 2006-03-09
US7752034B2 (en) 2010-07-06
BRPI0404348A (pt) 2005-07-12
US7412385B2 (en) 2008-08-12
CA2484410A1 (en) 2005-05-12
AU2004218705A1 (en) 2005-05-26
EP1531402A2 (en) 2005-05-18
CN1617134A (zh) 2005-05-18

Similar Documents

Publication Publication Date Title
KR101130444B1 (ko) 기계번역기법을 이용한 유사문장 식별 시스템
US7546235B2 (en) Unsupervised learning of paraphrase/translation alternations and selective application thereof
US7584092B2 (en) Unsupervised learning of paraphrase/translation alternations and selective application thereof
US7552046B2 (en) Unsupervised learning of paraphrase/translation alternations and selective application thereof
US11250842B2 (en) Multi-dimensional parsing method and system for natural language processing
US6965857B1 (en) Method and apparatus for deriving information from written text
JP4491187B2 (ja) 単語間の翻訳関係を計算する方法
US20050216253A1 (en) System and method for reverse transliteration using statistical alignment
JP2012520527A (ja) ユーザ質問及びテキスト文書の意味ラベリングに基づく質問応答システム及び方法
KR20080084803A (ko) 교차-언어 지식 검색을 위한 시스템 및 방법
JP2011118689A (ja) 検索方法及びシステム
CN111382571A (zh) 一种信息抽取方法、系统、服务器和存储介质
Vechtomova et al. A domain-independent approach to finding related entities
US20220366135A1 (en) Extended open information extraction system
Mara English-Wolaytta Machine Translation using Statistical Approach
JP2005202924A (ja) 対訳判断装置、方法及びプログラム
Sankaravelayuthan et al. A Comprehensive Study of Shallow Parsing and Machine Translation in Malaylam
Srdanovic et al. A web corpus and word sketches for Japanese
Szpektor et al. Cross lingual and semantic retrieval for cultural heritage appreciation
Niklaus Text Simplification for Information Extraction
Yan et al. A novel word-graph-based query rewriting method for question answering
Maisto LG-Starship: A Framework for Text Analysis
Kadam Develop a Marathi Lemmatizer for Common Nouns and Simple Tenses of Verbs
Tyagi Natural Language Processing and Translation Using Machine Learning
Johansson Depending on VR: Rule-based Text Simplification Based on Dependency Relations

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20150217

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20160218

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20170220

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20180219

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20200218

Year of fee payment: 9