KR20080021064A - 중국어 2행연구의 생성 - Google Patents

중국어 2행연구의 생성 Download PDF

Info

Publication number
KR20080021064A
KR20080021064A KR1020077030381A KR20077030381A KR20080021064A KR 20080021064 A KR20080021064 A KR 20080021064A KR 1020077030381 A KR1020077030381 A KR 1020077030381A KR 20077030381 A KR20077030381 A KR 20077030381A KR 20080021064 A KR20080021064 A KR 20080021064A
Authority
KR
South Korea
Prior art keywords
scroll
word
sentence
words
scroll sentence
Prior art date
Application number
KR1020077030381A
Other languages
English (en)
Inventor
밍 조우
형-양 슘
Original Assignee
마이크로소프트 코포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 마이크로소프트 코포레이션 filed Critical 마이크로소프트 코포레이션
Publication of KR20080021064A publication Critical patent/KR20080021064A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation
    • G06F40/56Natural language generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/53Processing of non-Latin text

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

중국어 2행연구를 구성하는 방법, 특히 제1 스크롤 문장이 주어진 제2 스크롤 문장을 구성하는 방법이 제시된다. 이 방법은 언어 모델, 단어 변환형 모델, 및 나중에 중국어 2행연구의 제2 스크롤 문장 생성시에 사용될 수 있는 상호 정보 값과 같은 단어 연결 정보를 구성하는 단계를 포함한다. HMM(Hidden Markov Model)은 후보를 생성하기 위해 사용된다. 그 다음, 최대 엔트로피(ME) 모델은 제1 스크롤 문장이 주어지면 하나 이상의 적당한 제2 스크롤 문장을 생성하기 위해 후보를 재랭킹하는데 사용될 수 있다.
2행연구, 스크롤 문장, 언어 모델, 변환 모델, 단어 연결 정보, 매핑 테이블

Description

중국어 2행연구의 생성{GENERATING CHINESE LANGUAGE COUPLETS}
본 발명은 중국어 2행연구(couplet)의 생성에 관한 것이다.
인공 지능은 지능형 기계, 특히 컴퓨터 프로그램을 만드는 과학 및 공학이다. 인공 지능의 애플리케이션은 체스(chess)와 같은 게임 플레잉, 및 음성 인식을 포함한다.
(핀인(Pinyin)으로) "dui4-lian2"라고 불리는 중국어의 대구를 이루는 2행연구는 중요한 중국 문화 유산이라 생각된다. 대구를 이루는 2행연구의 가르침은 수 천년동안 전통적인 중국어를 가르치는 중요한 방법이었다. 전형적으로, 대구를 이루는 2행연구는 통상적으로 문(door)의 측면이나 큰 홀에 배치된 수직의 빨간 기(banner) 위에 명필로 쓰여진 2개의 구 또는 문장을 포함한다. 그러한 2행연구는 종종 결혼식과 같은 특별한 경우나 춘절, 즉 중국 설날 동안에 걸려있게 된다. 그외 다른 유형의 2행연구는 생일 2행연구, 애가조(elegiac) 2행연구, 장식용 2행연구, 직업적인 또는 기타 인간 관련 2행연구 등을 포함한다. 2행연구는 또한 통상적으로 수직 기 사이에서 문 위에 배치된 수평 스트리머(streamer)가 수반된다. 스트리머는 일반적으로 관련된 2행연구의 일반적인 토픽을 포함한다.
중국어 대구를 이루는 2행연구는 간결한 언어를 사용하지만, 깊이가 있고 때 때로 양면적인 또는 이중적인 의미를 갖는다. 2행연구를 구성하는 2개의 문장은 "제1 스크롤 문장" 및 "제2 스크롤 문장"이라 칭해질 수 있다.
중국어 2행연구의 한 예는
Figure 112007093349694-PCT00001
Figure 112007093349694-PCT00002
인데, 제1 스크롤 문장은
Figure 112007093349694-PCT00003
이고, 제2 스크롤 문장은
Figure 112007093349694-PCT00004
이다. 제1 및 제2 문장의 개별 단어들 사이의 대응 관계는 다음과 같이 나타난다:
Figure 112007093349694-PCT00005
대구를 이루는 2행연구는 상이한 길이로 이루어질 수 있다. 짧은 2행연구는 하나 또는 2개의 문자를 포함할 수 있는 반면에, 긴 2행연구는 수백 개의 문자에 이를 수 있다. 대구 2행연구는 또한 여러 가지 형태 또는 상대적인 의미를 가질 수 있다. 예를 들어, 한 형태는 동일한 의미를 갖는 제1 및 제2 스크롤 문장을 포함할 수 있다. 다른 형태는 반대 의미를 갖는 스크롤 문장을 포함할 수 있다.
그러나, 어떤 형태든 상관없이, 중국어 2행연구는 일반적으로 다음 규칙 또는 원리에 따른다:
원리 1 : 2행연구의 2개의 문장은 일반적으로 동일한 수의 단어 및 전체 수의 중국어 문자(chinese character, 한자)를 갖는다. 각각의 중국어 문자는 말할 때 하나의 음절을 갖는다. 중국어 단어는 1개, 2개 또는 그 이상의 문자를 가질 수 있고, 따라서 1개, 2개 또는 그 이상의 음절로 발음될 수 있다. 제1 스크롤 문장의 각 단어는 제2 스크롤 문장 내의 대응하는 단어와 동일한 수의 중국어 문자를 가져야 한다.
원리 2 : 톤(tone)(예를 들어, 중국어로 "Ping"(平) 및 "Ze"(仄))은 일반적으로 동시에 발생하고 조화를 이룬다. 전통적인 관습은 제1 스크롤 문장의 끝에 있는 문자가 "仄"(중국어로 "Ze" 톤이라 불림)으로 되어야 한다. 이 톤은 날카로운 내려가는 톤으로 발음된다. 제2 스크롤 문장의 끝에 있는 문자는 "平"(중국어로 "Ping" 톤이라 불림)으로 되어야 한다. 이 톤은 평조의 톤으로 발음된다.
원리 3 : 제2 문장 내의 단어의 품사는 제1 스크롤 문장 내의 대응하는 단어와 동일해야 된다. 즉, 제1 스크롤 문장 내의 명사는 제2 스크롤 문장 내의 명사에 대응해야 한다. 이것은 동사, 형용사, 수 분류사(number-classifier), 부사 등등에 대해서도 그렇게 될 수 있다. 게다가, 대응하는 단어는 제1 스크롤 문장 및 제2 스크롤 문장 내에서 동일한 위치에 있어야 된다.
원리 4 : 제2 스크롤 문장의 내용은 제1 스크롤 문장의 내용과 서로 상호관련되어야 하고, 내용은 제1 및 제2 스크롤 문장에서 중복될 수 없다.
중국어를 하는 사람들은 오락의 형태로 새로운 2행연구 만들기에 참가한다. 레크리에이션의 한가지 형태는 한 사람이 제1 스크롤 문장을 만들고, 다른 사람에게 즉석에서 적절한 제2 스크롤 문장을 만들도록 도전하는 것이다. 그러므로, 제2 스크롤 문장의 생성은 참가자의 언어학적, 창조적 및 기타 지적인 능력에 도전한다.
따라서, 중국어 2행연구의 자동 생성, 특히 제1 스크롤 문장이 주어진 제2 스크롤 문장의 자동 생성은 인공 지능의 적절하고 잘 고려된 애플리케이션이 될 수 있을 것이다.
상기 설명은 단지 일반적인 배경 정보를 위해 제공된 것일 뿐이고, 청구된 주제의 범위 결정을 돕는 것으로 사용되려는 것은 아니다.
중국어 2행연구의 제1 스크롤 문장이 주어지면 제2 스크롤 문장을 생성하는 방법이 제시된다. 이 방법은 언어 모델, 단어 변환형 모델, 및 나중에 중국어 2행연구의 제2 스크롤 문장 생성시에 사용될 수 있는 상호 정보 값과 같은 단어 연결 정보를 구성하는 단계를 포함한다. HMM(Hidden Markov Model)이 제시되어, 언어 모델 및 단어 변환형 모델에 기초하여 후보를 생성하기 위해 사용될 수 있다. 또한, (상호 정보와 같은) 문장의 단어 연결 값 또는 스코어(score)는 후보 선택을 개선하기 위해 사용될 수 있다. 그 다음, 최대 엔트로피(ME) 모델은 제1 스크롤 문장이 주어지면 하나 이상의 적당한 제2 스크롤 문장을 생성하기 위해 후보를 재랭킹하는데 사용될 수 있다.
이 요약은 단순화된 형태로 개념의 선택을 소개하기 위해 제공된 것으로, 다음의 상세한 설명 부분에서 더욱 설명된다. 이 요약은 청구된 주제의 핵심적인 특징이나 본질적인 특징을 식별하려는 것도 아니고, 청구된 주제의 범위 결정을 돕는 것으로 사용되려는 것도 아니다.
도 1은 본 발명이 실시될 수 있는 한 컴퓨팅 환경의 블럭도.
도 2는 본 발명의 전반적인 실시양상을 도시한 개략적인 흐름도.
도 3은 제2 스크롤 문장 생성에 유용한 정보가 있는 어휘 지식 베이스(lexical knowledge base)를 증대시키는 시스템의 블럭도.
도 4는 제2 스크롤 문장 생성을 실행하는 시스템의 블럭도.
도 5는 어휘 지식 베이스의 증대를 도시한 흐름도.
도 6은 제2 스크롤 문장의 생성을 도시한 흐름도.
중국어 2행연구의 자동 생성은 자연 언어 처리의 애플리케이션, 특히 인공 지능의 데몬스트레이션이다.
본 방법의 제1 실시양상은 중국어 2행연구의 제1 스크롤 문장이 주어지면 제2 스크롤 문장을 생성하는데 유용한 확률 정보와 같은 정보가 있는 어휘 지식 베이스를 증대시키는 방법을 제공한다. 제2 실시양상에서는, 제2 스크롤 문장의 후보를 생성하기 위해 사용되는 HMM이 소개된다. 제3 실시양상에서는, 제2 스크롤 문장의 후보의 재랭킹하기 위해 ME 모델이 소개된다.
본 방법의 다른 실시양상을 다루기 전에, 본 발명을 실시하기 위해 사용될 수 있는 일반적인 컴퓨팅 장치를 설명하는 것이 도움이 될 수 있다. 도 1은 본 발명이 구현되기 적합한 컴퓨팅 시스템 환경(100)의 일례를 도시한 것이다. 컴퓨팅 시스템 환경(100)은 적합한 컴퓨팅 환경의 일례에 불과하며, 본 발명의 용도 또는 기능성의 범위에 관해 어떤 제한을 암시하고자 하는 것이 아니다. 컴퓨팅 환 경(100)이 예시적인 운영 환경(100)에 도시된 컴포넌트들 중 임의의 하나 또는 그 컴포넌트들의 임의의 조합과 관련하여 어떤 의존성 또는 요구사항을 갖는 것으로 해석되어서는 안된다.
본 발명은 많은 기타 범용 또는 특수 목적의 컴퓨팅 시스템 환경 또는 구성에서 동작할 수 있다. 본 발명에서 사용하는 데 적합할 수 있는 잘 알려진 컴퓨팅 시스템, 환경 및/또는 구성의 예로는 퍼스널 컴퓨터, 서버 컴퓨터, 핸드-헬드 또는 랩톱 장치, 멀티프로세서 시스템, 마이크로프로세서 기반 시스템, 셋톱 박스, 프로그램가능한 가전제품, 네트워크 PC, 미니컴퓨터, 메인프레임 컴퓨터, 전화 시스템, 상기 시스템들이나 장치들 중 임의의 것을 포함하는 분산 컴퓨팅 환경, 기타 등등이 있지만 이에 제한되는 것은 아니다.
본 발명은 일반적으로 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터 실행가능 명령어와 관련하여 기술될 것이다. 일반적으로, 프로그램 모듈은 특정 태스크를 수행하거나 특정 추상 데이터 유형을 구현하는 루틴, 프로그램, 개체, 컴포넌트, 데이터 구조 등을 포함한다. 본 분야에 숙련된 기술자들은 임의의 형태의 컴퓨터 판독가능 매체 상에 기입될 수 있는 프로세서 실행가능 명령어로서 여기에서 제공된 설명 및 도면을 구현할 수 있다.
본 발명은 또한 통신 네트워크를 통해 연결되어 있는 원격 처리 장치들에 의해 태스크가 수행되는 분산 컴퓨팅 환경에서 실시될 수 있다. 분산 컴퓨팅 환경에서, 프로그램 모듈은 메모리 저장 장치를 비롯한 로컬 및 원격 컴퓨터 저장 매체 둘 다에 위치할 수 있다.
도 1과 관련하여, 본 발명을 구현하는 예시적인 시스템은 컴퓨터(110) 형태의 범용 컴퓨팅 장치를 포함한다. 컴퓨터(110)의 컴포넌트들은 처리 장치(120), 시스템 메모리(130), 및 시스템 메모리를 비롯한 각종 시스템 컴포넌트들을 처리 장치(120)에 연결시키는 시스템 버스(121)를 포함하지만 이에 제한되는 것은 아니다. 시스템 버스(121)는 메모리 버스 또는 메모리 컨트롤러, 주변 장치 버스 및 각종 버스 아키텍처 중 임의의 것을 이용하는 로컬 버스를 비롯한 몇몇 유형의 버스 구조 중 어느 것이라도 될 수 있다. 예로서, 이러한 아키텍처는 ISA(industry standard architecture) 버스, MCA(micro channel architecture) 버스, EISA(Enhanced ISA) 버스, VESA(video electronics standard association) 로컬 버스, 그리고 메자닌 버스(mezzanine bus)로도 알려진 PCI(peripheral component interconnect) 버스 등을 포함하지만 이에 제한되는 것은 아니다.
컴퓨터(110)는 통상적으로 각종 컴퓨터 판독가능 매체를 포함한다. 컴퓨터(110)에 의해 액세스 가능한 매체는 그 어떤 것이든지 컴퓨터 판독가능 매체가 될 수 있고, 이러한 컴퓨터 판독가능 매체는 휘발성 및 비휘발성 매체, 이동식 및 비이동식 매체를 포함한다. 예로서, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체 및 통신 매체를 포함하지만 이에 제한되는 것은 아니다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보를 저장하는 임의의 방법 또는 기술로 구현되는 휘발성 및 비휘발성, 이동식 및 비이동식 매체를 포함한다. 컴퓨터 저장 매체는 RAM, ROM, EEPROM, 플래시 메모리 또는 기타 메모리 기술, CD-ROM, DVD(digital versatile disk) 또는 기타 광 디스크 저 장 장치, 자기 카세트, 자기 테이프, 자기 디스크 저장 장치 또는 기타 자기 저장 장치, 또는 컴퓨터(110)에 의해 액세스되고 원하는 정보를 저장할 수 있는 임의의 기타 매체를 포함하지만 이에 제한되는 것은 아니다. 통신 매체는 통상적으로 반송파(carrier wave) 또는 기타 전송 메커니즘(transport mechanism)과 같은 피변조 데이터 신호(modulated data signal)에 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터 등을 구현하고 모든 정보 전달 매체를 포함한다. "피변조 데이터 신호"라는 용어는, 신호 내에 정보를 인코딩하도록 그 신호의 특성들 중 하나 이상을 설정 또는 변경시킨 신호를 의미한다. 예로서, 통신 매체는 유선 네트워크 또는 직접 배선 접속(direct-wired connection)과 같은 유선 매체, 그리고 음향, RF, 적외선, 기타 무선 매체와 같은 무선 매체를 포함한다. 상술된 매체들의 모든 조합이 또한 컴퓨터 판독가능 매체의 영역 안에 포함되는 것으로 한다.
시스템 메모리(130)는 판독 전용 메모리(ROM)(131) 및 랜덤 액세스 메모리(RAM)(132)와 같은 휘발성 및/또는 비휘발성 메모리 형태의 컴퓨터 저장 매체를 포함한다. 시동 중과 같은 때에, 컴퓨터(110) 내의 구성요소들 사이의 정보 전송을 돕는 기본 루틴을 포함하는 기본 입/출력 시스템(BIOS)(133)은 통상적으로 ROM(131)에 저장되어 있다. RAM(132)은 통상적으로 처리 장치(120)가 즉시 액세스 할 수 있고 및/또는 현재 동작시키고 있는 데이터 및/또는 프로그램 모듈을 포함한다. 예로서, 도 1은 운영 체제(134), 애플리케이션 프로그램(135), 기타 프로그램 모듈(136) 및 프로그램 데이터(137)를 도시하고 있지만 이에 제한되는 것은 아니 다.
컴퓨터(110)는 또한 기타 이동식/비이동식, 휘발성/비휘발성 컴퓨터 저장매체를 포함한다. 단지 예로서, 도 1은 비이동식·비휘발성 자기 매체에 기록을 하거나 그로부터 판독을 하는 하드 디스크 드라이브(141), 이동식·비휘발성 자기 디스크(152)에 기록을 하거나 그로부터 판독을 하는 자기 디스크 드라이브(151), CD-ROM 또는 기타 광 매체 등의 이동식·비휘발성 광 디스크(156)에 기록을 하거나 그로부터 판독을 하는 광 디스크 드라이브(155)를 포함한다. 예시적인 운영 환경에서 사용될 수 있는 기타 이동식/비이동식, 휘발성/비휘발성 컴퓨터 기억 매체로는 자기 테이프 카세트, 플래시 메모리 카드, DVD, 디지털 비디오 테이프, 고상(solid state) RAM, 고상 ROM 등이 있지만 이에 제한되는 것은 아니다. 하드 디스크 드라이브(141)는 통상적으로 인터페이스(140)와 같은 비이동식 메모리 인터페이스를 통해 시스템 버스(121)에 접속되고, 자기 디스크 드라이브(151) 및 광 디스크 드라이브(155)는 통상적으로 인터페이스(150)와 같은 이동식 메모리 인터페이스에 의해 시스템 버스(121)에 접속된다.
위에서 설명되고 도 1에 도시된 드라이브들 및 이들과 관련된 컴퓨터 저장 매체는, 컴퓨터(110)에 대한 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 및 기타 데이터를 저장한다. 도 1에서, 예를 들어, 하드 디스크 드라이브(141)는 운영 체제(144), 애플리케이션 프로그램(145), 기타 프로그램 모듈(146), 및 프로그램 데이터(147)를 저장하는 것으로 도시되어 있다. 여기서 주의할 점은 이들 컴포넌트가 운영 체제(134), 애플리케이션 프로그램(135), 기타 프로그램 모듈(136), 및 프로그램 데이터(137)와 동일하거나 그와 다를 수 있다는 것이다. 이에 관해, 운영 체제(144), 애플리케이션 프로그램(145), 기타 프로그램 모듈(146) 및 프로그램 데이터(147)에 다른 번호가 부여되어 있다는 것은 적어도 이들이 다른 사본(copy)이라는 것을 나타내기 위한 것이다.
사용자는 키보드(162), 마이크(163) 및 마우스, 트랙볼(trackball) 또는 터치 패드와 같은 포인팅 장치(161) 등의 입력 장치를 통해 명령 및 정보를 컴퓨터(110)에 입력할 수 있다. 다른 입력 장치(도시 생략)로는 조이스틱, 게임 패드, 위성 안테나, 스캐너 등을 포함할 수 있다. 이들 및 기타 입력 장치는 종종 시스템 버스에 결합된 사용자 입력 인터페이스(160)를 통해 처리 장치(120)에 접속되지만, 병렬 포트, 게임 포트 또는 USB(universal serial bus) 등의 다른 인터페이스 및 버스 구조에 의해 접속될 수도 있다. 모니터(191) 또는 다른 유형의 디스플레이 장치도 비디오 인터페이스(190) 등의 인터페이스를 통해 시스템 버스(121)에 접속된다. 모니터(191) 외에, 컴퓨터는 또한 스피커(197) 및 프린터(196) 등의 기타 주변 출력 장치를 포함할 수 있고, 이들은 출력 주변장치 인터페이스(190)를 통해 접속될 수 있다.
컴퓨터(110)는 원격 컴퓨터(180)와 같은 하나 이상의 원격 컴퓨터로의 논리적 접속을 사용하여 네트워크화된 환경에서 동작할 수 있다. 원격 컴퓨터(180)는 또 하나의 퍼스널 컴퓨터, 핸드헬드 장치, 서버, 라우터, 네트워크 PC, 피어 장치 또는 기타 통상의 네트워크 노드일 수 있고, 통상적으로 컴퓨터(110)와 관련하여 상술된 구성요소들의 대부분 또는 그 전부를 포함한다. 도 1에 도시된 논리적 접 속으로는 LAN(171) 및 WAN(173)이 있지만, 기타 네트워크를 포함할 수도 있다. 이러한 네트워킹 환경은 사무실, 전사적 컴퓨터 네트워크(enterprise-wide computer network), 인트라넷, 및 인터넷에서 일반적인 것이다.
LAN 네트워킹 환경에서 사용될 때, 컴퓨터(110)는 네트워크 인터페이스 또는 어댑터(170)를 통해 LAN(171)에 접속된다. WAN 네트워킹 환경에서 사용될 때, 컴퓨터(110)는 통상적으로 인터넷과 같은 WAN(173)을 통해 통신을 설정하기 위한 모뎀(172) 또는 기타 수단을 포함한다. 내장형 또는 외장형일 수 있는 모뎀(172)은 사용자 입력 인터페이스(160) 또는 기타 적절한 메커니즘을 통해 시스템 버스(121)에 접속될 수 있다. 네트워크화된 환경에서, 컴퓨터(110) 또는 그의 일부와 관련하여 기술된 프로그램 모듈은 원격 메모리 저장 장치에 저장될 수 있다. 예로서, 도 1은 원격 애플리케이션 프로그램(185)이 원격 컴퓨터(180)에 있는 것으로 도시하고 있지만 이에 제한되는 것은 아니다. 도시된 네트워크 접속은 예시적인 것이며 이 컴퓨터들 사이에 통신 링크를 설정하는 기타 수단이 사용될 수 있다는 것을 이해할 것이다.
개요
본 발명은 자연 언어 2행연구, 특히 2행연구의 제1 스크롤 문장이 주어진 제2 스크롤 문장의 생성에 관한 것이다. 그렇게 하기 위해서는, 나중에 제2 스크롤 문장 생성을 실행하기 위해 액세스될 수 있는 어휘 정보가 구성된다. 도 2는 참조번호(206)에 나타낸 수신된 제1 스크롤 문장에 적절한 제2 스크롤 문장을 생성하는 단계(204)를 실행하기 위해 나중에 사용되는 정보가 있는 어휘 지식 베이스를 증대 시키는 단계(202)를 포함하는 전반적인 방법(200)을 도시한 개략적인 흐름도이다. 도 3 및 4는 각각 단계(202 및 204)를 실행하는 시스템을 도시한 것이다. 도 5 및 6은 각각 도 3 및 4에 일반적으로 대응하는 흐름도이다.
UP={u1,u2,...,un}(여기에서, UP는 "상위 구"(제1 문장)를 의미함)로 표시된 제1 문장이 주어지면, 목적은 p(BP|UP)가 최대화되도록 BP={b1,b2,...,bn}로 표시된 문장을 찾는 것이다. BP는 "하위 구"(제2 문장)를 의미한다. 공식으로, p(BP|UP)를 최대화시키는 제2 스크롤 문장은 다음과 같이 표현될 수 있다:
Figure 112007093349694-PCT00006
베이즈(Bayes)의 정리에 따르면,
Figure 112007093349694-PCT00007
이므로 다음과 같이 된다:
Figure 112007093349694-PCT00008
여기에서, P(BP)라는 표현은 흔히 언어 모델이라 칭해지고, p(UP|BP)는 흔히 변환 모델이라 칭해진다. P(BP)의 값은 제2 스크롤 문장의 확률로 간주될 수 있고, P(UP|BP)는 UP에서 BP로의 변환 확률로 간주될 수 있다.
변환 모델
중국어 2행연구에서는, 각각 제1 및 제2 스크롤 문장 내에 대응하는 단어가 있는 ui와 bi 사이에 일반적으로 직접 1 대 1 매핑이 있다. 그러므로, UP 내의 i번째 단어는 BP 내의 i번째 단어로 변환되거나 그 i번째 단어와 대응한다. 단어의 독립적인 변환을 가정하면, 단어 변환 모델은 다음과 같이 표현될 수 있다:
Figure 112007093349694-PCT00009
여기에서, n은 스크롤 문장들 중의 한 문장 내의 단어 수이다. 여기에서, p(ui|bi)는 통상적으로 HMM 모델에서 방출 확률이라 칭해지는 단어 변환 확률을 나타낸다.
p(ui|bi)의 값은 당나라 시대의 시집에 있는 몇몇 문장(예를 들어, 몇몇의 4문장 시의 내부 2문장, 또는 몇몇의 8문장 시의 내부 4문장)과 같은 각종 문헌 자원에 있는 중국어 2행연구로 구성된 트레이닝 언어자료에 기초하여 평가될 수 있고, 다음 수학식으로 표현될 수 있다:
Figure 112007093349694-PCT00010
여기에서, m은 각 단어 bi에 매핑될 수 있는 i번째 상태 당 별개의 단어들의 수이다.
그러나, 현존하는 중국어 2행연구의 트레이닝 데이터 또는 언어자료가 제한된 크기로 이루어지기 때문에 데이터 부족 문제가 발생할 수 있다. 그러므로, 일부 단어는 트레이닝 데이터의 제1 스크롤 문장 내에 없을 수 있다. 또한, 제1 스크롤 문장 내의 일부 단어는 제2 스크롤 문장 내의 부족한 대응 단어를 가질 수 있다. 데이터 부족 문제를 극복하기 위해, 다음과 같이 평활화(smoothing)가 적용될 수 있다:
(1) 중국어 단어 bi가 주어지면, 트레이닝 데이터 내에서 보이는 단어 쌍 <ur,bi>에 대해, bi가 주어진 ur의 방출 확률은 다음과 같이 표현될 수 있다:
Figure 112007093349694-PCT00011
여기에서, p(ur|bi)는 수학식 4 및 x=Ei/Si를 사용하여 계산될 수 있는 변환 확률이고, Ei는 단 한차례 bi에 대응하여 나타나는 단어의 수이고, Si는 트레이닝 데이터 내에서 bi에 대응하는 트레이닝 언어자료의 제1 스크롤 문장 내의 총 단어 수이다.
(2) 트레이닝 언어자료 내에서 마주치지 않는 제1 스크롤 문장 단어 ur에 대해, 방출 확률은 다음과 같이 표현될 수 있다:
Figure 112007093349694-PCT00012
여기에서, M은 bi와 언어학적으로 매핑될 수 있는 (어휘목록에 정의된) 모든 단어의 수이고, mi는 트레이닝 언어자료 내의 bi에 매핑될 수 있는 별개의 단어들의 수이다. Σ로 표시된 주어진 중국어 어휘목록에 대해, bi와 언어학적으로 매핑될 수 있는 Li로 표시된 단어 집합은 다음의 제약조건을 충족시켜야 한다:
· Li 내의 임의의 단어는 bi와 동일한 어휘 범주 또는 품사를 가져야 한다;
· Li 내의 임의의 단어는 bi와 동일한 문자 수를 가져야 한다;
· Li 내의 임의의 단어는 bi와 합법적인 의미 관계를 가져야 한다. 합법적인 의미 관계는 동의어, 비슷한 의미, 반대되는 의미 등을 포함한다.
(3) (2)의 특별한 경우로서, 트레이닝 언어 자료 내에서 마주치지 않는 새로운 단어 bi에 대해, 변환 확률은 다음과 같이 표현될 수 있다:
Figure 112007093349694-PCT00013
언어 모델
트라이그램(trigram: 삼중음자) 모델은 다음과 같이 표현될 수 있는 언어 모델 P(BP)를 평가하기 위해 트레이닝 데이터로부터 구성될 수 있다:
Figure 112007093349694-PCT00014
여기에서, 유니그램(unigram) 값 p(bi), 바이그램(bigram) 값 p(b2|b1) 및 트라이그램 값 p(bi|bi-1,bi-2)는 시퀀스 bi-2,bi-1,bi의 가능성을 평가하기 위해 사용될 수 있다. 이들 유니그램, 바이그램 및 트라이그램 확률은 흔히 HMM 모델에서 변환 확률이라 칭해지고, 다음고 같이 최대 가능성 평가(Maximum Likelihood Estimation)를 사용하여 표현될 수 있다:
Figure 112007093349694-PCT00015
Figure 112007093349694-PCT00016
Figure 112007093349694-PCT00017
여기에서, T는 트레이닝 언어자료의 제2 스크롤 문장 내의 단어의 수이다.
상술된 변환 모델에서와 같이, 데이터 부족 문제는 언어 모델과 관련하여 이용가능하다. 그러므로, 선형 보간법이 적용되어, 다음과 같이 언어 모델을 평활화할 수 있다:
Figure 112007093349694-PCT00018
여기에서, 계수 λ1, λ2, λ3은 언어 모델의 트레이닝으로부터 얻어진다.
단어 연결 스코어(예를 들어, 상호 정보)
상술된 언어 모델 및 변환 모델 이외에, 상호 정보(MI) 값과 같은 단어 연결 스코어는 적절한 제2 스크롤 문장을 생성하는데 사용될 수 있다. BP={b1,b2,...,bn}으로 표시된 제2 스크롤 문장에 대해, BP의 MI 스코어는 BP의 모든 단어 쌍의 MI의 합이다. 각각의 단어 쌍의 상호 정보는 다음과 같이 계산된다:
Figure 112007093349694-PCT00019
여기에서, (X;Y)는 BP의 단어 쌍의 모든 조합의 집합을 나타낸다. 개별 단어 쌍 (x, y)에 대해, 수학식 12는 다음과 같이 단순화될 수 있다:
Figure 112007093349694-PCT00020
여기에서, x 및 y는 어휘목록 Σ 내의 개별 단어들이다. 변환 모델 및 언어 모델에서와 같이, 중국어 2행연구의 트레이닝 언어자료는 다음과 같이 상호 정보 파라미터를 평가하기 위해 사용될 수 있다:
Figure 112007093349694-PCT00021
Figure 112007093349694-PCT00022
Figure 112007093349694-PCT00023
Figure 112007093349694-PCT00024
여기에서, CountSen(x)는 단어 x를 포함하는 문장(제1 및 제2 스크롤 문장을 포함)의 수이고; CountSen(y)는 단어 y를 포함하는 문장의 수이며; CountSen(x,y)는 x와 y 둘 다를 포함하는 문장(제1 스크롤 문장 또는 제2 스크롤 문장)의 수이고; NumTotalSen은 트레이닝 데이터 또는 언어자료 내의 제1 스크롤 문장 및 제2 스크롤 문장의 총 수이다.
어휘 지식 베이스의 증대
앞에서 소개된 도 3 및 도 5를 다시 참조하면, 도 3은 도 2에 도시된 단계(202)를 실행할 수 있는 시스템을 도시한 것이다. 도 5는 본 발명에 따른 어휘 지식 베이스의 증대에 관한 흐름도를 도시한 것으로, 일반적으로 도 3에 대응한다.
단계(502)에서, 어휘 지식 베이스 구성 모듈(300)은 중국어 2행연구 언어자 료(302)를 수신한다. 중국어 2행연구 언어자료(302)는 상술된 임의의 데이터 저장 장치로부터뿐만 아니라 상술된 임의의 입력 장치로부터 수신될 수 있다.
대부분의 실시예에서, 중국어 2행연구 언어자료(302)는 중국어 문헌에 현존하는 것과 같은 중국어 2행연구를 포함한다. 예를 들어, 몇몇 형태의 당나라 시대 시집은 적절한 언어자료일 수 있는 다수의 중국어 2행연구를 포함한다. 중국어 2행연구 언어자료(302)는 출판물 및 웹 자원 둘 다로부터 얻어질 수 있다. 실행에 옮기기 위한 실제 자료정리에 있어서, 40,000개보다 많은 중국어 2행연구가 트레이닝 언어자료 또는 데이터로서 사용하기 위해 각종 중국어 문헌 자원으로부터 얻어졌다. 단계(504)에서, 단어 분할 모듈(304)은 중국어 언어자료(302) 상에서 단어 분할을 실행한다. 전형적으로, 단어 분할은 파서(parser)(305)를 사용하고, 언어자료(302)의 언어에 존재하는 단어들의 어휘목록(306)을 액세스함으로써 실행된다.
단계(506)에서, 계수기(308)는 참조번호(310)에 나타내 바와 같이 제2 스크롤 문장 내의 대응하는 단어 bi에 직접 매핑하는 제1 스크롤 문장 내의 단어 ur (r=1,2,...,m)의 수를 센다. 단계(508)에서, 계수기(308)는 참조번호(312)에 나타낸 바와 같이 유니그램 bi, 바이그램 bi -1,bi, 및 트라이그램 bi -2,bi -1,bi의 수를 센다. 마지막으로, 단계(509)에서, 계수기(308)는 참조번호(314)에 나타낸 바와 같이 단어 쌍 x 및 y가 동시에 존재할 뿐만 아니라 개별 단어 x 또는 y를 갖는 모든 문장(제1 및 제2 스크롤 문장)의 수를 센다. 계수 정보(310, 312 및 314)는 추가 처리를 위해 파라미터 평가 모듈(320)에 입력된다.
단계(510)에서, 앞에서 더욱 상세하게 설명된 바와 같이, 단어 변환 또는 대응 확률 트레이너(322)는 참조번호(326)에 나타낸 바와 같이 확률 값 또는 스코어 p(ur|bi)를 갖는 변환 모델(360)을 평가한다. 대부분의 실시예에서, 트레이너(322)는 변환 모델(360)의 확률 값(326)을 평활화하기 위해 어휘목록(306)을 액세스하는 평활화 모듈(324)을 포함한다.
단계(512)에서, 어휘 지식 베이스 구성 모듈(300)은 단어 목록 및 그 목록 상의 각 단어에 대응하는 하나 이상의 단어들의 집합을 포함하는 변환 사전 또는 매핑 테이블(328)을 구성한다. 매핑 테이블(328)은 나중의 처리에 유용한, 특히 제2 스크롤 문장 생성에 유용한 어휘 자원으로서 참조번호(358)에 나타낸 바와 같이 어휘 지식 베이스(301)를 증대시킨다.
단계(514)에서, 앞에서 더욱 상세하게 설명된 바와 같이, 단어 확률 트레이너(332)는 참조번호(336)에 나타낸 확률 정보로부터 언어 모델(362)을 구성한다. 단어 확률 트레이너(332)는 상술된 바와 같이 확률 분포를 평활화할 수 있는 평활화 모듈(334)을 포함할 수 있다.
단계(516)에서, 단어 연결 구성 모듈(342)은 단어 연결 정보(344)를 포함하는 단어 연결 모델(364)을 구성한다. 다수의 실시예에서, 그러한 단어 연결 정보는 상술된 바와 같이 단어 쌍들 사이의 상호 정보 스코어를 생성하기 위해 사용될 수 있다.
도 4는 제2 스크롤 문장 생성을 실행하는 시스템의 블럭도이다. 도 6은 제1 스크롤 문장으로부터 제2 스크롤 문장을 생성하는 흐름도이고, 일반적으로 도 4에 대응한다.
후보 생성
단계(602)에서, 제2 스크롤 문장 생성 모듈(400)은 상술된 임의의 입력 또는 저장 장치로부터 제1 스크롤 문장(402)을 수신한다. 대부분의 실시예에서, 제1 스크롤 문장(402)은 중국어로 되어 있고, 전형적인 중국어 2행연구의 제1 스크롤 문장의 구조를 갖는다. 단계(604)에서, 파서(305)는 참조번호(404)에 나타낸 바와 같이 개별 단어 u1,u2,...,un(여기에서, n은 제1 스크롤 문장(402) 내의 단어 수임)을 생성하기 위해 제1 스크롤 문장(402)을 구문 분석한다.
단계(606)에서, 단어 변환 모듈(411)을 포함하는 후보 생성 모듈(410)은 변환 사전 또는 매핑 테이블(358)을 액세스함으로써 제1 스크롤 문장(402) 내의 각 단어 ui (i=1,2,...,n)의 단어 조회를 실행한다. 대부분의 실시예에서, 매핑 테이블(358)은 단어 목록 ji를 포함하는데, 여기에서 i=1,2,...,D이고, D는 매핑 테이블(358) 내의 엔트리의 수이다. 매핑 테이블(358)은 또한 대응하는 가능 단어 목록 kr을 포함하는데, r=1,2,...,m이고, m은 각 워드 ji에 대한 별개의 엔트리들의 수이다. 조회 동안에, 단어 변환 모듈(411)은 단어 ui를 매핑 테이블(358) 내의 엔트리 ji와 매칭시키고, "래티스(lattice)"를 형성하기 위해 처음부터 끝까지 매핑된 단어들을 링크한다. 가능한 후보 제2 스크롤 문장은 래티스를 통과하는 "경로"로 간주될 수 있다. 단계(608)에서, 단어 변환 모듈(411)은 가능한 시퀀스 또는 래티스를 통과하는 경로의 일부 또는 전부를 포함하는 후보 제2 스크롤 문장(412)의 목록을 출력한다.
후보 필터링
필터(414, 416, 418)는 일반적으로 모든 중국어 2행연구가 따르는 (후술되는) 소정의 언어학적 규칙을 적용함으로써 후보 생성을 억제한다. 필터(414, 416, 418)는 단독으로 또는 임의의 조합으로 사용될 수 있고, 또는 원하는 대로 전부 제거될 수도 있다는 점에 주의하자.
단계(610)에서, 단어 또는 문자 반복 필터(414)는 후보의 수를 억제하기 위해 후보(412)를 필터링한다. 필터(414)는 단어 문자 반복에 관한 다양한 규칙에 기초하여 후보를 필터링한다. 한가지 그러한 규칙은 동일한 제1 스크롤 문장 단어가 있으면, 제2 스크롤 문장 내의 대응하는 단어도 역시 동일해야 한다는 것을 필요로 한다. 예를 들어, 제1 스크롤 문장:
Figure 112007093349694-PCT00025
에서, 문자
Figure 112007093349694-PCT00026
,
Figure 112007093349694-PCT00027
,
Figure 112007093349694-PCT00028
는 반복적이다. 합법적인 제2 스크롤 문장은 또한 대응하는 반복적인 단어를 포함해야 한다. 예를 들어, 가능한 제2 문장
Figure 112007093349694-PCT00029
Figure 112007093349694-PCT00030
,
Figure 112007093349694-PCT00031
,
Figure 112007093349694-PCT00032
이 각각
Figure 112007093349694-PCT00033
,
Figure 112007093349694-PCT00034
,
Figure 112007093349694-PCT00035
에 대응하고, 동일한 방식으로 반복하고 있기 때문에 합법적일 수 있다. 반복하는 제1과 제2 스크롤 문장 단어들 사이의 대응 관계는 다음 표로 더욱 명백하게 알 수 있다.
Figure 112007093349694-PCT00036
그러므로, 문자 "人"(처음 및 마지막 위치)은 제1 가로 문장에서 2번 나타나고, 대응하는 문자 "天"은 또한 제2 스크롤 문장에서 대응하는 위치에 2번 나타난다. 이것은 "道"와 "山"(세 번째 및 네 번째 위치)뿐만 아니라 "行"과 "在"(두 번째 및 여섯 번째 위치) 사이의 대응 관계에서도 그러하다.
단계(612)에서, 비반복 매핑 필터(416)는 후보 제2 스크롤 문장을 더욱 억제하기 위해 후보(412)를 필터링한다. 그러므로, 제1 스크롤 문장 내에 동일한 단어가 없으면, 그에 따라 제2 스크롤 문장도 동일한 단어가 없어야 한다. 예를 들어, 제1 스크롤 문장
Figure 112007093349694-PCT00037
를 고려하면, 제1 위치 문자 "千"은 반복되지 않는다. 그러므로, 제안된 제2 스크롤 문장
Figure 112007093349694-PCT00038
(여기에서, 제1 위치에 있는 万은 2번 나타남)은 필터링될 수 있다.
단계(614)에서, UP 단어의 비반복 필터(418)는 후보(412)의 수를 더욱 억제하기 위해 후보(412)를 필터링한다. 필터(418)는 제1 스크롤 문장(402)에서 나타나는 단어가 제2 스크롤 문장에서 다시 나타나지 않는 것을 보장한다. 예를 들어, 제1 스크롤 문장
Figure 112007093349694-PCT00039
을 고려해보자. 제2 스크롤 문장
Figure 112007093349694-PCT00040
(여기에서, 문자 "日"은 제1 및 제2 스크롤 문장의 둘 다에서 나타남)은 제1 스크롤 문장에서 나타나는 문자가 제2 스크롤 문장에서 나타나지 않아야 한다는 규칙을 위반하는 필터일 수 있으므로, 필터링될 수 있다.
이와 유사하게, 필터(418)는 제안된 제2 스크롤 문장 내의 단어가 제1 스크롤 문장 내의 대응하는 단어와 동일한 또는 유사한 발음을 가지면 후보(412)들 사이에서 제안된 제2 스크롤 문장을 필터링할 수 있다. 예를 들어, 제1 스크롤 문장
Figure 112007093349694-PCT00041
을 고려해보자. 제2 스크롤 문장
Figure 112007093349694-PCT00042
는 제5 위치의
Figure 112007093349694-PCT00043
가 제1 스크롤 문장 내의 제5 위치의 문자
Figure 112007093349694-PCT00044
와 유사하기 때문에 필터링될 수 있다.
비터비(Viterbi) 디코딩 및 후보 재랭킹
비터비 디코딩은 음성 인식 애플리케이션에서 잘 알려져 있다. 단계(616)에서, 비터비 디코더(420)는 언어 모델(362) 및 변환 모델(360)을 액세스하고, 앞에서 생성된 래티스로부터 N개의 최상의 후보(422)를 생성한다. 특정 HMM의 경우에, 비터비 알고리즘은 제1 스크롤 문장 내의 단어의 시퀀스(즉, 관찰된 상태)가 주어w지면 제2 스크롤 문장 내의 단어의 유력한 경로 또는 시퀀스(즉, 숨겨진 상태)를 찾기 위해 사용된다는 것에 주의하자.
단계(618)에서, 후보 선택 모듈(430)은 참조번호(432)에 나타낸 바와 같이 단어 변환 모델(360), 언어 모델(362) 및 단어 연결 정보(364) 중의 최소한 일부를 포함하는 특징 함수를 계산한다. 그 다음, ME 모델(433)은 재랭킹된 후보(434)를 생성하기 위해 N개의 최상의 후보(422)를 재랭킹하는데 사용된다. 가장 높은 순위로 랭킹된 후보는 참조번호(436)에 나타낸 바와 같이 BP* 표시가 붙는다. 단 계(620)에서, 재랭킹된 후보(434) 및 가장 유력한 제2 스크롤 문장(436)은 출력되어, 아마도 응용 계층으로 보내지거나 더욱 처리된다.
재랭킹은 수용가능 후보를 선택하고 거부된 후보를 배제하는 분류 프로세스로 간주될 수 있다. 대부분의 실시예에서, 재랭킹은 다음 특징이 있는 최대 엔트리(ME) 모델로 실행된다:
1. 언어 모델 스코어는 다음 수학식(상기 수학식 3)을 사용하여 계산됨:
Figure 112007093349694-PCT00045
2. 변환 모델 스코어는 다음 수학식(상기 수학식 8)으로 계산됨:
Figure 112007093349694-PCT00046
3. 상호 정보 스코어(MI)는 다음 수학식(상기 수학식 12)으로 계산됨:
Figure 112007093349694-PCT00047
ME 모델은 다음과 같이 표현된다:
Figure 112007093349694-PCT00048
여기에서, hm은 특징을 나타내고, m은 특징의 수이며, BP는 제2 스크롤 문장의 후보이고, UP는 제1 스크롤 문장이다. 상이한 특징의 계수 λm은 더욱 상세하게 후술되는 바와 같이 퍼셉트론(perceptron) 방법으로 트레이닝된다.
그러나, 트레이닝 데이터는 계수 또는 파라미터 λ={λ1, λ2,...,λm}을 트레이닝하기 위해 필요된다. 실제로, 100개의 테스트용 제1 스크롤 문장에 대해, HMM 모델은 N개의 최상의 모델을 생성하기 위해 사용되었는데, N은 100으로 설정되었다. 그 다음, 인간 조작자는 다음과 같이 허용 후보를 "1"로 표시하고, 거부 후보를 "-1"로 표시함으로써, 제2 스크롤 문장을 생성하는 타당성에 주석을 달았다:
<트레이닝 예제>
Figure 112007093349694-PCT00049
각 라인은 트레이닝 샘플을 나타낸다. i번째 샘플은 (xi,yi)로 표시될 수 있는데, 여기에서 xi는 특징 집합이고, yi는 분류 결과 (+1 및 -1)이다. 그 다음, 퍼셉트론 알고리즘은 분류자를 트레이닝하기 위해 사용될 수 있다. 아래의 표는 대부분의 실시예에서 사용되는 퍼셉트론 알고리즘을 설명한다:
<퍼셉트론 알고리즘을 사용한 파라미터 트레이닝 방법>
트레이닝 집합
Figure 112007093349694-PCT00050
이 주어지면, 트레이닝 알고리즘은 아래와 같다.
Figure 112007093349694-PCT00051
예제
제1 스크롤 문장
Figure 112007093349694-PCT00052
이 주어지면, 다음 표는 제2 스크롤 문장을 생성하는 주요 프로세스를 나타낸다. 먼저, HMM을 사용하여, 상위 50개의 제2 스크롤 문장(상위 20개가 아래에 열거됨)이 얻어진다. 비터비 디코더의 스코어는 우측 열에 열거된다. 그 다음, 이들 후보는 상호 정보로 재랭킹된다. 상호 정보의 스코어는 제2 열에서 볼 수 있다.
단계 1: 단어 분할 결과:
Figure 112007093349694-PCT00053
단계 2: 각 단어의 후보: (아래에 제1 스크롤 문장 내의 각 단어에 대한 5개의 대응하는 단어의 목록만이 제시됨)
<제1 스크롤 문장 내의 각 단어의 변환 후보>
Figure 112007093349694-PCT00054
단계 3: N개의 최상의 후보는 HMM 모델을 통해 얻어짐
단계 4: ME 모델(LM 스코어, TM 스코어 및 MI 스코어)를 사용한 재랭킹
<ME 모델의 결과>
Figure 112007093349694-PCT00055
본 주제가 구조적 특징 및/또는 방법적 액트에 특정된 언어로 설명되었지만, 첨부된 청구 범위에 정의된 주제는 상술된 특정된 특징 또는 액트에 반드시 제한되는 것은 아니라는 것을 이해할 것이다. 오히려, 상술된 특정된 특징 및 액트는 청구범위를 구현하는 예시적인 형태로 개시된다.

Claims (20)

  1. 구현시에 컴퓨터가 어휘 지식 베이스(lexical knowledge base)를 증대시키게 하는 컴퓨터에 의해 판독가능한 명령어들을 포함하는 컴퓨터 판독가능 매체에 있어서,
    자연 언어로 기입된 2행연구(couplet)들의 언어자료(corpus)를 수신하는 단계 - 각각의 2행연구는 제1 스크롤(scroll) 문장 및 제2 스크롤 문장을 포함함-;
    상기 2행연구 언어자료를 개별적인 제1 스크롤 문장 단어들 및 제2 스크롤 문장 단어들로 구문 분석하는 단계; 및
    제1 스크롤 문장 단어들 및 대응하는 제2 스크롤 문장 단어들과 관련된 확률 정보를 포함하는 변환 모델을 구성하는 단계
    를 포함하는 컴퓨터 판독가능 매체.
  2. 제1항에 있어서,
    제2 스크롤 문장 단어들의 목록을 상기 2행연구 언어자료 내의 대응하는 제1 스크롤 문장 단어들 집합에 매핑하는 단계; 및
    제2 스크롤 문장 단어들의 목록, 및 상기 목록으로 된 제2 스크롤 문장 단어들에 매핑될 수 있는 대응하는 제1 스크롤 문장 단어들 집합을 포함하는 매핑 테이블을 구성하는 단계
    를 더 포함하는 컴퓨터 판독가능 매체.
  3. 제1항에 있어서, 유니그램(unigram), 바이그램(bigram) 및 트라이그램(trigram) 확률 값들 중의 최소한 일부를 포함하는 제2 스크롤 문장 단어들의 언어 모델을 구성하는 단계를 더 포함하는 컴퓨터 판독가능 매체.
  4. 제3항에 있어서, 상기 2행연구 언어자료 내의 제1 및 제2 스크롤 문장들의 문장 계수(count)들을 포함하는 단어 연결 정보를 구성하는 단계를 더 포함하고, 상기 문장 계수들은 단어 x를 갖는 문장들의 수, 단어 y를 갖는 문장들의 수, 및 단어 x와 단어 y가 동시에 존재하는 문장들의 수를 포함하는 컴퓨터 판독가능 매체.
  5. 제3항에 있어서, 상기 변환 모델 및 상기 언어 모델을 사용하여 HMM(Hidden Markov Model)을 구성하는 단계를 더 포함하는 컴퓨터 판독가능 매체.
  6. 구현시에 컴퓨터가 어휘 지식 베이스를 증대시키게 하는 컴퓨터에 의해 판독가능한 명령어들을 포함하는 컴퓨터 판독가능 매체에 있어서,
    제1 스크롤 문장을 수신하는 단계;
    상기 제1 스크롤 문장을 단어들의 시퀀스로 구문 분석하는 단계; 및
    제2 스크롤 문장 단어들의 목록, 및 상기 목록으로 된 제2 스크롤 문장 단어들에 매핑될 수 있는 대응하는 제1 스크롤 문장 단어들 집합을 포함하는 매핑 테이 블을 액세스하는 단계
    를 포함하는 컴퓨터 판독가능 매체.
  7. 제6항에 있어서, 상기 제1 스크롤 문장의 단어 시퀀스 및 상기 매핑 테이블을 사용하여 후보 제2 스크롤 문장들의 래티스(lattice)를 구성하는 단계를 더 포함하는 컴퓨터 판독가능 매체.
  8. 제7항에 있어서, 단어 또는 문자 반복 필터; 비반복 매핑 필터; 및 제1 스크롤 문장 내의 단어들의 비반복 필터 중의 최소한 하나를 사용하여 후보 제2 스크롤 문장들의 수를 억제하는 단계를 더 포함하는 컴퓨터 판독가능 매체.
  9. 제7항에 있어서, 비터비(Viterbi) 디코더를 사용하여 상기 래티스로부터 N개의 최상의 후보 제2 스크롤 문장들의 목록을 생성하는 단계를 더 포함하는 컴퓨터 판독가능 매체.
  10. 제8항에 있어서, 최대 엔트로피 모델(Maximum Entropy Model)을 사용하여 N개의 최상의 후보들의 목록을 재랭킹하는 단계를 더 포함하는 컴퓨터 판독가능 매체.
  11. 제10항에 있어서, 상기 재랭킹 단계는 변환 모델, 언어 모델 및 단어 연결 스코어들의 최소한 일부를 포함하는 특징 함수들(feature functions)을 계산하는 단계를 포함하는 컴퓨터 판독가능 매체.
  12. 제1 스크롤 문장으로부터 제2 스크롤 문장을 생성하는 방법에 있어서,
    중국어 2행연구의 제1 스크롤 문장을 수신하는 단계;
    상기 제1 스크롤 문장을 개별 단어들의 시퀀스로 구문 분석하는 단계;
    중국어 단어 엔트리들 및 대응하는 중국어 단어들 집합들을 포함하는 매핑 테이블 내에서 상기 시퀀스 내의 각 단어의 조회를 실행하는 단계; 및
    상기 제1 스크롤 문장 단어들의 시퀀스 및 상기 대응하는 중국어 단어들 집합들에 기초하여 후보 제2 스크롤 문장들을 생성하는 단계
    를 포함하는 방법.
  13. 제12항에 있어서, 단어 또는 문자 반복, 비반복 매핑, 및 제1 스크롤 문장들 내의 비반복 단어들 중의 최소한 하나에 기초하여 필터링함으로써 후보 제2 스크롤 문장들의 수를 억제하는 단계를 더 포함하는 방법.
  14. 제12항에 있어서, N개의 최상의 후보들의 목록을 생성하기 위해 비터비 알고리즘을 상기 후보 제2 스크롤 문장들에 적용하는 단계를 더 포함하는 방법.
  15. 제14항에 있어서, 상기 N개의 최상의 후보들 목록의 각 후보에 대한 특징 함 수들을 평가하는 단계를 더 포함하고, 상기 특징 함수들은 언어 모델, 단어 변환 모델 및 단어 연결 정보 중의 최소한 일부를 포함하는 방법.
  16. 제15항에 있어서, 상기 N개의 최상의 후보들을 확률에 기초하여 재랭킹하기 위해 최대 엔트로피 모델을 사용하는 단계를 더 포함하는 방법.
  17. 제12항에 있어서, 중국어 2행연구들의 언어자료를 사용하여 제2 스크롤 문장단어가 주어진 제1 스크롤 문장 단어에 대한 조건 확률 값들을 포함하는 단어 변환 모델을 구성하는 단계를 더 포함하는 방법.
  18. 제17항에 있어서, 상기 중국어 언어자료 내의 제2 스크롤 문장 단어들에 대한 유니그램, 바이그램 및 트라이그램 확률 값들을 포함하는 언어 모델을 구성하는 단계를 더 포함하는 방법.
  19. 제18항에 있어서, 트레이닝 언어자료 내의 단어들의 쌍들에 대한 상호 정보 값들을 포함하는 단어 연결 정보를 평가하는 단계를 더 포함하는 방법.
  20. 제12항에 있어서,
    중국어 2행연구들의 언어자료를 수신하는 단계;
    상기 중국어 2행연구들을 개별 단어들로 구문 분석하는 단계; 및
    매핑 테이블을 구성하기 위해, 선택된 제2 스크롤 문장 단어들의 각각에 대해 제1 스크롤 문장 단어들의 집합을 매핑하는 단계
    를 더 포함하는 방법.
KR1020077030381A 2005-07-01 2006-07-03 중국어 2행연구의 생성 KR20080021064A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/173,892 2005-07-01
US11/173,892 US20070005345A1 (en) 2005-07-01 2005-07-01 Generating Chinese language couplets

Publications (1)

Publication Number Publication Date
KR20080021064A true KR20080021064A (ko) 2008-03-06

Family

ID=37590785

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020077030381A KR20080021064A (ko) 2005-07-01 2006-07-03 중국어 2행연구의 생성

Country Status (4)

Country Link
US (1) US20070005345A1 (ko)
KR (1) KR20080021064A (ko)
CN (1) CN101253496A (ko)
WO (1) WO2007005884A2 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101049525B1 (ko) * 2008-09-09 2011-07-15 인스티튜트 포 인포메이션 인더스트리 중문 문장 오류 검출 장치 및 방법

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070106664A1 (en) * 2005-11-04 2007-05-10 Minfo, Inc. Input/query methods and apparatuses
US7962507B2 (en) * 2007-11-19 2011-06-14 Microsoft Corporation Web content mining of pair-based data
CN102385596A (zh) * 2010-09-03 2012-03-21 腾讯科技(深圳)有限公司 一种诗句的搜索方法及装置
CN103336803B (zh) * 2013-06-21 2016-05-18 杭州师范大学 一种嵌名春联的计算机生成方法
US20170229124A1 (en) * 2016-02-05 2017-08-10 Google Inc. Re-recognizing speech with external data sources
CN106528858A (zh) * 2016-11-29 2017-03-22 北京百度网讯科技有限公司 歌词生成方法及装置
CN107329950B (zh) * 2017-06-13 2021-01-05 武汉工程大学 一种基于无词典的中文地址分词方法
CN108228571B (zh) * 2018-02-01 2021-10-08 北京百度网讯科技有限公司 对联的生成方法、装置、存储介质及终端设备
CN108874789B (zh) * 2018-06-22 2022-07-01 腾讯科技(深圳)有限公司 语句的生成方法、装置、存储介质和电子装置
CN109710947B (zh) * 2019-01-22 2021-09-07 福建亿榕信息技术有限公司 电力专业词库生成方法及装置
CN111126061B (zh) * 2019-12-24 2023-07-14 北京百度网讯科技有限公司 对联信息生成方法和装置
CN111984783B (zh) * 2020-08-28 2024-04-02 达闼机器人股份有限公司 文本生成模型的训练方法、文本生成方法及相关设备
CN112380358A (zh) * 2020-12-31 2021-02-19 神思电子技术股份有限公司 一种行业知识库的快速构建方法

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH083815B2 (ja) * 1985-10-25 1996-01-17 株式会社日立製作所 自然言語の共起関係辞書保守方法
US5477451A (en) * 1991-07-25 1995-12-19 International Business Machines Corp. Method and system for natural language translation
US5721939A (en) * 1995-08-03 1998-02-24 Xerox Corporation Method and apparatus for tokenizing text
US5806021A (en) * 1995-10-30 1998-09-08 International Business Machines Corporation Automatic segmentation of continuous text using statistical approaches
SG49804A1 (en) * 1996-03-20 1998-06-15 Government Of Singapore Repres Parsing and translating natural language sentences automatically
US6002997A (en) * 1996-06-21 1999-12-14 Tou; Julius T. Method for translating cultural subtleties in machine translation
CN1193779A (zh) * 1997-03-13 1998-09-23 国际商业机器公司 中文语句分词方法及其在中文查错系统中的应用
WO1998044432A1 (en) * 1997-04-01 1998-10-08 Yeong Kuang Oon Didactic and content oriented word processing method with incrementally changed belief system
JP2000132550A (ja) * 1998-10-26 2000-05-12 Matsushita Electric Ind Co Ltd 機械翻訳のための中国語生成装置
WO2000062193A1 (en) * 1999-04-08 2000-10-19 Kent Ridge Digital Labs System for chinese tokenization and named entity recognition
US6990439B2 (en) * 2001-01-10 2006-01-24 Microsoft Corporation Method and apparatus for performing machine translation using a unified language model and translation model
US7113903B1 (en) * 2001-01-30 2006-09-26 At&T Corp. Method and apparatus for providing stochastic finite-state machine translation
US7475006B2 (en) * 2001-07-11 2009-01-06 Microsoft Corporation, Inc. Method and apparatus for parsing text using mutual information
US7031911B2 (en) * 2002-06-28 2006-04-18 Microsoft Corporation System and method for automatic detection of collocation mistakes in documents
US7158930B2 (en) * 2002-08-15 2007-01-02 Microsoft Corporation Method and apparatus for expanding dictionaries during parsing
US20050071148A1 (en) * 2003-09-15 2005-03-31 Microsoft Corporation Chinese word segmentation

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101049525B1 (ko) * 2008-09-09 2011-07-15 인스티튜트 포 인포메이션 인더스트리 중문 문장 오류 검출 장치 및 방법

Also Published As

Publication number Publication date
WO2007005884A3 (en) 2007-07-12
CN101253496A (zh) 2008-08-27
WO2007005884A2 (en) 2007-01-11
US20070005345A1 (en) 2007-01-04

Similar Documents

Publication Publication Date Title
KR20080021064A (ko) 중국어 2행연구의 생성
US9460080B2 (en) Modifying a tokenizer based on pseudo data for natural language processing
US10878817B2 (en) Systems and methods for generating comedy
KR100996817B1 (ko) 문자 대 음성 변환을 위한 상호 정보 기준을 이용한 큰 그라포넴 단위의 생성
Brown et al. Sound correspondences in the world's languages
US8374881B2 (en) System and method for enriching spoken language translation with dialog acts
WO2019165331A1 (en) Systems and methods for generating jokes
JP7335300B2 (ja) 知識事前訓練モデルの訓練方法、装置及び電子機器
Pimentel et al. Phonotactic complexity and its trade-offs
Degaetano-Ortlieb et al. Information-based modeling of diachronic linguistic change: from typicality to productivity
Seljan et al. Combined automatic speech recognition and machine translation in business correspondence domain for english-croatian
CN112349294B (zh) 语音处理方法及装置、计算机可读介质、电子设备
Chrupała Putting natural in natural language processing
JP2017091368A (ja) 言い換え装置、方法、及びプログラム
Nelson Segmentation and UR acquisition with UR constraints
Lane et al. Interactive word completion for Plains Cree
CN111563379B (zh) 基于中文词向量模型的文本识别方法、装置及存储介质
Herawati et al. Communication Strategies Used by The Eighth Grade Students of SMP N 1 Surakarta in Developing Speaking Skill
Keenan Large vocabulary syntactic analysis for text recognition
Fushing et al. Lewis Carroll's Doublets net of English words: network heterogeneity in a complex system
Suzuki et al. Automatic emoticon generation method for web community
Jacobs Quantifying Context With and Without Statistical Language Models
Alharbi Metadiscourse tagging in academic lectures
López-Colino et al. Integration of a Spanish-to-LSE Machine Translation System into an e-learning Platform
Muche Development of an Amharic Speech to Ethiopian Sign Language Translation System

Legal Events

Date Code Title Description
WITN Withdrawal due to no request for examination