KR20040094634A - 일본어 및 중국어 음성 인식 훈련을 위한 동적 발음 지원 - Google Patents

일본어 및 중국어 음성 인식 훈련을 위한 동적 발음 지원 Download PDF

Info

Publication number
KR20040094634A
KR20040094634A KR1020040030368A KR20040030368A KR20040094634A KR 20040094634 A KR20040094634 A KR 20040094634A KR 1020040030368 A KR1020040030368 A KR 1020040030368A KR 20040030368 A KR20040030368 A KR 20040030368A KR 20040094634 A KR20040094634 A KR 20040094634A
Authority
KR
South Korea
Prior art keywords
pronunciation
training
speech recognition
training text
user interface
Prior art date
Application number
KR1020040030368A
Other languages
English (en)
Inventor
주윤-쳉
혼시아오-우엔
센주가즈히로
Original Assignee
마이크로소프트 코포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 마이크로소프트 코포레이션 filed Critical 마이크로소프트 코포레이션
Publication of KR20040094634A publication Critical patent/KR20040094634A/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0638Interactive procedures

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

간지 기반 언어(Kanji-based language)를 위한 음성 인식 훈련 시스템(speech recognition training system)이 제공된다. 이러한 시스템은 각각의 그리고 모든 표의 문자를 위한 발음 보조 수단(pronunciation aid)을 훈련 음성(training speech)에 로딩하지만, 훈련 시스템이 발음의 곤란함을 인식하기 전까지는 실질적으로 표의 문자를 디스플레이하지 않는다. 발음의 곤란함이 발견되면, 어려운 표의 문자에 대한 연관된 발음 보조 수단(루비; rubi)이 디스플레이된다.

Description

일본어 및 중국어 음성 인식 훈련을 위한 동적 발음 지원{DYNAMIC PRONUNCIATION SUPPORT FOR JAPANESE AND CHINESE SPEECH RECOGNITION TRAINING}
본 발명은 패턴 인식(pattern recognition)에 관한 것으로, 더 자세하게는 현대 음성 인식 시스템(speech recognition system)을 훈련시키기 위한 개선점을 제공한다.
일반적으로, 구술 음성을 인식하는 능력을 강화하기 위하여 음성 인식 시스템을 훈련시킨다. 훈련의 과정 동안, 훈련자는 음성 인식 시스템에 무언가를 읽어주거나 또는 상대적으로 꽤 많은 양의 음성을 제공한다. 시스템에 제공된 음성은 이미 알려진 것이고, 따라서 알려진 음성에 대한 훈련자의 발음은 음성 인식에 사용되는 수학적 모델을 조절하여 정확성을 향상시키기 위해 사용될 수 있다. 일반적으로, 훈련동안 음성 인식 시스템에 더 많은 음성이 제공될수록, 추후의 음성 인식은 더욱 정확해진다.
따라서, 음성 인식 시스템을 훈련시키는 과정은 얼마간의 시간이 걸릴 수 있다. 훈련자로 하여금 가능한 오랫동안 청각 모델 훈련 과정(acoustic modeltraining process)에 편안함을 가지도록 하는 능력은 매우 중요하다. 일본어 또는 중국어와 같은 극동 언어는 이러한 면에서 특별한 문제를 제공한다. 중국어와 마찬가지로, 현대 일본어는 간지 기록 시스템(Kanji writing system)을 많이 이용하여 기록된다. 간지(또는 중국 문자)는 발음과 의미를 나타내는 표의 문자(ideograph)인데, 이는 때때로 사용자가 발음하기 어려운 문제를 낳는다. 이러한 의도로 발음 표시(pronunciation labeling)를 제공하기 위하여 루비(rubi)라고 불리는 발음 보조 수단(일본어에 대하여 가나(kana), 중국어에 대하여 병음(Pin Yin))이 개발되었다. 현재, 간지 기반 언어를 위한 음성 인식 훈련 동안, 음성 훈련을 위해 요구되는 모든 단어 각각의 위에, 주어진 단어를 위한 루비가 디스플레이된다. 따라서, 훈련자가 읽어야 할 음성과 연관된 루비 모두를 디스플레이하는 것은 상대적으로 난잡스럽고 혼란스러운 일이다. 더욱이, 각각의 모든 단어에 대하여 루비를 디스플레이하는 것은 사실, 훈련 기간의 대부분의 단어를 발음하는 방법을 알고 있는 훈련자를 불쾌하게 할 수 있다.
훈련 디스플레이를 단순하게 하고, 동시에 훈련자를 불쾌하게 하지 않으면서 중국어 및 일본어 문자의 발음을 용이하게 하는 음성 인식 훈련 세션(speech recognition training session)을 제공하는 것은 중국어 및 일본어와 같은 간지 기반 언어를 위한 음성 인식 훈련에 중대한 진보를 가져올 것이다. 더욱이, 이러한 시스템은 음성 훈련자가 더 오랜 기간 동안 보다 정확하게 훈련하는 능력을 향상시킴으로써, 음성 시스템의 전체적인 음성 인식을 향상시킨다고 알려져 있다. 향상된 인식으로 인해 음성 인식 시스템에 대한 사용자의 전체적인 인상이 더욱 강화될것이다.
간지(또는 중국 문자)는 발음과 의미를 나타내는 표의 문자인데, 이는 때때로 사용자가 발음하기 어려운 문제를 낳는다. 이러한 의도로, 발음 표시를 제공하기 위하여 루비라고 불리는 발음 보조 수단(일본어에 대하여 간지, 중국어에 대하여 병음)이 개발되었다. 현재, 간지 기반 언어를 위한 음성 인식 훈련 동안, 음성 훈련을 위해 요구되는 모든 단어 각각의 위에, 주어진 단어를 위한 루비가 디스플레이된다. 따라서, 훈련자가 읽어야 할 음성과 연관된 루비 모두를 디스플레이하는 것은 상대적으로 난잡스럽고 혼란스러운 일이다. 더욱이, 각각의 모든 단어에 대하여 루비를 디스플레이하는 것은 사실, 훈련 세션의 대부분의 단어를 발음하는 방법을 알고 있는 훈련자를 불쾌하게 할 수 있다.
훈련 디스플레이를 단순하게 하고, 동시에 훈련자를 불쾌하게 하지 않으면서 중국어 및 일본어 문자의 발음을 용이하게 하는 음성 인식 훈련 세션을 제공하는 것은 중국어 및 일본어와 같은 간지 기반 언어를 위한 음성 인식 훈련에 중대한 진보를 가져올 것이다.
도 1은 본 발명이 실시될 수 있는 일 컴퓨팅 환경의 블록도.
도 2는 본 발명이 실시될 수 있는 대안적인 컴퓨팅 환경의 블록도.
도 3은 종래 기술에 따른, 음성 인식 훈련 사용자 인터페이스의 개략적인 화면을 도시한 도면.
도 4는 본 발명의 실시예에 따른, 음성 인식 훈련 사용자 인터페이스의 개략적인 화면을 도시한 도면.
도 5는 본 발명의 실시예에 따른, 음성 인식 훈련 사용자 인터페이스의 다른 개략적인 화면을 도시한 도면.
도 6은 본 발명의 실시예에 따른, 음성 훈련 동안 발음을 선택적으로 보조하는 방법의 블록도.
< 도면의 주요 부분에 대한 부호 설명 >
110 : 컴퓨터
120 : 처리 장치
121 : 버스
130 : 시스템 메모리
131 : ROM
132 : RAM
133 : BIOS
134 : 운영 시스템
135 : 애플리케이션 프로그램들
간지 기반 언어를 위한 음성 인식 훈련 시스템을 제공한다. 시스템은 훈련 음성 내의 각각의 모든 표의 문자에 대한 발음 보조 수단(pronunciation aids)을 로딩하지만, 훈련 시스템이 발음의 곤란함을 인식하기까지는 표의 문자를 디스플레이하지 않는다. 발음의 곤란함을 식별하면, 곤란한 표의 문자에 대한 연관된 발음보조 수단(루비)이 디스플레이된다.
도 1은 본 발명이 구현될 수 있는 적절한 컴퓨팅 시스템 환경(100)의 예를 도시한다. 본 컴퓨팅 시스템 환경(100)은 오직 적절한 컴퓨팅 환경의 일 예일 뿐이고, 사용 또는 발명의 기능의 범위에 대하여 어떠한 제한을 제시하려는 의도가 아니다. 컴퓨팅 환경(100)이 예시적인 운영 환경(100)에 도시된 컴포넌트들 중의 임의의 하나 또는 조합과 관련하여 어떠한 종속성 또는 요구 사항을 가지는 것으로 해석하여서는 안 된다.
본 발명은 다수의 다른 범용 또는 전용 컴퓨팅 시스템 환경 또는 설정에서 사용할 수 있다. 본 발명과의 사용에 적합한 잘 알려진 컴퓨팅 시스템, 환경 및/또는 설정의 예로 개인용 컴퓨터, 서버 컴퓨터, 핸드-헬드 또는 랩톱 장치, 멀티프로세서 시스템, 마이크로프로세서 기반 시스템, 셋톱 박스, 프로그래머블 소비자 전자제품(programmable consumer electronics), 네트워크 PC, 미니컴퓨터, 메인프레임 컴퓨터, 전화 통신 시스템(telephony system) 및 이상의 시스템 또는 장치를 포함하는 분산 컴퓨팅 환경 등을 들 수 있는데, 이에 제한되지는 않는다.
본 발명은 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터 실행 가능 명령어와 관련하여 일반적으로 기술된다. 일반적으로, 프로그램 모듈은 루틴, 프로그램, 개체, 컴포넌트, 데이터 구조 등을 포함하는데, 이는 특별한 작업을 수행하거나, 특별한 추상 데이터 타입(abstract data type)을 구현한다. 또한, 본 발명은 통신 네트워크를 통해 링크된 원격 처리 장치에 의해 작업이 수행되는 분산 컴퓨팅 환경에서 실시될 수 있다. 분산 컴퓨팅 환경에서, 프로그램 모듈은 메모리저장 장치를 포함하는 지역 및 원격 컴퓨터 저장 매체 모두에 위치할 수 있다.
도 1을 참조하면, 본 발명의 구현을 위한 예시적인 시스템은 컴퓨터(110)의 형태로 범용 컴퓨팅 장치를 포함한다. 컴퓨터(110)의 컴포넌트는 중앙 처리 장치(central processing unit; 120), 시스템 메모리(130) 및 시스템 메모리를 포함하는 다양한 시스템 컴포넌트를 처리 장치(120)에 연결시키는 시스템 버스(121)를 포함하나, 이에 한정되지는 않는다.
시스템 버스(121)는 메모리 버스 또는 메모리 제어기(memory controller), 주변 버스(peripheral bus) 및 다양한 버스 아키텍쳐 중의 임의의 것을 사용하는 지역 버스를 포함하는 여러 유형의 버스 구조 중의 임의의 것이 될 수 있다. 제한이 아닌 예로서, 이러한 아키텍쳐는 ISA(Industrial Standard Architecture) 버스, MCA(Micro Channel Architecture) 버스, EISA(Enhanced ISA) 버스, VESA(Video Electronics Standards Association) 지역 버스 및 메자닌 버스(Mezzanine bus)로도 잘 알려진 PCI(Peripheral component Interconnect) 버스를 포함한다.
전형적으로, 컴퓨터(110)는 다양한 컴퓨터 판독 가능 매체를 포함한다. 컴퓨터 판독 가능 매체는 컴퓨터(110)에 의해 접근 가능한 임의의 이용 가능한 매체가 될 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 고정형 매체 모두를 포함한다. 제한이 아닌 예로서, 컴퓨터 판독 가능 매체는 컴퓨터 저장 매체 및 통신 매체를 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독 가능 명령어, 데이터 구조, 프로그램 모듈 또는 다른 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 고정형 매체 모두를 포함한다. 컴퓨터 저장 매체는 RAM, ROM, EEPROM, 플래시 메모리 또는 다른 메모리 기술, CD-ROM, DVD(Digital Versatile Disks) 또는 다른 광 디스크 저장, 자기 카세트, 자기 테이프, 자기 디스크 저장 또는 다른 자기 저장 장치, 또는 희망하는 정보를 저장하기 위해 사용될 수 있고, 컴퓨터(110)에 의해 접근할 수 있는 임의의 다른 매체를 포함하는데, 이에 제한되지는 않는다. 전형적으로, 통신 매체는 컴퓨터 판독 가능 명령어, 데이터 구조, 프로그램 모듈 또는 반송파(carrier wave)나 다른 전송 메커니즘과 같은 변조된 데이터 신호(modulated data signal) 형태의 다른 데이터를 구현하고, 임의의 정보 전달 매체(information delivery media)를 포함한다. "변조된 데이터 신호"라는 용어는 하나 이상의 특징 세트(characteristics set)를 가지거나, 위의 신호에 정보를 인코딩하기 위한 방식으로 변화된 신호를 의미한다. 제한이 아닌 예로서, 통신 매체는 유선 네트워크(wired network) 또는 직접 유선 접속(direct-wired connection)과 같은 유선 매체 및 음향(acoustic), RF, 적외선 및 다른 무선 매체와 같은 무선 매체를 포함한다. 또한, 이상의 것들의 임의의 조합도 컴퓨터 판독 가능 매체의 범위에 포함되어야 한다.
시스템 메모리(130)는 ROM(131) 및 RAM(132)과 같은 휘발성 및/또는 비휘발성 메모리 형태의 컴퓨터 저장 매체를 포함한다. 전형적으로, 기동(start-up) 시에서와 같이 컴퓨터(110) 내의 요소 간 정보 전송을 돕는 기본 루틴을 포함하는 BIOS(Basic Input/Output System; 133)는 ROM(131)에 저장된다. 전형적으로, RAM(132)은 즉시 접근 가능하고/하거나 현재 처리 장치(120)상에서 동작 중인 데이터 및/또는 프로그램 모듈을 포함한다. 제한이 아닌 예로서, 도 1은 운영시스템(134), 애플리케이션 프로그램들(135), 다른 프로그램 모듈들(136) 및 프로그램 데이터(137)를 도시한다.
또한, 컴퓨터(110)는 다른 분리형/고정형 및 휘발성/비휘발성 컴퓨터 저장 매체를 포함할 수 있다. 오직 예를 들기 위한 목적으로, 도 1은 고정형, 비휘발성 자기 매체로부터의 판독 또는 그에 대한 기록을 위한 하드디스크 드라이브(141), 분리형, 비휘발성 자기 디스크(152)로부터의 판독 또는 그에 대한 기록을 위한 자기 디스크 드라이브(151) 및 CD-ROM 또는 다른 광 매체와 같은 분리형, 비휘발성 광 디스크(156)로부터의 판독 또는 그에 대한 기록을 위한 광 디스크 드라이브(155)를 도시한다. 예시적인 운영 환경에서 사용될 수 있는 다른 분리형/고정형, 휘발성/비휘발성 컴퓨터 저장 매체로는 자기 테이프 카세트, 플래시 메모리 카드, 디지털 휘발성 디스크, 디지털 비디오 테이프, 고체 상태 RAM(solid state RAM), 고체 상태 ROM 등이 있는데, 이에 제한되지는 않는다. 전형적으로, 하드디스크 드라이브(141)는 인터페이스(140)와 같은 고정형 메모리 인터페이스를 통해 시스템 버스(121)에 접속되고, 자기 디스크 드라이브(151) 및 광 디스크 드라이브(155)는 전형적으로 인터페이스(150)와 같은 분리형 메모리 인터페이스에 의해 시스템 버스(121)에 접속된다.
도 1에서 상술 및 도시된, 드라이브들 및 연관된 컴퓨터 저장 매체는 컴퓨터 판독 가능 명령어, 데이터 구조, 프로그램 모듈 및 컴퓨터(110)를 위한 다른 데이터의 저장을 제공한다. 예컨대, 도 1에서, 하드 디스크 드라이브(141)는 운영 시스템(144), 애플리케이션 프로그램들(145), 다른 프로그램 모듈들(146) 및 프로그램 데이터(147)를 저장하는 것으로 도시되어 있다. 이러한 컴포넌트들은 운영 시스템(134), 애플리케이션 프로그램들(135), 다른 프로그램 모듈들(136) 및 프로그램 데이터(137)와 같을 수도 또는 다를 수도 있음에 주의해야 한다. 운영 시스템(144), 애플리케이션 프로그램들(145), 다른 프로그램 모듈들(146) 및 프로그램 데이터(147)는 최소한 그들이 다른 사본임을 나타내기 위해 도면 상에서 다른 번호를 부여했다.
사용자는 키보드(162), 마이크로폰(163) 및 마우스, 트랙볼 또는 터치패드와 같은 위치 지정 장치(161) 등의 입력 장치를 통해 컴퓨터(110)로 명령 및 정보를 입력할 수 있다. 다른 입력 장치들(도시되지 않음)로는 조이스틱, 게임 패드, 위성 접시(satellite dish), 스캐너 등이 포함될 수 있다. 이러한 그리고 다른 입력 장치들은 종종 시스템 버스에 연결된 사용자 입력 인터페이스(160)을 통해 처리 장치(120)에 접속되지만, 병렬 포트, 게임 포트 또는 USB(Universal Serial Bus)와 같은 버스 구조 및 다른 인터페이스에 의해 접속될 수도 있다. 또한, 모니터(191) 또는 다른 유형의 디스플레이 장치는 비디오 인터페이스(190)와 같은 인터페이스를 통해 시스템 버스(121)에 접속된다. 모니터 이외에도, 컴퓨터는 스피커(197) 및 프린터(196)와 같은 다른 주변 출력 장치들을 포함할 수 있는데, 이는 출력 주변 인터페이스(output peripheral interface; 190)를 통해 접속된다.
컴퓨터(110)는 원격 컴퓨터(180)와 같은 하나 이상의 원격 컴퓨터들과의 논리 접속(logical connection)을 사용하여 네트워크 환경에서 동작할 수 있다. 원격 컴퓨터(180)는 개인용 컴퓨터, 핸드-헬드 장치, 서버, 라우터, 네트워크 PC, 피어 장치(peer device) 또는 다른 공용 네트워크 노드(common network node)가 될 수 있고, 전형적으로 컴퓨터(110)에 대하여 상술한 많은 또는 모든 요소들을 포함한다. 도 1에 도시된 논리 접속은 LAN(Local Area Network; 171) 및 WAN(Wide Area Network; 173)를 포함하는데, 또한 다른 네트워크를 포함할 수도 있다. 이러한 네트워킹 환경은 사무실, 기업 규모 컴퓨터 네트워크, 인트라넷 및 인터넷에서는 흔한 경우이다.
LAN 네트워킹 환경에서 사용되는 경우, 컴퓨터(110)는 네트워크 인터페이스 또는 어댑터(170)를 통해 LAN(171)에 접속된다. WAN 네트워킹 환경에서 사용되는 경우, 컴퓨터(110)는 전형적으로 모뎀(172) 또는 인터넷과 같은 WAN(173)에 대해 통신을 설정하기 위한 다른 수단을 포함한다. 내장형 또는 외장형의 모뎀(172)은 사용자 입력 인터페이스(160) 또는 다른 적절한 메커니즘을 통해 시스템 버스(121)에 접속될 수 있다. 네트워크 환경에서, 컴퓨터(110)에 대하여 기술된 프로그램 모듈 또는 그의 일부는 원격 메모리 저장 장치에 저장될 수 있다. 제한이 아닌 예로서, 도 1은 원격 애플리케이션 프로그램들(185)이 원격 컴퓨터(180)에 존재하는 것으로 도시하고 있다. 도시된 네트워크 접속들은 예시적이고, 컴퓨터들 간에 통신 링크를 설정하기 위한 다른 수단이 사용될 수 있음을 인식할 것이다.
도 2는 예시적인 컴퓨팅 환경인 이동식 장치(200)의 블록도이다. 이동식 장치(200)는 마이크로 프로세서(202), 메모리(204), 입/출력(I/O) 컴포넌트(206) 및 원격 컴퓨터 또는 다른 이동식 장치와의 통신을 위한 통신 인터페이스(208)를 포함한다. 일 실시예에서, 상술한 컴포넌트들은 통신을 위해 적절한 버스(210)를 통해서로 연결된다.
메모리(204)는 이동식 장치(200)로의 일반 전원이 중단된 경우에도 메모리(204)에 저장된 정보가 소실되지 않도록 배터리 백업 모듈(battery back-up module)을 가지는 RAM(도시되지 않음)과 같은 비휘발성 전자 메모리로 구현된다. 바람직하게는, 메모리(204)의 일부는 프로그램의 실행을 위해 주소 지정 메모리(addressable memory)로 할당되고, 메모리(204)의 다른 일부는 디스크 드라이브 상의 저장을 시뮬레이트하도록 저장을 위해 사용된다.
메모리(204)는 개체 저장소(216) 뿐만 아니라, 운영 시스템(212), 애플리케이션 프로그램들(214)을 포함한다. 바람직하게는, 동작 동안 운영 시스템(212)은 프로세서(202)에 의해 메모리(204)로부터 실행된다. 바람직한 일 실시예로, 운영 시스템(212)은 Microsoft Corporation의 상업적으로 이용 가능한 WINDOWS? CE 상표 운영 시스템이 있다. 바람직하게는, 운영 시스템(212)은 이동식 장치를 위해 디자인되고, 한 세트의 노출된 API(Application Programming Interfaces) 및 메소드들을 통해 애플리케이션(214)에 의해 이용될 수 있는 데이터베이스 특징들을 구현한다. 개체 저장소(216) 내의 개체들은 적어도 부분적으로는 노출된 API 및 메소스들의 호출에 대한 응답으로, 애플리케이션들(214) 및 운영 시스템(212)에 의해 유지된다.
통신 인터페이스(208)는 이동식 장치(200)가 정보를 송신 및 수신할 수 있도록 해주는 다수의 장치들 및 기술들을 나타낸다. 이러한 장치들은 유선 및 무선 모뎀, 위성 수신기 및 몇몇을 지정하기 위한 방송 튜너(broadcast tuner)를 포함한다. 또한, 이동식 장치(200)는 컴퓨터와 데이터를 교환하기 위하여 컴퓨터에 직접 접속될 수 있다. 이러한 경우에, 통신 인터페이스(208)는 적외선 송수신기 또는 직렬 혹은 병렬 통신 접속이 될 수 있는데, 이상의 모든 것은 스트리밍 정보(streaming information)를 전송할 수 있다.
입력/출력 컴포넌트들(206)은 터치 스크린(touch-sensitive screen), 버튼, 롤러 및 마이크로폰과 같은 다양한 입력 장치들과 오디오 발생기(audio generator), 진동 장치 및 디스플레이를 포함하는 다양한 출력 장치들을 포함한다. 이상에서 나열된 장치들은 예시일 뿐이고, 이동식 장치(200)상에 모두 제시될 필요는 없다. 부가적으로, 본 발명의 범위 내에서, 다른 입력/출력 장치가 부가되거나 이동식 장치(200)와 함께 발견될 수 있다.
본 발명의 일 태양에 따르면, 훈련자가 발음에 있어 어려움을 겪는 단어에 대해서 루비들을 동적으로 디스플레이하는 사용자 인터페이스 컴포넌트가 사용된다. 이러한 새로운 UI 컴포넌트(240)는 일본어 및 중국어 사용자에게 보다 친숙하고 편안한 훈련 세션을 제공한다. 도 3은 종래 기술에 따른 사용자 인터페이스 컴포넌트를 도시한다. 과거에는, 훈련자에게 판독할 문장을 디스플레이 하기 전에, 프롬프트 파일 디스플레이(Prompt File Display) 사용자 인터페이스 모듈(user interface module; 230)은 모든 단어에 대해 루비(232)를 준비해서, 완전한 문장과 함께 모든 루비(232)를 디스플레이했다. 그 후, 종래 기술에서의 사용자 인터페이스 컴포넌트(230)는 진행 상황을 보여줄 수 있도록 발음된 단어를 밝게 하기(highlight) 위하여, 그리고 임의의 거절 또는 때 이른(premature) 긴 휴지 기간(pause)이 탐지되면, 문장의 나머지 부분에 대해 계속하여 적응할 수 있도록 문맥상 자유로운 문법을 재생성하기 위하여 음성 인식 엔진으로부터 통지를 기다린다.
본 발명의 광범위한 일 태양에 따르면, 사용자 인터페이스 모듈(240)은 루비를 준비하지만, 실질적으로 이들 중의 어떤 것도 디스플레이 하지 않는다. 결과적으로, 훈련자는 훈련 텍스트(training text)의 각각의 새로운 페이지를 시작하는 경우, 순수하게 문장만을 보게 된다. 이러한 상황이 도 4에 도시되어 있다. 사용자 인터페이스 모듈(240)이 문장을 진행함에 따라, 모듈(240)은 발음의 곤란함(pronunciation difficulty; 음성 인식 거절 또는 긴 휴지 기간 식별)이 발견될 때마다, 어려운 단어 가까이에 루비를 디스플레이 할 것이다. 바람직하게는, 모듈(240)은 다량의 훈련 텍스트를 디스플레이하기 위한 훈련 텍스트 부분(244)을 포함한다. 또한, 모듈(240)은 음성 인식 엔진(248)으로부터 통지를 수신하기 위한 통신 채널(246)을 포함한다. 과거에, 음성 인식 엔진은 단순히, 훈련자가 적절히 판독을 유지하도록 인식된 단어의 표시를 제공했다. 그러나, 모듈(240)은 발음의 곤란함에 대한 통지를 수신하기 위하여 인식 엔진(248)과의 통신 채널을 사용한다. 이로 인해, 모듈(240)은 훈련자가 발음의 곤란함을 마주친 단어에 대해서만 선택적으로 루비를 디스플레이한다. 그러므로, 사용자가 발음의 곤란함을 느끼지 않고 모든 텍스트를 판독할 수 있다면, 루비들로 인해 디스플레이가 방해받거나 조각나지 않는 것이 완벽히 가능하다. 이는 훈련자를 위한 가장 단순하고, 효율적인 음성 훈련 디스플레이를 제공한다고 생각된다.
도 5는 음성 훈련 동안 훈련자가 발음의 곤란함을 마주친 상황을 도시한다. 사용자 인터페이스 모듈(240)은 필요에 따라 루비들을 디스플레이한다. 이러한 상황에서, 훈련자는 해당 단어의 정확한 발음을 모르므로, 음성 인식 엔진에 의해 거절 통지가 발생하고, 이는 사용자 인터페이스 모듈(240)에 의해 수신된다. 이제, 사용자 인터페이스 모듈(240)은 해당 단어의 발음을 표시하여 훈련자가 계속하여 진행할 수 있도록, 디스플레이 상에 어려운 단어를 위한 루비(242)를 신중히 위치시킨다.
도 6은 본 발명의 일 태양에 따른, 간지 기반 음성 훈련 텍스트를 위해 선택적으로 루비를 디스플레이하는 방법의 시스템 흐름도이다. 블록(300)에 있어서, 훈련 텍스트에 대한 모든 루비가 시스템 메모리에 로딩되지만, 사용자 인터페이스 모듈은 초기에 어떠한 루비도 디스플레이하지 않는다. 블록(302)에서, 음성 인식은 발음의 곤란함을 탐지한다. 예컨대, 이러한 곤란함은 중단(pause) 또는 잘못된 발음을 포함한다. 그러나, 본 발명의 실시예에 따른, 다른 적절한 탐지 가능한 발음의 곤란함이 사용될 수 있다.
블록(302)에서, 음성 인식 모듈(도시되지 않음)은 사용자 인터페이스 모듈(240)에 탐지된 발음의 곤란함을 통지한다. 그 후, 사용자 인터페이스 모듈이, 훈련 중인 페이지가 훈련자에 의해 완료되었는지를 판단하는 블록(304)으로 제어권이 넘어간다. 실질적으로, 훈련 중인 페이지가 완료되었으면, 라우터(306)를 따라 제어권이 넘어가고, 해당 페이지에 대한 훈련은 완료된다. 그러나, 경로(308)에 나타난 바와 같이, 훈련자가 페이지를 완료하지 않았으면, 블록(310)에 나타난 것처럼 사용자 인터페이스 모듈은 훈련 텍스트에 다음 단어를 위한 루비를 디스플레이할 것이다. 루비가 디스플레이되면, 제어권은 블록(302)으로 반환되고, 위의 방법이 반복된다.
본 발명이 특정한 실시예와 관련하여 기술되어 있지만, 당업자는 발명의 사상 및 범위를 벗어나지 않고 형식 및 세부 사항에 있어 변화가 발생할 수 있음을 알 수 있을 것이다. 예컨대, 본 명세서에 기술된 발음 보조 수단들은 텍스트형(루비)이었으나, 올바른 발음의 소리 녹음과 같은 다른 적절한 발음 보조수단이 또한 동적으로 제공될 수 있다.
훈련 디스플레이를 단순하게 하고, 동시에 훈련자를 불쾌하게 하지 않으면서 중국어 및 일본어 문자의 발음을 용이하게 하는 음성 인식 훈련 세션(speech recognition training session)을 제공하는 것은 중국어 및 일본어와 같은 간지 기반 언어를 위한 음성 인식 훈련에 중대한 진보를 가져올 것이다. 더욱이, 이러한 시스템은 음성 훈련자가 더 오랜 기간 동안 보다 정확하게 훈련하는 능력을 향상시킴으로써, 음성 시스템의 전체적인 음성 인식을 향상시킨다고 알려져 있다.

Claims (13)

  1. 음성 인식 훈련(speech recognition training)을 위한 사용자 인터페이스 모듈에 있어서,
    훈련 텍스트(training text)를 디스플레이하기 위한 훈련 텍스트 부분;
    상기 훈련 텍스트 내의 어려운 단어(troubling word)에 관하여 상기 엔진으로부터 발음의 곤란함(pronunciation difficulty)의 표시를 수신하기 위하여 음성 인식 엔진(speech recognition engine)과 연결 가능한 통신 채널(communication channel); 및
    상기 발음의 곤란함의 표시에 응답하여, 상기 어려운 단어의 발음을 보조하기 위하여 배치된, 선택적으로 디스플레이되는 발음 보조 수단(pronunciation aid)
    을 포함하는 사용자 인터페이스 모듈.
  2. 제1항에 있어서, 상기 선택적으로 디스플레이되는 발음 보조 수단은 루비(rubi)인 사용자 인터페이스 모듈.
  3. 제1항에 있어서, 상기 훈련 텍스트는 적어도 하나의 표의 문자(ideograph)를 포함하는 사용자 인터페이스 모듈.
  4. 제3항에 있어서, 상기 훈련 텍스트는 중국어로 기록된 사용자 인터페이스 모듈.
  5. 제3항에 있어서, 상기 훈련 텍스트는 일본어로 기록된 사용자 인터페이스 모듈.
  6. 제1항에 있어서, 상기 발음 보조 수단은 어려운 단어의 위에 디스플레이되는 사용자 인터페이스 모듈.
  7. 음성 인식 시스템(speech recognition system)을 훈련시키는 방법에 있어서,
    적어도 하나의 표의 문자 형태로 다량의 훈련 텍스트를 로딩하는 단계;
    어떠한 발음 보조 수단도 없이 상기 훈련 텍스트를 디스플레이하는 단계;
    상기 훈련 텍스트 내의 어려운 단어에 대한 발음의 곤란함의 통지를 수신하는 단계; 및
    상기 어려운 단어에 관한 발음 보조 수단(pronunciation aid)을 선택적으로 제공하는 단계
    를 포함하는 방법.
  8. 제7항에 있어서, 상기 발음 보조 수단을 제공하는 상기 단계는 상기 어려운 단어의 발음을 보조하기 위해 루비를 디스플레이하는 것을 포함하는 방법.
  9. 제7항에 있어서, 상기 훈련 텍스트는 중국어로 기록된 방법.
  10. 제7항에 있어서, 상기 훈련 텍스트는 일본어로 기록된 방법.
  11. 제7항에 있어서, 상기 통지는 음성 인식 엔진으로부터 수신되는 방법.
  12. 제7항에 있어서, 상기 발음의 곤란함은 중단(pause)을 포함하는 방법.
  13. 제7항에 있어서, 상기 발음의 곤란함은 잘못된 발음(mispronunciation)을 포함하는 방법.
KR1020040030368A 2003-05-01 2004-04-30 일본어 및 중국어 음성 인식 훈련을 위한 동적 발음 지원 KR20040094634A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/427,216 2003-05-01
US10/427,216 US20040236581A1 (en) 2003-05-01 2003-05-01 Dynamic pronunciation support for Japanese and Chinese speech recognition training

Publications (1)

Publication Number Publication Date
KR20040094634A true KR20040094634A (ko) 2004-11-10

Family

ID=32990436

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020040030368A KR20040094634A (ko) 2003-05-01 2004-04-30 일본어 및 중국어 음성 인식 훈련을 위한 동적 발음 지원

Country Status (12)

Country Link
US (1) US20040236581A1 (ko)
EP (1) EP1475776B1 (ko)
JP (1) JP2004334207A (ko)
KR (1) KR20040094634A (ko)
CN (1) CN1551102A (ko)
AT (1) ATE331276T1 (ko)
AU (1) AU2004201480A1 (ko)
BR (1) BRPI0401664A (ko)
CA (1) CA2463572A1 (ko)
DE (1) DE602004001280T2 (ko)
MX (1) MXPA04004142A (ko)
RU (1) RU2344492C2 (ko)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8290775B2 (en) * 2007-06-29 2012-10-16 Microsoft Corporation Pronunciation correction of text-to-speech systems between different spoken languages
US8438008B2 (en) * 2010-08-03 2013-05-07 King Fahd University Of Petroleum And Minerals Method of generating a transliteration font
US9437190B2 (en) * 2011-09-09 2016-09-06 Asahi Kasei Kabushiki Kaisha Speech recognition apparatus for recognizing user's utterance
US9685154B2 (en) 2012-09-25 2017-06-20 Nvoq Incorporated Apparatus and methods for managing resources for a system using voice recognition
RU2530268C2 (ru) 2012-11-28 2014-10-10 Общество с ограниченной ответственностью "Спиктуит" Способ обучения информационной диалоговой системы пользователем
JP6229645B2 (ja) * 2013-11-20 2017-11-15 キヤノンマーケティングジャパン株式会社 情報処理装置、情報処理方法、及びそのプログラム
CN107041159B (zh) * 2014-08-13 2020-09-11 俄克拉荷马大学董事会 发音助手
JP6366179B2 (ja) * 2014-08-26 2018-08-01 日本放送協会 発話評価装置、発話評価方法、及びプログラム
US9886433B2 (en) * 2015-10-13 2018-02-06 Lenovo (Singapore) Pte. Ltd. Detecting logograms using multiple inputs

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4713008A (en) * 1986-09-09 1987-12-15 Stocker Elizabeth M Method and means for teaching a set of sound symbols through the unique device of phonetic phenomena
US4891011A (en) * 1988-07-13 1990-01-02 Cook Graham D System for assisting the learning of a subject
JP3575904B2 (ja) * 1995-04-26 2004-10-13 株式会社リコー 連続音声認識方式及び標準パタン訓練方式
CN1137449C (zh) * 1997-09-19 2004-02-04 国际商业机器公司 在中文语音识别系统中识别字母/数字串的方法
US6336089B1 (en) * 1998-09-22 2002-01-01 Michael Everding Interactive digital phonetic captioning program
US6324511B1 (en) * 1998-10-01 2001-11-27 Mindmaker, Inc. Method of and apparatus for multi-modal information presentation to computer users with dyslexia, reading disabilities or visual impairment
US6324507B1 (en) * 1999-02-10 2001-11-27 International Business Machines Corp. Speech recognition enrollment for non-readers and displayless devices
US7110945B2 (en) * 1999-07-16 2006-09-19 Dreamations Llc Interactive book
JP2001265210A (ja) * 2000-03-16 2001-09-28 Takayuki Takada 勤行唱題補助方法および装置並びに記録媒体
JP3542026B2 (ja) * 2000-05-02 2004-07-14 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声認識システム、音声認識方法およびコンピュータ可読な記録媒体
EP1237094A1 (en) * 2001-01-22 2002-09-04 Sun Microsystems, Inc. A method for determining rubies
EP1308856A3 (en) * 2001-11-01 2006-01-18 Matsushita Electric Industrial Co., Ltd. Information providing system and information providing server apparatus for use therein, information terminal unit, and information providing method using to user profile
US7386453B2 (en) * 2001-11-14 2008-06-10 Fuji Xerox, Co., Ltd Dynamically changing the levels of reading assistance and instruction to support the needs of different individuals
TW556152B (en) * 2002-05-29 2003-10-01 Labs Inc L Interface of automatically labeling phonic symbols for correcting user's pronunciation, and systems and methods
US20040049391A1 (en) * 2002-09-09 2004-03-11 Fuji Xerox Co., Ltd. Systems and methods for dynamic reading fluency proficiency assessment
US7455522B2 (en) * 2002-10-04 2008-11-25 Fuji Xerox Co., Ltd. Systems and methods for dynamic reading fluency instruction and improvement
US20040176960A1 (en) * 2002-12-31 2004-09-09 Zeev Shpiro Comprehensive spoken language learning system
US7407384B2 (en) * 2003-05-29 2008-08-05 Robert Bosch Gmbh System, method and device for language education through a voice portal server
US8131538B2 (en) * 2003-09-30 2012-03-06 American Youth Literacy Foundation Phoneme decoding system and method

Also Published As

Publication number Publication date
EP1475776A1 (en) 2004-11-10
BRPI0401664A (pt) 2005-01-18
US20040236581A1 (en) 2004-11-25
CN1551102A (zh) 2004-12-01
ATE331276T1 (de) 2006-07-15
CA2463572A1 (en) 2004-11-01
AU2004201480A1 (en) 2004-11-18
JP2004334207A (ja) 2004-11-25
DE602004001280T2 (de) 2006-10-12
DE602004001280D1 (de) 2006-08-03
MXPA04004142A (es) 2005-07-05
RU2004113568A (ru) 2005-10-10
EP1475776B1 (en) 2006-06-21
RU2344492C2 (ru) 2009-01-20

Similar Documents

Publication Publication Date Title
US20200175890A1 (en) Device, method, and graphical user interface for a group reading environment
WO2014151884A2 (en) Device, method, and graphical user interface for a group reading environment
JP2014504398A (ja) テキスト変換及び表現システム
US9536438B2 (en) System and method for customizing reading materials based on reading ability
Zhan et al. The role of technology in teaching and learning Chinese characters
CN112053595B (zh) 由计算机实现的训练系统
Wald Creating accessible educational multimedia through editing automatic speech recognition captioning in real time
JP2020027132A (ja) 情報処理装置およびプログラム
KR20040094634A (ko) 일본어 및 중국어 음성 인식 훈련을 위한 동적 발음 지원
US20220036759A1 (en) Augmentative and alternative communication (aac) reading system
Littell et al. Readalong studio: Practical zero-shot text-speech alignment for indigenous language audiobooks
Rato et al. Designing speech perception tasks with TP
Petrie et al. Augmenting icons for deaf computer users
Guillén Galve et al. New research genres and English prosody: an exploratory analysis of academic English intonation in Video Methods Articles in experimental biology
KR20170009487A (ko) 청크 기반 언어 학습 방법 및 이를 수행하는 전자 기기
JP2009075526A (ja) 音声合成利用の総合的英語学習システム
KR20160086169A (ko) 알파벳과 한글 상호간 오버래핑 방식이 적용된 학습용 단말기를 이용한 파닉스 학습 방법 및 학습용 단말기를 이용한 파닉스 학습 방법을 실행시키는 프로그램이 기록된 기록매체
KR20210065422A (ko) 전체 이미지와 부분 이미지를 활용한 언어 학습 방법 및 학습 교재
JP2016197184A (ja) 発音学習コンテンツ提供装置、システム、プログラム及び方法
CN113393831B (zh) 基于至少双音素的语音输入操作方法及计算机可读介质
KR102453876B1 (ko) 외국어 스피킹 훈련 방법, 장치 및 프로그램
US20240013668A1 (en) Information Processing Method, Program, And Information Processing Apparatus
Lukeš et al. Building a phonics engine for automated text guidance
Neff et al. User modeling to support the development of an auditory help system
Goodale et al. English Pronunciation

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application