KR20020048357A - Method and apparatus for providing text-to-speech and auto speech recognition on audio player - Google Patents

Method and apparatus for providing text-to-speech and auto speech recognition on audio player Download PDF

Info

Publication number
KR20020048357A
KR20020048357A KR1020020029969A KR20020029969A KR20020048357A KR 20020048357 A KR20020048357 A KR 20020048357A KR 1020020029969 A KR1020020029969 A KR 1020020029969A KR 20020029969 A KR20020029969 A KR 20020029969A KR 20020048357 A KR20020048357 A KR 20020048357A
Authority
KR
South Korea
Prior art keywords
data
text
audio
audio player
voice
Prior art date
Application number
KR1020020029969A
Other languages
Korean (ko)
Inventor
김동철
Original Assignee
양덕준
주식회사 레인콤
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 양덕준, 주식회사 레인콤 filed Critical 양덕준
Priority to KR1020020029969A priority Critical patent/KR20020048357A/en
Publication of KR20020048357A publication Critical patent/KR20020048357A/en

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/02Analogue recording or reproducing
    • G11B20/04Direct recording or reproducing

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

PURPOSE: A device of implementing TTS(Text To Speech) and ASR(Automatic Speech Recognition) functions in an audio player is provided to convert text data into audio data to output the audio data by using the audio player, and to recognize a voice inputted through a microphone, thereby converting a voice into text to store the text. CONSTITUTION: A memory(103) temporarily stores inputted text data. A TTS engine(105) converts the text data transmitted from the memory into audio wave data. An audio processor(107) converts the audio wave data into analog signals. A speaker(109) converts the analog signals into voices, and outputs the voices. The TTS engine converts the text data into the audio wave data through a lexical analysis step, a word root analysis step, a parsing step, a wave matching step, and an intonation correcting step. The audio processor includes an audio card as an audio driver and a hardware block.

Description

오디오 플레이어에서의 텍스트/음성 변환 및 자동 음성 인식 구현 방법 및 장치{Method and apparatus for providing text-to-speech and auto speech recognition on audio player}Method and apparatus for providing text-to-speech and automatic speech recognition in an audio player {method and apparatus for providing text-to-speech and auto speech recognition on audio player}

본 발명은 오디오 플레이어에서의 텍스트/음성 변환(TTS) 및 자동 음성 인식(ASR) 구현 방법에 관한 것으로, 더욱 상세하게는 오디오 플레이어를 이용하여 텍스트 데이터를 오디오로 변환하여 출력하고 마이크를 통해 입력된 음성을 인식하여 버튼 입력 등의 작업을 대체하고 음성을 텍스트로 변환하여 저장하는 오디오 플레이어에서의 텍스트/음성 변환 및 자동 음성 인식 구현 방법 및 장치에 관한 것이다.The present invention relates to a method for implementing text / voice conversion (TTS) and automatic speech recognition (ASR) in an audio player, and more particularly, converts text data into audio using an audio player and outputs the audio data. The present invention relates to a method and apparatus for implementing text / speech conversion and automatic speech recognition in an audio player that recognizes a voice, replaces an operation such as a button input, and converts the voice into a text.

텍스트/음성 변환(Text To Speech)은 도움말 파일이나 웹페이지와 같은 컴퓨터 문서의 내용을 사람이 읽어주는 소리로 만들어주는 음성합성 프로그램의 한 종류이다. 텍스트/음성 변환은 시각 장애가 있는 사람들을 위해 컴퓨터 화면에 나타난 정보를 대신 읽어주는 것도 가능하다. 현재 나와 있는 텍스트/음성 변환 프로그램들로는, 음성으로 내용을 읽어주는 이메일과, 자동 응답 시스템의 음성 안내 기능 등이 있다. 텍스트/음성 변환은 종종 자동 음성 인식(Automatic Speech Recognition)과 같은 음성 인식 프로그램과 함께 사용되기도 한다.Text-to-speech is a type of speech synthesis program that makes the contents of computer documents, such as help files or web pages, sound human-readable. Text-to-speech can read information on a computer screen instead for people with visual impairments. Currently available text-to-speech programs include e-mails that read the contents by voice and voice prompts of an automatic response system. Text-to-speech conversion is often used with speech recognition programs such as Automatic Speech Recognition.

종래의 오디오 플레이어에서는 텍스트 데이터를 오디오로 출력하기 위하여 전자북과 같은 하드웨어적인 구성 요소를 추가하여야 하므로 추가적인 비용이 드는 문제점이 있다.In a conventional audio player, since a hardware component such as an electronic book must be added to output text data as audio, there is an additional cost problem.

또한, 종래의 오디오 플레이어에서는 음성 인식 기능을 이용하여 사용자가 오디오 장치의 기계를 작동하 수 없는 문제점이 있다.In addition, in the conventional audio player, there is a problem that a user cannot operate a machine of the audio device by using a voice recognition function.

또한, 종래의 오디오 플레이어는 오디오 플레이어에서 구동될 수 있는 음성 데이터를 텍스트 데이터로 변환하여 저장하지 못하므로, 저장 공간이 많이 소요되는 문제점이 있다.In addition, the conventional audio player does not convert the voice data which can be driven in the audio player into text data and store the text data, and thus requires a lot of storage space.

따라서, 본 발명의 목적은 오디오 플레이어를 이용하여 텍스트 데이터를 오디오로 변환하여 출력하고 마이크를 통해 입력된 음성을 인식하여 버튼 입력 등의 작업을 대체하고 음성을 텍스트로 변환하여 저장하는 오디오 플레이어에서의 텍스트/음성 변환(TTS) 및 자동 음성 인식(ASR) 구현 방법 및 장치를 제공하는 것이다.Accordingly, an object of the present invention is to convert a text data into audio using an audio player, output the audio data, recognize a voice input through a microphone, replace an operation such as a button input, and convert the voice into text and store the same. To provide a method and apparatus for implementing text-to-speech (TTS) and automatic speech recognition (ASR).

본 발명의 다른 목적은 텍스트 데이터를 오디오로 출력하기 위하여 하드웨어적인 구성 요소의 추가 없이 텍스트/음성 변환(TTS) 시스템을 이용하게 함으로써, 추가적인 비용을 없애는 오디오 플레이어에서의 텍스트/음성 변환(TTS) 및 자동 음성 인식(ASR) 구현 방법 및 장치를 제공하는 것이다.It is another object of the present invention to use a text / voice conversion (TTS) system without the addition of hardware components to output text data as audio, thereby eliminating the additional cost of text / voice conversion (TTS) in an audio player and It is to provide a method and apparatus for implementing automatic speech recognition (ASR).

본 발명의 또 다른 목적은 오디오 플레이어에서의 음성 인식 기능을 이용하여 사용자가 오디오 장치의 기계를 작동하게 하는 오디오 플레이어에서의 텍스트/음성 변환(TTS) 및 자동 음성 인식(ASR) 구현 방법 및 장치를 제공하는 것이다.It is still another object of the present invention to provide a method and apparatus for implementing text / to-speech (TTS) and automatic speech recognition (ASR) in an audio player using a speech recognition function in an audio player to allow a user to operate a machine of the audio device. To provide.

본 발명의 또 다른 목적은 오디오 플레이어에서 구동될 수 있는 음성 데이터를 텍스트 데이터로 변환하여 저장하도록 하여 저장 공간을 줄이고 많은 데이터를 저장할 수 있는 오디오 플레이어에서의 텍스트/음성 변환(TTS) 및 자동 음성 인식(ASR) 구현 방법 및 장치를 제공하는 것이다.It is still another object of the present invention to convert voice data that can be driven in an audio player into text data and to store the text space, thereby reducing the storage space and storing a large amount of data. (ASR) to provide a method and apparatus for implementation.

도 1은 본 발명의 바람직한 일 실시예에 따른 오디오 플레이어에서의 음성 합성 시스템의 구성도.1 is a block diagram of a speech synthesis system in an audio player according to an embodiment of the present invention.

도 2는 본 발명의 바람직한 일 실시예에 따른 오디오 플레이어에서의 음성 인식 시스템의 구성도.2 is a block diagram of a speech recognition system in an audio player according to an embodiment of the present invention.

도 3은 본 발명의 바람직한 일 실시예에 따른 오디오 플레이어에서의 텍스트/음성 변환 처리 과정을 나타낸 순서도.3 is a flowchart illustrating a text / voice conversion process in an audio player according to an exemplary embodiment of the present invention.

도 4는 본 발명의 바람직한 일 실시예에 따른 오디오 플레이어에서의 자동 음성 인식 처리 과정을 나타낸 순서도.4 is a flowchart illustrating an automatic voice recognition process in an audio player according to an embodiment of the present invention.

도 5는 본 발명의 바람직한 다른 실시예에 따른 오디오 플레이어에서의 자동 음성 인식 처리 과정을 나타낸 순서도.5 is a flowchart illustrating an automatic voice recognition process in an audio player according to another preferred embodiment of the present invention.

<도면의 주요 부분에 대한 부호의 설명><Explanation of symbols for the main parts of the drawings>

101 : 오디오 플레이어103 : 메모리101: audio player 103: memory

105 : TTS 엔진107 : 오디오 처리부105: TTS engine 107: audio processing unit

109 : 스피커111 : 텍스트 데이터109: speaker 111: text data

201 : ASR 시스템203 : 텍스트 데이터201: ASR system 203: text data

상기 목적들을 달성하기 위하여 본 발명의 일 측면에 따르면, 입력된 텍스트 데이터를 임시 저장하는 메모리, 상기 메모리로부터 전달된 상기 텍스트 데이터를 오디오 웨이브 데이터로 변환하는 텍스트/음성 변환(TTS) 엔진부, 상기 오디오 웨이브 데이터를 아날로그 신호로 변환하는 오디오 처리부 및 상기 아날로그 신호를 음성으로 변환하여 출력하는 스피커를 포함하는 텍스트/음성 변환 지원 오디오 플레이어를 제공할 수 있다.According to an aspect of the present invention to achieve the above object, a memory for temporarily storing the input text data, a text-to-speech (TTS) engine unit for converting the text data transferred from the memory into audio wave data, the A text / voice conversion supporting audio player may include an audio processor converting audio wave data into an analog signal and a speaker converting the analog signal into voice and outputting the voice.

상기 목적들을 달성하기 위하여 본 발명의 다른 측면에 따르면, 오디오 플레이어에서 텍스트 데이터를 음성 데이터로 변환하는 데에 있어서, 텍스트 데이터를 입력받고, 상기 텍스트 데이터를 오디오 웨이브 데이터로 변환하고, 상기 오디오 웨이브 데이터를 아날로그 신호로 변환하고, 상기 아날로그 신호를 음성으로 변환하여 상기 오디오 플레이어의 스피커를 통해 출력하는 오디오 플레이어에서의 텍스트/음성 변환 방법, 상기 방법에 상응하는 장치 및 시스템을 제공할 수 있다.According to another aspect of the present invention to achieve the above object, in converting text data into speech data in an audio player, text data is input, the text data is converted into audio wave data, and the audio wave data It is possible to provide a text / voice conversion method, an apparatus and a system corresponding to the method in the audio player that converts the analog signal, and converts the analog signal into voice and output through the speaker of the audio player.

상기 텍스트 데이터는 상기 오디오 플레이어의 시스템 관련 메뉴, 디렉토리명, 파일명 중 적어도 하나일 수 있다.The text data may be at least one of a system related menu, a directory name, and a file name of the audio player.

상기 텍스트 데이터를 입력받는 단계는 상기 입력된 텍스트 데이터를 메모리에 저장하는 단계를 더 포함할 수 있다.The receiving of the text data may further include storing the input text data in a memory.

상기 오디오 플레이어는 텍스트/음성 변환(TTS) 시스템을 구비할 수 있다.The audio player may have a text-to-speech (TTS) system.

상기 오디오 플레이어는 오디오 압축 포맷을 지원할 수 있다.The audio player may support an audio compression format.

상기 텍스트 데이터는 상기 오디오 플레이어의 액정 화면에 표시될 수 있다.The text data may be displayed on the liquid crystal screen of the audio player.

상기 목적들을 달성하기 위하여 본 발명의 또 다른 측면에 따르면, 입력된 텍스트 데이터를 임시 저장하는 메모리, 상기 메모리로부터 전달된 상기 텍스트 데이터를 오디오 웨이브 데이터로 변환하는 텍스트/음성 변환(TTS) 엔진부, 상기 오디오 웨이브 데이터를 아날로그 신호로 변환하는 오디오 처리부 및 상기 아날로그 신호를 음성으로 변환하여 출력하는 스피커를 포함하는 텍스트/음성 변환 지원 비디오 장치를 제공할 수 있다.According to another aspect of the present invention to achieve the above object, a memory for temporarily storing the input text data, a text-to-speech (TTS) engine unit for converting the text data transferred from the memory into audio wave data, A video / voice conversion supporting video apparatus may include an audio processor converting the audio wave data into an analog signal and a speaker converting the analog signal into voice and outputting the voice.

상기 목적들을 달성하기 위하여 본 발명의 또 다른 측면에 따르면, 자동 음성 인식(ASR) 시스템이 구비된 오디오 플레이어에서 입력된 음성 데이터를 텍스트 데이터로 변환하는 데에 있어서, 음성 데이터를 입력받고, 상기 입력된 음성 데이터를 상기 자동 음성 인식(ASR) 시스템에 의해 텍스트 데이터로 변환하고, 상기 변환된 텍스트 데이터를 상기 오디오 플레이어의 액정 화면에 표시하는 오디오 플레이어에서의 자동 음성 인식 방법, 상기 방법에 상응하는 장치 및 시스템을 제공할 수 있다.According to another aspect of the present invention to achieve the above object, in converting the voice data input to the text data in the audio player equipped with an automatic speech recognition (ASR) system, the voice data is received, the input Automatic speech recognition method in an audio player for converting the converted speech data into text data by the automatic speech recognition (ASR) system, and displaying the converted text data on the liquid crystal screen of the audio player, apparatus corresponding to the method And a system.

상기 목적들을 달성하기 위하여 본 발명의 또 다른 측면에 따르면, 자동 음성 인식(ASR) 시스템이 구비된 오디오 플레이어에서 입력된 음성 데이터에 상응하는 오디오 시스템 명령을 실행하는 데에 있어서, 음성 데이터를 입력받고, 상기 자동 음성 인식(ASR) 시스템에 의해 상기 입력된 음성 데이터의 내용을 파악하고, 상기 음성 데이터에 상응하는 상기 오디오 플레이어의 시스템 명령을 판단하고, 상기 판단된 시스템 명령을 실행하는 오디오 플레이어에서의 자동 음성 인식 방법, 상기 방법에 상응하는 장치 및 시스템을 제공할 수 있다.According to another aspect of the present invention for achieving the above objects, in executing an audio system command corresponding to the input voice data in an audio player equipped with an automatic voice recognition (ASR) system, In the audio player to grasp the contents of the input voice data by the automatic speech recognition (ASR) system, determine a system command of the audio player corresponding to the voice data, and execute the determined system command. An automatic speech recognition method and apparatus and system corresponding to the method can be provided.

상기 목적들을 달성하기 위하여 본 발명의 또 다른 측면에 따르면, 자동 음성 인식(ASR) 시스템이 구비된 비디오 장치에서 입력된 음성 데이터를 텍스트 데이터로 변환하는 데에 있어서, 음성 데이터를 입력받고, 상기 입력된 음성 데이터를 상기 자동 음성 인식(ASR) 시스템에 의해 텍스트 데이터로 변환하고, 상기 변환된 텍스트 데이터를 상기 비디오 장치의 화면에 표시하는 비디오 장치에서의 자동 음성 인식 방법, 상기 방법에 상응하는 장치 및 시스템을 제공할 수 있다.According to another aspect of the present invention to achieve the above objects, in converting the voice data input to the text data in a video device equipped with an automatic speech recognition (ASR) system, the voice data is received, the input An automatic speech recognition method in a video apparatus for converting the converted speech data into text data by the automatic speech recognition (ASR) system and displaying the converted text data on a screen of the video apparatus, an apparatus corresponding to the method, and A system can be provided.

상기 목적들을 달성하기 위하여 본 발명의 또 다른 측면에 따르면, 자동 음성 인식(ASR) 시스템이 구비된 비디오 장치에서 입력된 음성 데이터에 상응하는 비디오 시스템 명령을 실행하는 데에 있어서, 음성 데이터를 입력받고, 상기 자동 음성 인식(ASR) 시스템에 의해 상기 입력된 음성 데이터의 내용을 파악하고, 상기 음성 데이터에 상응하는 상기 비디오 장치의 시스템 명령을 판단하고, 상기 판단된 시스템 명령을 실행하는 비디오 장치에서의 자동 음성 인식 방법, 상기 방법에 상응하는 장치 및 시스템을 제공할 수 있다.According to another aspect of the present invention for achieving the above objects, in executing a video system command corresponding to the input voice data in a video device equipped with an automatic voice recognition (ASR) system, In a video device to grasp contents of the input voice data by the automatic speech recognition (ASR) system, to determine a system command of the video device corresponding to the voice data, and to execute the determined system command. An automatic speech recognition method and apparatus and system corresponding to the method can be provided.

이어서, 첨부한 도면들을 참조하여 본 발명의 바람직한 실시예를 상세히 설명하기로 한다.Next, preferred embodiments of the present invention will be described in detail with reference to the accompanying drawings.

도 1은 본 발명의 바람직한 일 실시예에 따른 음성 합성 시스템의 구성도이다.1 is a block diagram of a speech synthesis system according to an embodiment of the present invention.

일반 텍스트 데이터(111)를 음성 합성을 적용하여 오디오 형태의 출력 데이터로 변환하는 기능은 몇몇 시스템에서 사용하고 있다. 이것은 CTI(Computer and Telephony Integration), 증권 시스템 등에 적용되어 일반인들이 사용하여 생활에 직접적으로 응용하기에는 어려운 면이 있다. 현재 전자북 관련 시스템이 보급되기 시작하면서 많은 양의 텍스트 데이터들이 나오고 있다. 따라서 이러한 데이터들을 전용 시스템이 아닌 기존 오디오 플레이어에서 사용할 수 있으며 더 나아가 텍스트를 오디오로 출력하여 들을 수 있는 기능을 구현하고자 한다. 현재 오디오 압축 포맷들(MP3, WMA, ...)을 지원하는 오디오 플레이어에 텍스트/음성 변환(Text To Speech)을 지원하기 위한 모듈을 개발하여 텍스트 데이터들을 인식하여 오디오로 출력하게 한다. 텍스트 데이터를 액정 화면에 출력하여 문장들을 이동하면서 볼 수도 있고 단어, 문장 단위 등 전체 텍스트 데이터의 원하는 영역만을 선택하여 오디오로 출력하는 기능도 지원한다.The function of converting the plain text data 111 into the output data in the form of audio by applying the speech synthesis is used in some systems. This is applied to computer and telephony integration (CTI), securities system, etc., which makes it difficult for the general public to apply directly to life. Currently, a large amount of text data is coming out as the e-book related system is spreading. Therefore, this data can be used in the existing audio player instead of the dedicated system. Furthermore, the data can be output as audio and listened to. A module to support text to speech is developed in an audio player that supports audio compression formats (MP3, WMA, ...) to recognize text data and output it as audio. The text data can be displayed on the LCD screen to move through the sentences, and a function of selecting only the desired area of the entire text data such as a word or sentence unit and outputting the audio is also supported.

도 1을 참조하면, 오디오 플레이어(101)는 메모리(103), TTS 엔진(105), 오디오 처리부(107), 스피커(109) 등을 포함할 수 있다.Referring to FIG. 1, the audio player 101 may include a memory 103, a TTS engine 105, an audio processor 107, a speaker 109, and the like.

오디오 플레이어(101)로 입력된 텍스트 데이터(111)는 오디오 플레이어(101) 내의 메모리(103)에 저장되며, 소정의 언어로 입력된 텍스트 데이터(111)는 TTS 엔진(105)에 의해 오디오 웨이브 데이터(Audio Wave Data)로 변환되고, 상기 TTS 엔진(105)에 의해 변환된 오디오 웨이브 데이터는 오디오 처리부(107)에 의해 아날로그 음성 신호로 변환되고, 상기 오디오 처리부(107)에 의해 변환된 아날로그 음성 신호는 스피커(109)를 통해 음성으로 내보내진다.The text data 111 input to the audio player 101 is stored in the memory 103 in the audio player 101, and the text data 111 input in a predetermined language is audio wave data by the TTS engine 105. (Audio Wave Data), the audio wave data converted by the TTS engine 105 is converted into an analog voice signal by the audio processor 107, and the analog voice signal converted by the audio processor 107. Is voiced out through the speaker 109.

상기 TTS 엔진(105)은 각각 어휘 분석(Lexical Analysis) 단계, 어근 분석 단계, 파싱(Parsing) 단계, 웨이브 매칭(Wave Matching) 단계 및 억양 수정 단계에 의해 소정의 언어로 입력된 텍스트 데이터(111)를 오디오 웨이브 데이터로 변환한다.The TTS engine 105 is text data 111 input in a predetermined language by a lexical analysis step, a root analysis step, a parsing step, a wave matching step, and an intonation correction step, respectively. Converts to audio wave data.

상기 오디오 처리부(107)는 일반적으로 소프트웨어 모듈로서 오디오 드라이버와 하드웨어 블락으로서 오디오 카드를 포함하여 구성된다.The audio processor 107 generally includes an audio driver as a software module and an audio card as a hardware block.

도 2는 본 발명의 바람직한 일 실시예에 따른 음성 인식 시스템의 구성도이다.2 is a block diagram of a speech recognition system according to an exemplary embodiment of the present invention.

현재의 오디오 플레이어는 단순한 음악 듣기용이 아닌 다양한 기능을 가진 복합 미디어로써의 역할을 한다. 다양한 기능을 구현하기 위해 버튼의 수와 동작 방법도 복잡해지면서 사용자들의 대다수가 모든 동작을 알고 사용하지는 못한다. 이러한 문제를 해결하기 위해 오디오 플레이어의 기능들을 사람과 대화하듯이 음성으로 처리할 수 있게 시스템을 구현한다. 음성 인식의 핵심은 소리의 음향학적인 특징을 정확히 찾아 기계가 인식하는 것이다. 여기서 구현하고자 하는 음성 인식은 사용자에 상관없이 음성을 인식하는 화자 독립 방식이다. 이것의 장점은 오디오 플레이어를 구입하거나 이미 가지고 있는 사용자들이 자신의 목소리를 인식시키기 위해 학습을 시킬 필요가 없다는 것이다. 또 하나의 기능은 음성 저장뿐만 아니라 음성을 텍스트 데이터로 변환하여 저장할 수 있는 기능이다. 음성 인식을 하기 위한 모듈을 오디오 플레이어 시스템에 맞게 변환시켜 실시간으로 음성을 인식하여 동작하게 한다.Today's audio players don't just listen to music, but also act as multifunctional media. The number of buttons and how they work is complicated to implement various functions, so the majority of users do not know and use all the actions. To solve this problem, the system is implemented so that the audio player's functions can be spoken like a human conversation. The key to speech recognition is to accurately recognize the acoustic characteristics of the sound and recognize it by the machine. The voice recognition to be implemented here is a speaker independent method of recognizing a voice regardless of a user. The advantage of this is that you don't have to buy an audio player or let the users you already have learn to recognize your voice. Another function is to save voices as well as convert them to text data. The module for speech recognition is adapted to the audio player system to recognize and operate the speech in real time.

도 2를 참조하면, 자동 음성 인식(ASR) 시스템(201)이 구비된 오디오 플레이어(101)에 오디오 데이터가 입력되면, 입력된 오디오 데이터는 자동 음성 인식(ASR) 시스템(201)에 의해 텍스트 데이터(203)로 변환된다.Referring to FIG. 2, when audio data is input to an audio player 101 having an automatic voice recognition (ASR) system 201, the input audio data is text data by the automatic voice recognition (ASR) system 201. Is converted to 203.

여기서, 자동 음성 인식(ASR) 시스템(201)은 종래의 자동 음성 인식(ASR) 시스템에서와 같은 처리 방식으로 음성 데이터를 텍스트 데이터로 변환한다.Here, the automatic speech recognition (ASR) system 201 converts the speech data into text data in the same processing manner as in the conventional automatic speech recognition (ASR) system.

도 3은 본 발명의 바람직한 일 실시예에 따른 텍스트/음성 변환 처리 과정을 나타낸 순서도이다.3 is a flowchart illustrating a text / voice conversion process according to an exemplary embodiment of the present invention.

도 3을 참조하면, 오디오 플레이어(101)가 텍스트 데이터(111)를 입력(S301)받으면, 입력된 텍스트 데이터(111)를 오디오 플레이어(101) 내의 메모리(103)에 저장(S303)하고, 상기 텍스트 데이터(111)를 TTS 엔진(105)에 의해 오디오 웨이브 데이터(Audio Wave Data)로 변환(S305)하고, 상기 TTS 엔진(105)에 의해 변환된 오디오 웨이브 데이터를 오디오 처리부(107)에 의해 아날로그 음성 신호로 변환(S307)하고, 상기 오디오 처리부(107)에 의해 변환된 아날로그 음성 신호를 스피커(109)를 통해 음성으로 출력(S309)한다.Referring to FIG. 3, when the audio player 101 receives the text data 111 (S301), the input text data 111 is stored in the memory 103 in the audio player 101 (S303). The text data 111 is converted into audio wave data by the TTS engine 105 (S305), and the audio wave data converted by the TTS engine 105 is analogized by the audio processor 107. A voice signal is converted (S307), and the analog voice signal converted by the audio processor 107 is output as voice through the speaker 109 (S309).

상기 텍스트 데이터(111)는 오디오 시스템의 메뉴들, 디렉토리, 파일 이름들이 될 수 있으며, 상술한 처리 과정을 통해 음성으로 출력될 수 있다.The text data 111 may be menus, directories, and file names of an audio system, and may be output as voice through the above-described processing.

도 4는 본 발명의 바람직한 일 실시예에 따른 자동 음성 인식 처리 과정을 나타낸 순서도이다.4 is a flowchart illustrating an automatic voice recognition process according to an embodiment of the present invention.

도 4를 참조하면, 사용자로부터 음성 데이터를 입력받으면(S401), 오디오 플레이어(101) 내에 포함된 자동 음성 인식(ASR) 시스템(201)이 상기 음성 데이터를 분석하여 텍스트 데이터(203)로 변환(S403)한다. 변환된 텍스트 데이터(203)는 오디오 플레이어의 표시부(미도시)에 나타나게 된다(S405).Referring to FIG. 4, when voice data is input from a user (S401), an automatic voice recognition (ASR) system 201 included in the audio player 101 analyzes the voice data and converts the voice data into text data 203 ( S403). The converted text data 203 is displayed on a display unit (not shown) of the audio player (S405).

도 5는 본 발명의 바람직한 다른 실시예에 따른 자동 음성 인식 처리 과정을 나타낸 순서도이다.5 is a flowchart illustrating an automatic voice recognition process according to another preferred embodiment of the present invention.

도 5를 참조하면, 오디오 플레이어(101)가 오디오 시스템의 메뉴, 디렉토리, 파일 이름 중 하나에 대한 음성 데이터를 입력받으면(S501), 자동 음성 인식(ASR) 시스템(201)에 의해 상기 음성 데이터의 내용을 파악(S503)하고, 파악한 결과 상기 음성 데이터에 상응하는 오디오 시스템의 명령을 실행(S505)한다.Referring to FIG. 5, when the audio player 101 receives voice data for one of a menu, a directory, and a file name of an audio system (S501), an automatic voice recognition (ASR) system 201 receives the voice data. The contents are grasped (S503), and as a result of the grasping, a command of an audio system corresponding to the voice data is executed (S505).

본 발명은 상기 실시예에 한정되지 않으며, 많은 변형이 본 발명의 사상 내에서 당 분야에서 통상의 지식을 가진 자에 의하여 가능함은 물론이다.The present invention is not limited to the above embodiments, and many variations are possible by those skilled in the art within the spirit of the present invention.

상술한 바와 같이 본 발명에 따르면, 오디오 플레이어를 이용하여 텍스트 데이터를 오디오로 변환하여 출력하고 마이크를 통해 입력된 음성을 인식하여 버튼 입력 등의 작업을 대체하고 음성을 텍스트로 변환하여 저장하는 오디오 플레이어에서의 텍스트/음성 변환(TTS) 및 자동 음성 인식(ASR) 구현 방법 및 장치를 제공할수 있다.As described above, according to the present invention, an audio player converts and outputs text data into audio using an audio player, recognizes a voice input through a microphone, replaces an operation such as a button input, and converts and stores the voice into text. The present invention provides a method and apparatus for implementing text / voice conversion (TTS) and automatic speech recognition (ASR).

또한 본 발명에 따르면, 텍스트 데이터를 오디오로 출력하기 위하여 하드웨어적인 구성 요소의 추가 없이 텍스트/음성 변환(TTS) 시스템을 이용하게 함으로써, 추가적인 비용을 없애는 오디오 플레이어에서의 텍스트/음성 변환(TTS) 및 자동 음성 인식(ASR) 구현 방법 및 장치를 제공할 수 있다. 이것은 하드웨어적인 구성이 아닌 소프트웨어의 업그레이드로 기존 오디오 플레이어에서도 지원 가능한 시스템이기 때문에 추가적인 비용이 들지 않으면서도 기존 시스템이 동작하면서도 텍스트/음성 변환 기능이 구현된다.Further, according to the present invention, text / voice conversion (TTS) in an audio player, which eliminates additional costs, by using a text / voice conversion (TTS) system without adding hardware components to output text data as audio, and A method and apparatus for implementing automatic speech recognition (ASR) may be provided. This is a software upgrade, not a hardware configuration, that can be supported by existing audio players, so that the existing system can be operated without any additional cost, while the text / voice conversion function is implemented.

또한 시각 장애인들을 위한 보조 시스템으로 사용할 경우 텍스트 데이터들을 오디오로 출력하여 들을 수 있어 대단히 많은 도움을 줄 수 있다.Also, when used as an auxiliary system for the visually impaired, text data can be output as audio and can be very helpful.

또한 본 발명에 따르면, 오디오 플레이어에서의 음성 인식 기능을 이용하여 사용자가 오디오 장치의 기계를 작동하게 하는 오디오 플레이어에서의 텍스트/음성 변환(TTS) 및 자동 음성 인식(ASR) 구현 방법 및 장치를 제공할 수 있다. 오디오 플레이어에 음성 인식 기능의 도입은 기계 작동에 어려움을 가지는 사용자들에게 친숙한 형태로 다가갈 수 있다. 따라서 오디오 플레이어 구입을 망설이는 사용자들의 구매 욕구를 자극할 수 있다.In addition, according to the present invention, there is provided a method and apparatus for implementing text-to-speech (TTS) and automatic speech recognition (ASR) in an audio player that allows a user to operate a machine of the audio device using a speech recognition function in the audio player. can do. The introduction of speech recognition into an audio player can be approached in a form that is familiar to users who have difficulty operating a machine. Therefore, it is possible to stimulate users' desire to purchase an audio player.

또한 본 발명에 따르면, 오디오 플레이어에서 구동될 수 있는 음성 데이터를 텍스트 데이터로 변환하여 저장하도록 하여 저장 공간을 줄이고 많은 데이터를 저장할 수 있는 오디오 플레이어에서의 텍스트/음성 변환(TTS) 및 자동 음성 인식(ASR) 구현 방법 및 장치를 제공할 수 있다.In addition, according to the present invention, by converting and storing the voice data that can be driven in the audio player to text data to reduce the storage space and can store a lot of data text / voice conversion (TTS) and automatic speech recognition ( ASR) implementation method and apparatus can be provided.

또한 음성 저장뿐만 아니라 음성을 텍스트 형태로 변환할 수 있어 중요한 자료 등을 문서화할 수 있다. 음성 저장을 할 경우 많은 양의 저장 공간이 요구되지만 음성을 텍스트로 변환하여 텍스트 데이터만을 저장하고자 한다면 저장 시간은 음성 저장에 비해 엄청나게 길 것이다. 이러한 기능은 장시간의 대화나 강의 등의 데이터를 기록하고자 할 때 유용하다.In addition to voice storage, voice can be converted to text to document important data. Voice storage requires a large amount of storage space, but if you want to convert the voice to text to store only the text data, the storage time will be enormously longer than voice storage. This is useful when you want to record data such as long conversations or lectures.

Claims (13)

입력된 텍스트 데이터를 임시 저장하는 메모리;A memory for temporarily storing the input text data; 상기 메모리로부터 전달된 상기 텍스트 데이터를 오디오 웨이브 데이터로 변환하는 텍스트/음성 변환(TTS) 엔진부;A text-to-speech (TTS) engine unit for converting the text data transferred from the memory into audio wave data; 상기 오디오 웨이브 데이터를 아날로그 신호로 변환하는 오디오 처리부; 및An audio processor converting the audio wave data into an analog signal; And 상기 아날로그 신호를 음성으로 변환하여 출력하는 스피커A speaker that converts the analog signal into voice and outputs the voice 를 포함하는 텍스트/음성 변환 지원 오디오 플레이어.Text-to-speech support audio player including. 오디오 플레이어에서 텍스트 데이터를 음성 데이터로 변환하는 방법에 있어서,In a method for converting text data into voice data in an audio player, 텍스트 데이터를 입력받는 단계;Receiving text data; 상기 텍스트 데이터를 오디오 웨이브 데이터로 변환하는 단계;Converting the text data into audio wave data; 상기 오디오 웨이브 데이터를 아날로그 신호로 변환하는 단계; 및Converting the audio wave data into an analog signal; And 상기 아날로그 신호를 음성으로 변환하여 상기 오디오 플레이어의 스피커를 통해 출력하는 단계Converting the analog signal into voice and outputting the same through a speaker of the audio player 를 포함하는 오디오 플레이어에서의 텍스트/음성 변환 방법.Text to speech conversion method in the audio player comprising a. 제2항에 있어서,The method of claim 2, 상기 텍스트 데이터는The text data is 상기 오디오 플레이어의 시스템 관련 메뉴, 디렉토리명, 파일명 중 적어도 하나인 것At least one of a system related menu, a directory name, and a file name of the audio player 을 특징으로 하는 오디오 플레이어에서의 텍스트/음성 변환 방법.Text / Speech conversion method in an audio player, characterized in that. 제2항에 있어서,The method of claim 2, 상기 텍스트 데이터를 입력받는 단계는Receiving the text data is 상기 입력된 텍스트 데이터를 메모리에 저장하는 단계Storing the input text data in a memory 를 더 포함하는 것Containing more 을 특징으로 하는 오디오 플레이어에서의 텍스트/음성 변환 방법.Text / Speech conversion method in an audio player, characterized in that. 제2항에 있어서,The method of claim 2, 상기 오디오 플레이어는The audio player is 텍스트/음성 변환(TTS) 시스템을 구비하는 것With text-to-speech system 을 특징으로 하는 오디오 플레이어에서의 텍스트/음성 변환 방법.Text / Speech conversion method in an audio player, characterized in that. 제2항에 있어서,The method of claim 2, 상기 오디오 플레이어는The audio player is 오디오 압축 포맷을 지원하는 것Supporting audio compression formats 을 특징으로 하는 오디오 플레이어에서의 텍스트/음성 변환 방법.Text / Speech conversion method in an audio player, characterized in that. 제2항에 있어서,The method of claim 2, 상기 텍스트 데이터는The text data is 상기 오디오 플레이어의 액정 화면에 표시되는 것Displayed on the LCD screen of the audio player 을 특징으로 하는 오디오 플레이어에서의 텍스트/음성 변환 방법.Text / Speech conversion method in an audio player, characterized in that. 오디오 플레이어에서 텍스트 데이터를 음성 데이터로 변환하는 장치에 있어서,An apparatus for converting text data into voice data in an audio player, 텍스트 데이터를 입력받는 수단;Means for receiving text data; 상기 텍스트 데이터를 오디오 웨이브 데이터로 변환하는 수단;Means for converting the text data into audio wave data; 상기 오디오 웨이브 데이터를 아날로그 신호로 변환하는 수단; 및Means for converting the audio wave data into an analog signal; And 상기 아날로그 신호를 음성으로 변환하여 상기 오디오 플레이어의 스피커를 통해 출력하는 수단Means for converting the analog signal into voice and outputting the same through a speaker of the audio player 을 구비하는 오디오 플레이어에서의 텍스트/음성 변환 장치.Text-to-speech device in the audio player comprising a. 입력된 텍스트 데이터를 임시 저장하는 메모리;A memory for temporarily storing the input text data; 상기 메모리로부터 전달된 상기 텍스트 데이터를 오디오 웨이브 데이터로 변환하는 텍스트/음성 변환(TTS) 엔진부;A text-to-speech (TTS) engine unit for converting the text data transferred from the memory into audio wave data; 상기 오디오 웨이브 데이터를 아날로그 신호로 변환하는 오디오 처리부; 및An audio processor converting the audio wave data into an analog signal; And 상기 아날로그 신호를 음성으로 변환하여 출력하는 스피커A speaker that converts the analog signal into voice and outputs the voice 를 포함하는 텍스트/음성 변환 지원 비디오 장치.Text to speech conversion support video device comprising a. 자동 음성 인식(ASR) 시스템이 구비된 오디오 플레이어에서 입력된 음성 데이터를 텍스트 데이터로 변환하는 방법에 있어서,Claims [1] A method for converting input speech data into text data in an audio player equipped with an automatic speech recognition (ASR) system. 음성 데이터를 입력받는 단계;Receiving voice data; 상기 입력된 음성 데이터를 상기 자동 음성 인식(ASR) 시스템에 의해 텍스트 데이터로 변환하는 단계; 및Converting the input speech data into text data by the automatic speech recognition (ASR) system; And 상기 변환된 텍스트 데이터를 상기 오디오 플레이어의 액정 화면에 표시하는 단계Displaying the converted text data on a liquid crystal screen of the audio player 를 포함하는 오디오 플레이어에서의 자동 음성 인식 방법.Automatic speech recognition method in the audio player comprising a. 자동 음성 인식(ASR) 시스템이 구비된 오디오 플레이어에서 입력된 음성 데이터에 상응하는 오디오 시스템 명령을 실행하는 방법에 있어서,A method of executing an audio system command corresponding to input voice data in an audio player equipped with an automatic speech recognition (ASR) system, the method comprising: 음성 데이터를 입력받는 단계;Receiving voice data; 상기 자동 음성 인식(ASR) 시스템에 의해 상기 입력된 음성 데이터의 내용을 파악하는 단계;Identifying contents of the input voice data by the automatic voice recognition (ASR) system; 상기 음성 데이터에 상응하는 상기 오디오 플레이어의 시스템 명령을 판단하는 단계; 및Determining a system command of the audio player corresponding to the voice data; And 상기 판단된 시스템 명령을 실행하는 단계Executing the determined system command 를 포함하는 오디오 플레이어에서의 자동 음성 인식 방법.Automatic speech recognition method in the audio player comprising a. 자동 음성 인식(ASR) 시스템이 구비된 비디오 장치에서 입력된 음성 데이터를 텍스트 데이터로 변환하는 방법에 있어서,Claims [1] A method for converting input speech data into text data in a video apparatus equipped with an automatic speech recognition (ASR) system. 음성 데이터를 입력받는 단계;Receiving voice data; 상기 입력된 음성 데이터를 상기 자동 음성 인식(ASR) 시스템에 의해 텍스트 데이터로 변환하는 단계; 및Converting the input speech data into text data by the automatic speech recognition (ASR) system; And 상기 변환된 텍스트 데이터를 상기 비디오 장치의 화면에 표시하는 단계Displaying the converted text data on a screen of the video device 를 포함하는 비디오 장치에서의 자동 음성 인식 방법.Automatic speech recognition method in a video device comprising a. 자동 음성 인식(ASR) 시스템이 구비된 비디오 장치에서 입력된 음성 데이터에 상응하는 비디오 시스템 명령을 실행하는 방법에 있어서,A method of executing a video system command corresponding to input voice data in a video device equipped with an automatic speech recognition (ASR) system, the method comprising: 음성 데이터를 입력받는 단계;Receiving voice data; 상기 자동 음성 인식(ASR) 시스템에 의해 상기 입력된 음성 데이터의 내용을 파악하는 단계;Identifying contents of the input voice data by the automatic voice recognition (ASR) system; 상기 음성 데이터에 상응하는 상기 비디오 장치의 시스템 명령을 판단하는 단계; 및Determining a system command of the video device corresponding to the voice data; And 상기 판단된 시스템 명령을 실행하는 단계Executing the determined system command 를 포함하는 비디오 장치에서의 자동 음성 인식 방법.Automatic speech recognition method in a video device comprising a.
KR1020020029969A 2002-05-29 2002-05-29 Method and apparatus for providing text-to-speech and auto speech recognition on audio player KR20020048357A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020020029969A KR20020048357A (en) 2002-05-29 2002-05-29 Method and apparatus for providing text-to-speech and auto speech recognition on audio player

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020020029969A KR20020048357A (en) 2002-05-29 2002-05-29 Method and apparatus for providing text-to-speech and auto speech recognition on audio player

Publications (1)

Publication Number Publication Date
KR20020048357A true KR20020048357A (en) 2002-06-22

Family

ID=27726584

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020020029969A KR20020048357A (en) 2002-05-29 2002-05-29 Method and apparatus for providing text-to-speech and auto speech recognition on audio player

Country Status (1)

Country Link
KR (1) KR20020048357A (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020097081A (en) * 2002-10-21 2002-12-31 김의식 Playing sysytem and method of voice book, and storage media thereof
US8352265B1 (en) 2007-12-24 2013-01-08 Edward Lin Hardware implemented backend search engine for a high-rate speech recognition system
US8463610B1 (en) 2008-01-18 2013-06-11 Patrick J. Bourke Hardware-implemented scalable modular engine for low-power speech recognition
US8639510B1 (en) 2007-12-24 2014-01-28 Kai Yu Acoustic scoring unit implemented on a single FPGA or ASIC

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH097357A (en) * 1995-06-20 1997-01-10 Matsushita Electric Ind Co Ltd Sound processor for audio recording apparatus
JPH10301567A (en) * 1997-04-22 1998-11-13 Kawai Musical Instr Mfg Co Ltd Voice controller of electronic musical instrument
KR19990032088A (en) * 1997-10-16 1999-05-06 윤종용 Multilingual TTS Device and Multilingual TTS Processing Method
KR20000024096A (en) * 1999-03-29 2000-05-06 전영권 Apparatus for reproducing digital voice
KR20000030906A (en) * 2000-03-29 2000-06-05 백종관 Method of Executing Command Using Speech Recognition and Method of Transforming Text Selected by Application Program to Voice Using Text-to-Speech
JP2001042891A (en) * 1999-07-27 2001-02-16 Suzuki Motor Corp Speech recognition apparatus, speech recognition mounting device, speech recognition mounting system, speech recognition method, and memory medium
KR20010015325A (en) * 1999-07-13 2001-02-26 구자홍 Voice special reproducing method and information reproducing apparatus
KR20010099450A (en) * 2001-09-28 2001-11-09 오진근 Replayer for music files

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH097357A (en) * 1995-06-20 1997-01-10 Matsushita Electric Ind Co Ltd Sound processor for audio recording apparatus
JPH10301567A (en) * 1997-04-22 1998-11-13 Kawai Musical Instr Mfg Co Ltd Voice controller of electronic musical instrument
KR19990032088A (en) * 1997-10-16 1999-05-06 윤종용 Multilingual TTS Device and Multilingual TTS Processing Method
KR20000024096A (en) * 1999-03-29 2000-05-06 전영권 Apparatus for reproducing digital voice
KR20010015325A (en) * 1999-07-13 2001-02-26 구자홍 Voice special reproducing method and information reproducing apparatus
JP2001042891A (en) * 1999-07-27 2001-02-16 Suzuki Motor Corp Speech recognition apparatus, speech recognition mounting device, speech recognition mounting system, speech recognition method, and memory medium
KR20000030906A (en) * 2000-03-29 2000-06-05 백종관 Method of Executing Command Using Speech Recognition and Method of Transforming Text Selected by Application Program to Voice Using Text-to-Speech
KR20010099450A (en) * 2001-09-28 2001-11-09 오진근 Replayer for music files

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020097081A (en) * 2002-10-21 2002-12-31 김의식 Playing sysytem and method of voice book, and storage media thereof
US8352265B1 (en) 2007-12-24 2013-01-08 Edward Lin Hardware implemented backend search engine for a high-rate speech recognition system
US8639510B1 (en) 2007-12-24 2014-01-28 Kai Yu Acoustic scoring unit implemented on a single FPGA or ASIC
US8463610B1 (en) 2008-01-18 2013-06-11 Patrick J. Bourke Hardware-implemented scalable modular engine for low-power speech recognition

Similar Documents

Publication Publication Date Title
US7383182B2 (en) Systems and methods for speech recognition and separate dialect identification
Kamm et al. The role of speech processing in human–computer intelligent communication
WO2004063902B1 (en) Speech training method with color instruction
US20100178956A1 (en) Method and apparatus for mobile voice recognition training
Alghamdi et al. Saudi accented Arabic voice bank
JP7200533B2 (en) Information processing device and program
US20030216915A1 (en) Voice command and voice recognition for hand-held devices
JP6832503B2 (en) Information presentation method, information presentation program and information presentation system
JPH10326176A (en) Voice conversation control method
KR20020048357A (en) Method and apparatus for providing text-to-speech and auto speech recognition on audio player
Kehoe et al. Designing help topics for use with text-to-speech
KR20000030906A (en) Method of Executing Command Using Speech Recognition and Method of Transforming Text Selected by Application Program to Voice Using Text-to-Speech
JP2006139162A (en) Language learning system
JP3804188B2 (en) Sentence reading device
JP3838193B2 (en) Text-to-speech device, program for the device, and recording medium
Németh et al. Speech generation in mobile phones
Schramm et al. A Brazilian Portuguese language corpus development
Poon et al. Browsing the Web from a Speech-Based Interface.
JP2002288170A (en) Support system for communications in multiple languages
GB2342202A (en) Simultaneous translation
KR100768286B1 (en) Apparatus and method for memorizing sentence by image
Juozenas et al. DfA implementations for people with vision and hearing disabilities: application and development for information society
JP2001067096A (en) Voice recognition result evaluating device and record medium
CN100527223C (en) Device for generating speech, apparatus connectable to or incorporating such a device, and computer program product therefor
KR20020054568A (en) Foreign language learning apparatus and method using mobile communication device

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application