KR20110066622A - Apparatus and method of interpreting an international conference based speech recognition - Google Patents
Apparatus and method of interpreting an international conference based speech recognition Download PDFInfo
- Publication number
- KR20110066622A KR20110066622A KR1020090123354A KR20090123354A KR20110066622A KR 20110066622 A KR20110066622 A KR 20110066622A KR 1020090123354 A KR1020090123354 A KR 1020090123354A KR 20090123354 A KR20090123354 A KR 20090123354A KR 20110066622 A KR20110066622 A KR 20110066622A
- Authority
- KR
- South Korea
- Prior art keywords
- language
- key word
- speech recognition
- conference
- conference participant
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/263—Language identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
Abstract
Description
본 발명은 음성인식 기반 국제회의 통역 장치 및 방법에 관한 것으로, 보다 상세하게는 서로 다른 언어를 사용하는 국제 회의 참석자들의 원활한 의사소통을 지원하는 장치 및 방법에 관한 것이다.The present invention relates to an apparatus and method for interpreting speech based international conferences, and more particularly, to an apparatus and method for supporting smooth communication among participants of international conferences using different languages.
본 발명은 지식경제부 및 정보통신연구진흥원의 IT성장동력기술개발사업의 일환으로 수행한 연구로부터 도출된 것이다[과제관리번호: 2006-S-036-04, 과제명: 신성장동력산업용 대용량 대화형 분산 처리 음성인터페이스 기술개발].The present invention is derived from the research conducted as part of the IT growth engine technology development project of the Ministry of Knowledge Economy and the Ministry of Information and Communication Research and Development. [Task management number: 2006-S-036-04, Task name: Large-capacity interactive distribution for new growth engine industries] Development of processing voice interface technology].
일반적 국제 회의는 발표자가 사용하는 언어를 동시 통역해 줄 수 있는 통역사를 사용하여 회의 진행을 하거나, 세계 공용 언어인 영어를 사용하여 회의를 진행하는 것이 일반화 되어 있다. 이런 경우, 해당 언어를 통역해 줄 수 있는 동시 통역사가 필요하거나 공용어인 영어를 사용하는 경우, 회의 참석자의 영어 수준에 따라 이해도가 천차만별해 진다.In general international conferences, it is common to conduct a conference using an interpreter who can simultaneously interpret the language used by the presenter, or to hold a conference using English, which is a global language. In this case, if you need a simultaneous interpreter who can translate the language, or if you use English as the official language, your understanding will vary greatly depending on the English level of the meeting attendees.
본 발명은 상기한 종래의 사정을 감안하여 제안된 것으로, 영어 이해도가 다른 다양한 회의 참석자들에게 회의에 언급되는 주요 키워드들을 이해할 수 있도록 다양한 언어로 통역해 주는 음성인식 기반 국제회의 통역 장치 및 방법을 제공함에 그 목적이 있다.SUMMARY OF THE INVENTION The present invention has been proposed in view of the above-mentioned conventional circumstances, and provides a speech recognition-based international conference interpretation apparatus and method for interpreting in various languages so that various meeting participants with different English understandings can understand key keywords mentioned in the meeting. The purpose is to provide.
상기와 같은 목적을 달성하기 위하여 본 발명의 바람직한 실시양태에 따른 음성인식 기반 국제회의 통역 장치는, 다자간 회의에 참가하는 회의 참가자의 사용 언어를 포함하는 회의 참가자 정보를 회의 참가자별로 미리 등록하는 회의 참가자 정보 등록부; 회의 참가자별로의 발표 내용에 따른 핵심어를 미리 등록하고, 회의 참가자의 발표에 수반하는 음성을 미리 등록된 핵심어를 기반으로 인식하여 핵심어 형태의 음성인식 결과를 출력하는 음성 인식부; 및 핵심어 형태의 음성인식 결과를 분석하여 미리 등록된 회의 참가자별로의 사용 언어에 대응되는 타겟 언어로 변환하여 출력하는 언어 번역부를 포함한다.In order to achieve the above object, a voice recognition-based international conference interpretation device according to a preferred embodiment of the present invention includes a conference participant who pre-registers conference participant information including a language of a conference participant participating in a multi-party conference. An information register; A speech recognition unit that registers a key word according to the presentation content of each meeting participant in advance and recognizes a voice accompanying the conference participant based on a pre-registered key word and outputs a result of speech recognition in the form of a key word; And a language translator configured to analyze the voice recognition result in the form of a key word and convert the result into a target language corresponding to a language used for each pre-registered conference participant.
음성 인식부는, 회의 참가자별로의 발표 내용에서 핵심어를 추출하여 핵심어 데이터베이스에 저장하는 핵심어 추출부; 회의 참가자의 발표에 수반하는 음성을 수신하는 음성 수신부; 수신된 음성에 대한 특징 벡터를 추출하는 전처리부; 및 추출된 특징 벡터를 디코딩하되, 핵심어 데이터베이스에 저장된 핵심어를 기반으로 핵심어 형태의 음성인식 결과를 출력하는 디코딩부를 포함한다.The speech recognition unit may include a key word extracting unit extracting a key word from the presentation content for each meeting participant and storing the key word in a key word database; A voice receiver for receiving a voice accompanying the presentation of the conference participant; A preprocessor extracting a feature vector for the received voice; And a decoding unit for decoding the extracted feature vector and outputting a speech recognition result in the form of a keyword based on a keyword stored in a keyword database.
음성 인식부는 핵심어를 다자간 회의전에 회의 참가별로 미리 등록한다.The speech recognition unit registers key words in advance by conference participation before the multi-party conference.
음성 인식부에 미리 등록되는 핵심어는 주어, 명사, 동사를 포함한다.Key words registered in advance in the speech recognition unit include subjects, nouns, and verbs.
음성 인식부는 핵심어를 기본으로 한 텍스트 형태의 결과물을 출력한다.The speech recognition unit outputs a textual result based on a key word.
언어 번역부는, 음성 인식부로부터의 음성인식 결과를 수신하여 입력된 언어의 종류를 분석하는 언어 분석부; 회의 참가자들의 사용 언어를 분석하는 사용자 언어 정보 분석부; 및 수신된 음성인식 결과에 대해 대역사전을 기초로 입력 언어 대 출력 언어로 대응시키는 매핑을 회의 참가자별로 수행하여 회의 참가자별 타겟 언어로 변환하는 변환부를 포함한다.The language translator may include: a language analyzer configured to receive a voice recognition result from the voice recognizer and analyze a type of input language; A user language information analyzer for analyzing a language used by conference participants; And a converting unit converting the received speech recognition result into a target language for each conference participant by performing a mapping corresponding to an input language to an output language based on the band dictionary for each conference participant.
언어 번역부는 합성음 또는 텍스트의 형태의 출력물을 출력한다.The language translation unit outputs the output in the form of synthesized sound or text.
음성인식 기반 국제회의 통역 장치는 통신 네트워크를 통해 원격지의 회의 참가자간의 다자간 회의를 통역중계한다Voice recognition-based international conference interpreter translates multi-party conferences between remote conference participants through a communication network
본 발명의 바람직한 실시양태에 따른 음성인식 기반 국제회의 통역 방법은, 회의 참가자 정보 등록부가, 다자간 회의에 참가하는 회의 참가자의 사용 언어를 포함하는 회의 참가자 정보를 회의 참가자별로 미리 등록하는 회의 참가자 정보 등록 단계; 음성 인식부가, 회의 참가자별로의 발표 내용에 따른 핵심어를 미리 등록하고, 회의 참가자의 발표에 수반하는 음성을 상기 미리 등록된 핵심어를 기반으로 인식하여 핵심어 형태의 음성인식 결과를 출력하는 음성 인식 단계; 및 언어 번역부가, 핵심어 형태의 음성인식 결과를 분석하여 미리 등록된 회의 참가자별로의 사용 언어에 대응되는 타겟 언어로 변환하여 출력하는 언어 번역 단계를 포함한다.In the voice recognition-based international conference interpretation method according to a preferred embodiment of the present invention, the conference participant information registration unit registers conference participant information including the language of the conference participant participating in the multi-party conference in advance for each conference participant. step; A voice recognition step of registering a key word according to the presentation content of each meeting participant in advance, and recognizing a voice accompanying the presentation of the meeting participant based on the pre-registered key word and outputting a speech recognition result in the form of a key word; And a language translation step of analyzing, by the language translation unit, the voice recognition result in the form of a core word, converting the result into a target language corresponding to a language used for each conference participant registered in advance.
음성 인식 단계는, 회의 참가자별로의 발표 내용에서 핵심어를 추출하여 핵심어 데이터베이스에 저장하는 핵심어 추출 단계; 회의 참가자의 발표에 수반하는 음성을 수신하는 음성 수신 단계; 수신된 음성에 대한 특징 벡터를 추출하는 전처리 단계; 및 추출된 특징 벡터를 디코딩하되, 핵심어 데이터베이스에 저장된 핵심어를 기반으로 핵심어 형태의 음성인식 결과를 출력하는 디코딩 단계를 포함한다.The speech recognition step may include: extracting a key word from a presentation content of each conference participant and storing the key word in a key word database; A voice reception step of receiving a voice accompanying the presentation of the conference participant; A preprocessing step of extracting a feature vector for the received speech; And decoding the extracted feature vector, and outputting a speech recognition result in the form of a keyword based on the keyword stored in the keyword database.
음성 인식 단계는 다자간 회의전에 회의 참가별로 핵심어를 미리 등록한다.The speech recognition step registers key words in advance for each meeting participation before the multi-party meeting.
음성 인식 단계에서 미리 등록되는 핵심어는 주어, 명사, 동사를 포함한다.Key words registered in advance in the speech recognition phase include subjects, nouns, and verbs.
음성 인식 단계에 의한 음성인식 결과는 핵심어를 기본으로 한 텍스트 형태의 결과물이다.The speech recognition result by the speech recognition step is a textual result based on the key word.
언어 번역 단계는, 음성 인식 단계에 의한 음성인식 결과를 수신하여 입력된 언어의 종류를 분석하는 언어 분석 단계; 회의 참가자들의 사용 언어를 분석하는 사용자 언어 정보 분석 단계; 및 수신된 음성인식 결과에 대해 대역사전을 기초로 입력 언어 대 출력 언어로 대응시키는 매핑을 회의 참가자별로 수행하여 회의 참가자별 타겟 언어로 변환하는 변환 단계를 포함한다.The language translation step may include: a language analysis step of receiving a voice recognition result by the voice recognition step and analyzing a type of input language; Analyzing user language information for analyzing a language used by conference participants; And converting the received speech recognition result into a target language for each conference participant by performing mapping corresponding to an input language to an output language based on the band dictionary for each conference participant.
언어 번역 단계에서는 합성음 또는 텍스트의 형태의 출력물을 출력한다.In the language translation step, an output in the form of synthesized sound or text is output.
이러한 구성의 본 발명에 따르면, 국제 회의 발표자에게는 자유로운 모국어 구사가 가능하도록 하고, 참석자들에게는 모국어로 통역된 텍스트 데이터 또는 합성음을 제공해 줌으로써, 원활한 국제 회의 진행 및 참석자들의 회의 내용에 대한 이해도를 높일 수 있다.According to the present invention, the presenter can freely speak his / her native language and provide attendees with text data or synthesized voices translated into their native languages, thereby facilitating the progress of the international conference and understanding of the participants. have.
이하, 첨부된 도면을 참조하여 본 발명의 실시예에 따른 음성인식 기반 국제회의 통역 장치 및 방법에 대하여 설명하면 다음과 같다. 본 발명의 상세한 설명에 앞서, 이하에서 설명되는 본 명세서 및 청구범위에 사용된 용어나 단어는 통상적이거나 사전적인 의미로 한정해서 해석되어서는 아니된다. 따라서, 본 명세서에 기재된 실시예와 도면에 도시된 구성은 본 발명의 가장 바람직한 일실시예에 불과할 뿐이고 본 발명의 기술적 사상을 모두 대변하는 것은 아니므로, 본 출원시점에 있어서 이들을 대체할 수 있는 다양한 균등물과 변형예들이 있을 수 있음을 이해하여야 한다.Hereinafter, an apparatus and method for interpreting voice recognition based international conference according to an embodiment of the present invention will be described with reference to the accompanying drawings. Prior to the detailed description of the present invention, the terms or words used in the specification and claims described below should not be construed as being limited to the ordinary or dictionary meanings. Therefore, the embodiments described in the specification and the drawings shown in the drawings are only one of the most preferred embodiments of the present invention and do not represent all of the technical idea of the present invention, various modifications that can be replaced at the time of the present application It should be understood that there may be equivalents and variations.
도 1은 본 발명의 실시예에 따른 음성인식 기반 국제회의 통역 장치가 적용된 시스템을 설명하기 위한 도면이다.1 is a view for explaining a system to which the speech recognition based international conference interpretation apparatus according to an embodiment of the present invention is applied.
본 발명의 실시예의 장치(15)는 통신 네트워크(예컨대, 인터넷(14))에 연결된다. 인터넷(14)에 연결된 원격지의 회의 참가자는 자신의 단말기(11, 12, 13중의 어느 하나)를 통해 본 발명의 실시예의 장치(15)에 접속하여 음성인식 기반 국제회의 통역 서비스를 제공받을 수 있다. The
단말기(11, 12, 13)는 인터넷(14)을 통해 본 발명의 실시예의 장치(15)로의 접속이 가능하고, 음성 입력 및 출력, 텍스트의 화면 출력 등이 가능한 단말기이면 된다.The
본 발명의 실시예의 장치(15)는 다자간의 국제회의시 음성인식을 기반으로 국제회의 통역을 행한다. 장치(15)에 대한 보다 자세한 설명은 후술한다.The
도 1의 경우, 회의 시작전에 회의 참가자에게 사용하는 언어를 등록하도록 한다. In the case of Fig. 1, the language to be used is registered to the meeting participants before the meeting starts.
그 후, 임의의 회의 참석자 그룹의 참석자가 단말기(예컨대, 11)를 통해 한국어를 사용하여 “안녕하세요 저는 강점자입니다”라고 말하면, 이 음성 데이터는 인터넷(14)을 통해 본 발명의 실시예의 장치(15)에게로 전달된다(16, 17). Then, if a participant of any group of conference attendees speaks "Hello I am a strong point" using Korean via a terminal (e.g. 11), this voice data is transmitted via the Internet 14 to the device of the embodiment of the present invention. 15) (16, 17).
본 발명의 실시예의 장치(15)는 수신한 “안녕하세요. 저는 강점자입니다.”라는 음성 데이터에 대한 음성인식을 수행한다. The
본 발명의 실시예의 장치(15)는 음성인식 수행 결과 “안녕 저 강점자”로 인식하게 된다. 장치(15)는 이렇게 인식된 핵심어 기반 인식 결과를 목표(target)언어로 번역하여 그의 결과를 전달한다(18, 19, 20, 21).
예를 들어, 단말기(11, 13)의 회의 참가자가 미리 등록시킨 사용 언어가 영어인 경우에는 해당 회의 참자자는 영어로 “Hello, I’m JeomJakang” 와 같은 서비스를 받게 된다(20, 21). 만약, 단말기(12)의 회의 참석자가 미리 등록시킨 사용 언어가 일본어인 경우에는 해당 회의 참가자는 일본어로 “こんにちは。私はカン ジョンジャと申します” 와 같은 서비스를 받게 된다(19). For example, if a language used in advance by a conference participant of the
이 때, 화면에 출력되는 통역 결과는 화자가 발성한 문장 형태가 아닌 핵심단어만을 출력하는 키워드(핵심어) 출력 방식을 사용한다. 키워드 출력방식을 사용하는 이유는 대화체 연속어 인식의 경우 인식성공률이 떨어지기 때문에 회의 진행에 중요한 키워드 인식 및 출력을 기반으로 한다. 현재, 대화체 전화 음성 기반으 로 개발된 AT&T LVCSR(Large Vocabulary Continues Speech Recognition) 시스템의 단어 인식률은 71.6%로 인식 성공률이 저조한 상태이다.At this time, the interpretation result displayed on the screen uses a keyword (key word) output method that outputs only the core word, not the sentence type spoken by the speaker. The reason for using the keyword output method is based on the keyword recognition and output which is important for the proceeding of the conference because the recognition success rate decreases in the case of dialogue continuous word recognition. Currently, the word recognition rate of AT & T Large Vocabulary Continues Speech Recognition (AT & T LVCSR) system, which is developed based on conversational phone speech, is 71.6%, indicating a poor recognition success rate.
상술한 본 발명의 실시예의 장치(15)는 오프라인에서도 유용하게 사용할 수 있다. The
도 2는 본 발명의 실시예에 따른 음성인식 기반 국제회의 통역 장치의 구성을 나타낸 블록도이다.Figure 2 is a block diagram showing the configuration of the speech recognition based international conference interpretation apparatus according to an embodiment of the present invention.
본 발명의 실시예에 따른 음성인식 기반 국제회의 통역 장치는, 회의 참가자 정보 등록부(100), 호 제어부(102), 음성 인식부(200), 및 언어 번역부(300)를 포함한다.Voice recognition-based international conference interpretation device according to an embodiment of the present invention, the meeting participant
회의 참가자 정보 등록부(100)는 다자간 회의에 참가하는 회의 참가자의 사용 언어를 포함하는 회의 참가자 정보를 회의 참가자별로 미리 등록한다. 여기서, 회의 참가자 정보는 사용 언어, 회의 참가자의 신상 내역과 ID 및 패스워드 등을 포함한다.The conference participant
호 제어부(102)는 다자간 회의에 필요한 호 제어를 행한다.The
음성 인식부(200)는 회의 참가자별로의 발표 내용에 따른 핵심어(예컨대, 주 어, 명사, 동사를 포함)를 미리 등록하고, 회의 참가자의 발표에 수반하는 음성을 미리 등록된 핵심어를 기반으로 인식하여 핵심어 형태의 음성인식 결과를 출력한다. The
음성 인식부(200)는 음성 수신부(202), 전처리부(204), 디코딩부(206), 핵심어 추출부(208), 핵심어 데이터베이스(210), 및 음향 모델 데이터베이스(212)를 포함한다. 음성 수신부(202)는 회의 참가자의 발표에 수반하는 음성을 수신하여 버퍼링한다. 전처리부(204)는 음성 수신부(202)로부터의 음성 데이터에 섞여 있는 잡음을 제거하고, 잡음이 제거된 데이터로부터 음성 구간에 해당하는 시작점과 끝점을 추출하여 특징 벡터를 추출한다. 핵심어 추출부(208)는 다자간 회의 시작전에 입력되는 회의 참가자별로의 발표 내용에서 핵심어를 추출하여 핵심어 데이터베이스(210)에 저장한다. 핵심어 추출부(208)는 회의 참가자 정보 등록부(100) 또는 호 제어부(102)에서 입력되는 발표 내용에서 핵심어를 추출한다. 물론, 회의 참가자 정보 등록부(100) 또는 호 제어부(102)가 아닌 별도의 마이크를 통해 입력되는 발표 내용에서 핵심어를 추출하여도 된다. 이하의 본 발명의 명세서에서는 편의상 호 제어부(102)가 마이크(도시 생략)를 갖춘 것으로 가정하고 호 제어부(102)를 통해 미리 발표 내용이 음성 인식부(200)로 입력되고 핵심어 추출부(208)에서 핵심어를 추출하는 것으로 한다. 음향 모델 데이터베이스(212)는 은닉 마코프 기반으로 생성된 음성별 표준 패턴 음향 모델을 저장하고 있다. 디코딩부(206)는 전처리부(204)에서 추출된 특징 벡터를 디코딩하되, 핵심어 데이터베이스(210)에 저장된 핵심어 및 음향 모델 데이터베이스(212)의 표준 패턴 음향 모델 등을 기반으로 핵심어 형 태의 음성인식 결과를 출력한다. 바람직하게, 디코딩부(206)는 전처리부(204)에서 추출된 특징 벡터와 은닉 마코프 기반으로 생성된 표준 패턴 음향모델, 클래스기반 무한상태네트워크(FSN: Finite State Network), 및 사전을 사용하여 비터비 탐색을 수행하는 디코딩 기능을 수행한다. 디코딩 수행결과, 디코딩부(206)는 핵심어(키워드) 형태의 음성인식 결과를 출력한다. The
언어 번역부(300)는 핵심어 형태의 음성인식 결과를 분석하여 미리 등록된 회의 참가자별로의 사용 언어에 대응되는 타겟 언어로 변환하여 출력한다.The
언어 번역부(300)는 언어 분석부(302), 사용자 언어 정보 분석부(304), 변환부(308), 출력부(310), 및 사용자 정보 데이터베이스(312)를 포함한다.The
언어 분석부(302)는 음성 인식부(200)로부터의 음성인식 결과를 수신하여 입력된 언어의 종류(예컨대, 한국어, 영어, 일본어, 중국어, 불어 등)가 무엇인지를 분석한다. The
사용자 언어 정보 분석부(304)는 사용자 정보 데이터베이스(312)에 저장된 정보를 기초로 회의 참가자들의 사용 언어가 무엇인지를 분석한다. 사용자 정보 데이터베이스(312)에는 회의 참가자 정보 등록부(100)에서 등록한 사용자 정보(즉, 사용 언어, 회의 참가자 ID, 패스워드 등을 포함하는 회의 참가자 정보)가 등록되어 있으므로, 사용자 언어 정보 분석부(304)의 분석 동작이 가능하다. The user language
변환부(308)는 수신된 음성인식 결과에 대해 내장된 대역사전 데이터베이스(306)를 기초로 입력 언어 대 출력 언어로 대응시키는 매핑을 회의 참가자별로 수행하여 회의 참가자별 타겟 언어로 변환한다.The
출력부(310)는 변환부(308)에서 회의 참가자별 타겟 언어로 된 변환된 출력물을 출력장치의 형태가 출력할 화면을 갖고 있지 않은 경우에는 합성음으로 출력하고, 출력할 화면을 갖고 있는 경우는 텍스트 형태로 출력한다.The
도 3은 본 발명의 실시예에 따른 음성인식 기반 국제회의 통역 방법을 설명하기 위한 플로우차트이다.3 is a flowchart illustrating a voice recognition based international conference interpretation method according to an embodiment of the present invention.
일단, 음성인식 기반 국제회의 통역 서비스를 개시하기 전에 다자간 회의에 참가하는 참가자는 사용 언어를 포함한 회의 참가자 정보의 등록 및 회의시 발표내용중의 핵심어에 대한 등록을 먼저 행한다(S10). 즉, 회의 참가자 정보 등록부(100)를 통해 입력되는 회의 참가자 정보는 언어 번역부(300)의 사용자 정보 데이터베이스(312)에 저장된다. 호 제어부(102)의 마이크(도시 생략)를 통해 미리 입력되는 회의시의 발표내용은 음성 인식부(200)의 핵심어 추출부(208)에 입력되고, 핵심어 추출부(208)에서의 핵심어 추출과정을 통해 발표내용중의 핵심어가 핵심어 데이터베이스(210)에 저장된다. 여기서, 사용자 정보 데이터베이스(312) 및 핵심어 데이터베이스(210)에 저장되는 정보는 국가별 및 회의 참가자별로 분류되어 저장되거나 다른 형태로 저장된다. 본 발명에서는 핵심어 기반 음성인식을 위해 사전에 핵심어를 추출하여 저장시켜 두는 방식을 취하였는데, 이는 인식 성공률을 높이기 위함이다. 즉, 사전에 미리 등록시켜 두어야 시간적으로도 인식 속도도 빠르고 인식 성공률이 높아지기 때문이다. 핵심어로는 예를 들어 주어, 명사, 동사가 핵심어 로 정의된다. 음성 인식부(200)에서는 영역에 따른 클래스로 세분화하여 문법 네트워크를 구축함으로써 시스템 속도와 인식 성공률을 높이게 된다. First, the participants participating in the multi-party conference before the voice recognition-based international conference interpretation service is first registered with the participants of the conference, including the language used, and the key words in the presentation during the conference (S10). That is, the conference participant information input through the conference participant
이와 같은 등록 과정이 완료된 이후에, 호 제어부(102)에서 회의 참가자 전원에게 호 개시 명령을 함으로써 국제회의 통역 서비스를 개시한다(S12).After the registration process is completed, the
호 종료가 없게 되면(S14에서 "No") 발표자는 발표하고자 하는 말을 모국어를 사용하여 자연스럽게 말을 시작한다(S16).If there is no call termination (“No” in S14), the presenter naturally starts to speak the words to be announced using the mother tongue (S16).
그에 따라, 음성 인식부(200)의 음성 수신부(202)는 입력되는 음성 데이터를 버퍼링하고, 전처리부(204)는 버퍼링된 음성 데이터에 대한 전처리를 수행한다. 즉, 전처리부(204)에서는 음성 데이터에 섞여 있는 잡음을 제거하고, 잡음이 제거된 데이터로부터 음성 구간에 해당하는 시작점과 끝점을 추출하여 특징 벡터를 추출한다. 이후, 디코딩부(206)는 전처리부(204)에서 추출된 특징 벡터와 은닉 마코프 기반으로 생성된 표준 패턴 음향모델, 클래스기반 무한상태네트워크(FSN: Finite State Network), 사전(즉, 핵심어 데이터베이스(210))을 사용하여 비터비 탐색을 수행하는 디코딩 기능을 수행한다. 디코딩부(206)는 디코딩 수행결과로써 핵심어(키워드) 형태의 음성인식결과를 출력한다(S18).Accordingly, the
키워드 형태의 음성인식 결과가 언어 번역부(400)에게로 입력되면, 언어 번역부(400)의 언어 분석부(302)는 음성인식 텍스트를 분석하여 입력된 언어의 종류(예컨대, 한국어, 영어, 일본어, 중국어 등)가 무엇인지를 파악한다(S20).When the speech recognition result in the form of a keyword is input to the language translator 400, the
그리고, 사용자 언어 정보 분석부(304)는 사용자 정보 데이터베이스(312)에 저장된 정보를 기초로 회의 참석자들이 사용하는 언어가 무엇인지를 파악한 다(S22). 이는 회의 참석자들마다 사용하는 언어가 다르기 때문에 그에 해당하는 언어로 대응시켜 출력시켜 주기 위한 것이다. In addition, the user
이후, 변환부(308)는 내장된 대역사전 데이터베이스(306)를 사용하여 입력 언어 대 출력 언어로 대응시켜 주는 대역사전 매핑을 수행하여 회의 참석자별 타겟 언어로 변환한다(S24, S26). Thereafter, the
이와 같이 회의 참석자별 타겟 언어로의 변환이 완료되면 출력부(310)는 출력장치의 형태가 출력할 화면을 갖고 있지 않은 경우에는 변환완료된 결과물을 합성음으로 출력하고, 출력할 화면을 갖고 있는 경우는 변환완료된 결과물을 텍스트 형태로 출력한다(S28).When the conversion to the target language for each meeting participant is completed as described above, the
이와 같은 음성인식 기반 국제회의 통역 서비스는 호 제어부(102)에서의 호 종료가 있게 되면(S14에서 "Yse") 종료된다.This voice recognition based international conference interpretation service is terminated when there is a call termination in the call control unit 102 ("Yse" in S14).
한편, 본 발명은 상술한 실시예로만 한정되는 것이 아니라 본 발명의 요지를 벗어나지 않는 범위내에서 수정 및 변형하여 실시할 수 있고, 그러한 수정 및 변형이 가해진 기술사상 역시 이하의 특허청구범위에 속하는 것으로 보아야 한다.On the other hand, the present invention is not limited only to the above-described embodiments and can be carried out by modifications and variations within the scope not departing from the gist of the present invention, the technical idea that such modifications and variations are also within the scope of the claims Must see
도 1은 본 발명의 실시예에 따른 음성인식 기반 국제회의 통역 장치가 적용된 시스템을 설명하기 위한 도면이다.1 is a view for explaining a system to which the speech recognition based international conference interpretation apparatus according to an embodiment of the present invention is applied.
도 2는 본 발명의 실시예에 따른 음성인식 기반 국제회의 통역 장치의 구성을 나타낸 블록도이다.Figure 2 is a block diagram showing the configuration of the speech recognition based international conference interpretation apparatus according to an embodiment of the present invention.
도 3은 본 발명의 실시예에 따른 음성인식 기반 국제회의 통역 방법을 설명하기 위한 플로우차트이다.3 is a flowchart illustrating a voice recognition based international conference interpretation method according to an embodiment of the present invention.
Claims (15)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020090123354A KR101233655B1 (en) | 2009-12-11 | 2009-12-11 | Apparatus and method of interpreting an international conference based speech recognition |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020090123354A KR101233655B1 (en) | 2009-12-11 | 2009-12-11 | Apparatus and method of interpreting an international conference based speech recognition |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20110066622A true KR20110066622A (en) | 2011-06-17 |
KR101233655B1 KR101233655B1 (en) | 2013-02-15 |
Family
ID=44399415
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020090123354A KR101233655B1 (en) | 2009-12-11 | 2009-12-11 | Apparatus and method of interpreting an international conference based speech recognition |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR101233655B1 (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019208860A1 (en) * | 2018-04-27 | 2019-10-31 | 주식회사 시스트란인터내셔널 | Method for recording and outputting conversation between multiple parties using voice recognition technology, and device therefor |
KR102599001B1 (en) * | 2023-01-12 | 2023-11-06 | (주)아나키 | Template-based meeting document generating device and method THEREFOR |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4089148B2 (en) * | 2000-10-17 | 2008-05-28 | 株式会社日立製作所 | Interpreting service method and interpreting service device |
JP2002245038A (en) | 2001-02-21 | 2002-08-30 | Ricoh Co Ltd | Multilanguage translation system by portable terminal equipment |
KR100554399B1 (en) * | 2003-03-25 | 2006-02-22 | 조승호 | A portable Interpretation system and method |
KR20050052943A (en) * | 2003-12-01 | 2005-06-07 | 한국전자통신연구원 | Key-word based speech translation system for travelers and the method |
-
2009
- 2009-12-11 KR KR1020090123354A patent/KR101233655B1/en not_active IP Right Cessation
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019208860A1 (en) * | 2018-04-27 | 2019-10-31 | 주식회사 시스트란인터내셔널 | Method for recording and outputting conversation between multiple parties using voice recognition technology, and device therefor |
KR102599001B1 (en) * | 2023-01-12 | 2023-11-06 | (주)아나키 | Template-based meeting document generating device and method THEREFOR |
Also Published As
Publication number | Publication date |
---|---|
KR101233655B1 (en) | 2013-02-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8510103B2 (en) | System and method for voice recognition | |
US20030115059A1 (en) | Real time translator and method of performing real time translation of a plurality of spoken languages | |
JP4902617B2 (en) | Speech recognition system, speech recognition method, speech recognition client, and program | |
US20100217591A1 (en) | Vowel recognition system and method in speech to text applictions | |
KR20170103209A (en) | Simultaneous interpretation system for generating a synthesized voice similar to the native talker's voice and method thereof | |
CN110689877A (en) | Voice end point detection method and device | |
WO2003052624A1 (en) | A real time translator and method of performing real time translation of a plurality of spoken word languages | |
US11144732B2 (en) | Apparatus and method for user-customized interpretation and translation | |
JP2008225191A (en) | Minutes creation method, its device and its program | |
CN109256133A (en) | A kind of voice interactive method, device, equipment and storage medium | |
US10366173B2 (en) | Device and method of simultaneous interpretation based on real-time extraction of interpretation unit | |
CN112420050B (en) | Voice recognition method and device and electronic equipment | |
US20070016420A1 (en) | Dictionary lookup for mobile devices using spelling recognition | |
WO2018043138A1 (en) | Information processing device, information processing method, and program | |
US20170221481A1 (en) | Data structure, interactive voice response device, and electronic device | |
KR101233655B1 (en) | Apparatus and method of interpreting an international conference based speech recognition | |
JP2011039468A (en) | Word searching device using speech recognition in electronic dictionary, and method of the same | |
KR101218332B1 (en) | Method and apparatus for character input by hybrid-type speech recognition, and computer-readable recording medium with character input program based on hybrid-type speech recognition for the same | |
KR100369732B1 (en) | Method and Apparatus for intelligent dialog based on voice recognition using expert system | |
JP2016024378A (en) | Information processor, control method and program thereof | |
Yamabana et al. | A speech translation system with mobile wireless clients | |
JP2016151718A (en) | Simple interpretation device | |
JP2000242295A (en) | Voice recognition device and voice interactive device | |
JP2005151037A (en) | Unit and method for speech processing | |
Sehgal et al. | Speech Processing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
LAPS | Lapse due to unpaid annual fee |