KR20180068655A - apparatus and method for generating text based on audio signal - Google Patents

apparatus and method for generating text based on audio signal Download PDF

Info

Publication number
KR20180068655A
KR20180068655A KR1020160170560A KR20160170560A KR20180068655A KR 20180068655 A KR20180068655 A KR 20180068655A KR 1020160170560 A KR1020160170560 A KR 1020160170560A KR 20160170560 A KR20160170560 A KR 20160170560A KR 20180068655 A KR20180068655 A KR 20180068655A
Authority
KR
South Korea
Prior art keywords
data
character
voice
unit
voice signal
Prior art date
Application number
KR1020160170560A
Other languages
Korean (ko)
Inventor
윤지현
Original Assignee
윤지현
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 윤지현 filed Critical 윤지현
Priority to KR1020160170560A priority Critical patent/KR20180068655A/en
Publication of KR20180068655A publication Critical patent/KR20180068655A/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Telephonic Communication Services (AREA)
  • Telephone Function (AREA)

Abstract

The present invention provides a text conversion apparatus which includes: a receiving part for receiving audio data from an audio recognition apparatus; a text data conversion part for extracting text data from the received audio data; and a transmission part for transmitting the extracted text data to a display device. A hearing impaired person can participate in conversation with the public without any inconvenience.

Description

음성 신호에 기초한 문자 생성 장치 및 방법{apparatus and method for generating text based on audio signal}BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a method and apparatus for generating a character based on a speech signal,

본 발명은 음성 신호에 기초한 문자 생성 장치로서, 수신된 음성 신호로부터 문자를 추출하여 문자 데이터를 생성하고, 표시하는 장치 및 방법에 관한 것이다.The present invention relates to an apparatus for generating a character based on a speech signal, and to an apparatus and method for extracting characters from a received speech signal to generate and display character data.

종래에는, 청각 장애인들이 일상 생활을 함에 있어서, 수화를 하지 못하는 일반인과의 대화 또는 일반적인 학원이나 학교 수업 등, 청각 장애인들은 대화나 수업에 참여하지 못하는 환경에 노출되어 있었다. 또한, 국내 드라마나 영화 등을 시청을 할 경우에도 청각 장애인들은 자막이 제공되는 방송에만 의존하고, 자막이 제공되지 않는 일반적인 티비나 국내 영화 시청에 제한적이므로 폭넓은 시청 환경을 접할 수 없는 문제가 있었다.In the past, hearing-impaired people were exposed to an environment in which they could not participate in conversation or class, such as conversation with the general public who could not sign language or general school or school classes in daily life. In addition, even when watching domestic dramas or movies, the hearing-impaired people are dependent only on the broadcast provided with subtitles, and are restricted to general TVs or domestic movies not provided with subtitles, .

또한, 비장애인들도 수업을 들을 때 수업 내용에 대한 필기를 하느라 수업에 집중하지 못하거나 수업 내용을 놓치게 되는 경우가 종종 있다. 또한, 직장인들이 회의 중에 회의 내용을 기록하지만, 회의 내용을 놓치고 기록하지 못하는 경우가 생길 수 있는 문제가 있었다.In addition, non - disabled people often do not concentrate on class or miss out on class because they take notes on class contents when they take classes. In addition, there was a problem that the workers recorded the meeting during the meeting, but missed the meeting and could not record it.

본 발명의 다양한 실시 예에 따르면 청각 장애인이 수화를 하지 못하는 비장애인과의 대화에 불편함이 없이 참여할 수 있고, 일반적인 학원이나 학교 수업을 참여할 수 있는 환경을 제공할 수 있는 음성 신호에 기초한 문자 생성 장치 및 방법을 제공할 수 있다. According to various embodiments of the present invention, it is possible to generate a character based on a voice signal, which can participate in conversation with a non-disabled person who is not capable of signing a deaf person, Apparatus and method.

또한, 본 발명의 다양한 실시예에 따르면 비장애인들도 수업 또는 회의 중에 내용을 일일이 기록하지 않아도, 자동으로 수업 또는 회의 중에 내용이 문자로 생성되어 기록되는 음성 신호에 기초한 문자 생성 장치 및 방법을 제공할 수 있다.In addition, according to various embodiments of the present invention, there is provided a device and method for generating a character based on a voice signal in which content is automatically generated and recorded in a class or during a meeting, even if the non-disabled person does not record contents during a class or a meeting can do.

본 발명의 일 실시예로서, 본 발명은 음성인식 장치로부터 음성 데이터를 수신하는 수신부; 수신된 음성 데이터로부터 문자 데이터를 추출하는 문자 데이터 변환부; 상기 추출된 문자 데이터를 표시 장치로 전송하는 전송부를 포함하는 것을 특징으로 하는 문자 변환 장치를 제공하는 것을 특징으로 한다. According to an embodiment of the present invention, there is provided a speech recognition apparatus comprising: a receiver for receiving speech data from a speech recognition apparatus; A character data conversion unit for extracting character data from the received voice data; And a transmitting unit for transmitting the extracted character data to a display device.

본 발명의 다른 실시예로서, 외부로부터 음성 신호를 수신하는 음성 신호 인식부; 수신된 상기 음성 신호를 음성 데이터로 변환하는 음성 데이터 변환부; 및 변환된 상기 음성 데이터를 문자 데이터로 변환하는 문자 변환 장치로 전송하는 전송부를 포함하는 것을 특징으로 하는 음성 인식 장치를 제공하는 것을 특징으로 한다. According to another embodiment of the present invention, there is provided a speech recognition apparatus comprising: a speech signal recognition unit for receiving a speech signal from outside; A voice data conversion unit for converting the received voice signal into voice data; And a transmitter for transmitting the converted voice data to a character converter for converting the voice data into character data.

본 발명의 다른 실시예로서, 외부로부터 음성 신호를 수신하는 음성 신호 인식부; 수신된 음성 신호를 음성 데이터로 변환하는 음성 데이터 변환부; 변환된 상기 음성 데이터로부터 문자를 추출하는 문자 데이터 변환부; 및 변환된 상기 문자 데이터를 표시 장치로 전송하는 전송부를 포함하는 것을 특징으로 하는 문자 변환 장치를 제공하는 것을 특징으로 한다. According to another embodiment of the present invention, there is provided a speech recognition apparatus comprising: a speech signal recognition unit for receiving a speech signal from outside; A voice data conversion unit for converting the received voice signal into voice data; A character data conversion unit for extracting characters from the converted voice data; And a transfer unit for transferring the converted character data to a display device.

본 발명의 다른 실시예로서, 외부로부터 음성 신호를 수신하는 음성 신호 인식부; 수신된 음성 신호를 음성 데이터를 변환하는 음성 데이터 변환부; 변환된 상기 음성 데이터를 문자 데이터로 변환하는 문자 변환 장치로 전송하는 전송부; 및 상기 문자 변환 장치로부터 수신받은 문자 데이터를 표시하는 표시부를 포함하는 것을 특징으로 하는 문자 표시 장치를 제공하는 것을 특징으로 한다. According to another embodiment of the present invention, there is provided a speech recognition apparatus comprising: a speech signal recognition unit for receiving a speech signal from outside; A voice data conversion unit for converting voice data of a received voice signal; A transmitting unit for transmitting the converted voice data to a character converting apparatus for converting the voice data into character data; And a display unit for displaying the character data received from the character conversion apparatus.

본 발명의 다양한 실시 예에 따르면, 청각 장애인들은 수화를 하지 못하는 비장애인과의 대화에 불편함 없이 참여할 수 있고, 수화를 사용하지 않는 일반적인 학원이나 학교 수업에 참여할 수 있는 환경이 제공될 수 있다. According to various embodiments of the present invention, hearing-impaired people can participate in conversations with non-disabled persons who are unable to sign, and can be provided with an environment in which they can participate in general academies or school classes that do not use sign language.

또한, 본 발명의 다양한 실시예에 따르면, 비장애인들도 수업 또는 회의 중에 내용을 일일이 기록하지 않아도, 자동으로 수업 또는 회의 중의 내용이 문자로 생성되어 효율적인 수업 또는 회의가 진행될 수 있다. In addition, according to various embodiments of the present invention, even when a non-disabled person does not record contents during a class or a meeting, the contents in a class or a meeting are automatically generated so that efficient class or meeting can be conducted.

도 1은 본 발명의 일 실시예에 따른 음성 인식 장치(100), 문자 변환 장치(110) 및 문자 표시 장치(120)이다.
도 2는 도 1에 도시된 본 발명의 일 실시예의 구현 예에 대해서 도시한 도면이다.
도 3은 도 1에 도시된 본 발명의 일 실시예의 다른 구현 예에 대해서 도시한 도면이다.
도 4는 도 1에 도시된 본 발명의 일 실시예의 또 다른 구현 예에 대해서 도시한 도면이다.
도 5는 본 발명의 다른 실시예에 따른 문자 표시 장치(500) 및 문자 변환 장치(516)이다.
도 6은 도 5에 도시된 본 발명의 다른 실시예의 구현 예에 대해서 도시한 도면이다.
도 7은 도 5에 도시된 본 발명의 다른 실시예의 다른 구현 예에 대해서 도시한 도면이다.
도 8은 도 5에 도시된 본 발명의 다른 실시예의 또 다른 구현 예에 대해서 도시한 도면이다.
도 9는 도 5에 도시된 본 발명의 다른 실시예의 또 다른 구현 예에 대해서 도시한 도면이다.
도 10은 도 5에 도시된 본 발명의 다른 실시예의 또 다른 구현 예에 대해서 도시한 도면이다.
도 11은 도 5에 도시된 본 발명의 다른 실시예의 또 다른 구현 예에 대해서 도시한 도면이다.
도 12는 도 11에 도시된 구현 예의 다른 구현 예에 대해서 도시한 도면이다.
도 13은 본 발명의 또 다른 실시예에 따른 문자 변환 장치(1300) 및 문자 표시 장치(1312)이다.
도 14는 도 13에 도시된 본 발명의 또 다른 실시예의 구현 예에 대해서 도시한 도면이다.
도 15는 본 발명의 실시예에서 화자가 3명 이상인 경우의 구현 예가 도시되어 있다.
도 16은 본 발명의 일 실시예에 따른 음성 신호에 기초하여 문자를 생성하는 방법에 대한 간략한 순서도이다.
1 is a block diagram of a speech recognition apparatus 100, a character conversion apparatus 110, and a character display apparatus 120 according to an embodiment of the present invention.
FIG. 2 is a view illustrating an embodiment of the present invention shown in FIG. 1. Referring to FIG.
FIG. 3 is a diagram illustrating another embodiment of the present invention shown in FIG. 1. Referring to FIG.
FIG. 4 is a diagram illustrating another embodiment of the present invention shown in FIG. 1. Referring to FIG.
5 is a character display device 500 and a character conversion device 516 according to another embodiment of the present invention.
FIG. 6 is a diagram illustrating an embodiment of another embodiment of the present invention shown in FIG.
FIG. 7 is a view showing another embodiment of the other embodiment of the present invention shown in FIG.
FIG. 8 is a view showing another embodiment of the other embodiment of the present invention shown in FIG.
FIG. 9 is a view showing another embodiment of the other embodiment of the present invention shown in FIG.
FIG. 10 is a view showing another embodiment of another embodiment of the present invention shown in FIG.
FIG. 11 is a view showing another embodiment of the other embodiment of the present invention shown in FIG.
12 is a diagram illustrating another embodiment of the embodiment shown in FIG.
13 is a character conversion apparatus 1300 and a character display apparatus 1312 according to another embodiment of the present invention.
14 is a view illustrating an embodiment of another embodiment of the present invention shown in FIG.
Fig. 15 shows an embodiment in the case where there are three or more speakers in the embodiment of the present invention.
16 is a simplified flowchart of a method for generating a character based on a speech signal according to an embodiment of the present invention.

이하에서는 도면을 참조하여 본 개시에 대해서 자세히 설명한다. 이때, 각각의 도면에서 동일한 구성 요소는 가능한 동일한 부호로 나타낸다. 또한, 이미 공지된 기능 및/또는 구성에 대한 상세한 설명은 생략한다. 이하에 개시된 내용은, 다양한 실시 예에 따른 동작을 이해하는데 필요한 부분이 중점적으로 설명하며, 그 설명의 요지를 흐릴 수 있는 요소들에 대한 설명은 생략한다.Hereinafter, the present disclosure will be described in detail with reference to the drawings. In the drawings, the same components are denoted by the same reference symbols as possible. In addition, detailed descriptions of known functions and / or configurations are omitted. The following description will focus on the parts necessary for understanding the operation according to various embodiments, and a description of elements that may obscure the gist of the description will be omitted.

본 문서에서, "A 또는 B", "A 또는/및 B 중 적어도 하나", 또는 "A 또는/및 B 중 하나 또는 그 이상" 등의 표현은 함께 나열된 항목들의 모든 가능한 조합을 포함할 수 있다. 예를 들면, "A 또는 B", "A 및 B 중 적어도 하나", 또는 "A 또는 B 중 적어도 하나"는, (1) 적어도 하나의 A를 포함, (2) 적어도 하나의 B를 포함, 또는 (3) 적어도 하나의 A 및 적어도 하나의 B 모두를 포함하는 경우를 모두 지칭할 수 있다.In this document, the expressions "A or B," "at least one of A and / or B," or "one or more of A and / or B," etc. may include all possible combinations of the listed items . For example, "A or B," "at least one of A and B," or "at least one of A or B" includes (1) at least one A, (2) Or (3) at least one A and at least one B all together.

다양한 실시 예에서 사용된 "제1", "제2", "첫째", 또는 "둘째" 등의 표현들은 다양한 구성요소들을, 순서 및/또는 중요도에 상관없이 수식할 수 있고, 해당 구성요소들을 한정하지 않는다. 예를 들면, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 바꾸어 명명될 수 있다.Expressions such as " first, "second," first, "or" second, " as used in various embodiments, Not limited. For example, without departing from the scope of the present invention, the first component may be referred to as a second component, and similarly, the second component may also be named as the first component.

또한 도면의 일부 구성요소는 과장되거나 생략되거나 또는 개략적으로 도시될 수 있다. 각 구성요소의 크기는 실제 크기를 전적으로 반영하는 것이 아니며, 따라서 각각의 도면에 그려진 구성요소들의 상대적인 크기나 간격에 의해 여기에 기재되는 내용들이 제한되는 것은 아니다.Also, some of the elements of the drawings may be exaggerated, omitted, or schematically illustrated. The size of each component does not entirely reflect the actual size, and therefore the contents described herein are not limited by the relative sizes or spacings of the components drawn in the respective drawings.

도 1은 본 발명의 일 실시예에 따른 음성 인식 장치(100), 문자 변환 장치(110) 및 문자 표시 장치(120)이다. 1 is a block diagram of a speech recognition apparatus 100, a character conversion apparatus 110, and a character display apparatus 120 according to an embodiment of the present invention.

음성 인식 장치(100)는 음성 신호 인식부(102), 음성 신호 증폭부(104), 음성 신호 데이터 변환부(106) 및 전송부(108)를 포함한다. The speech recognition apparatus 100 includes a speech signal recognition unit 102, a speech signal amplification unit 104, a speech signal data conversion unit 106, and a transmission unit 108.

음성 신호 인식부(102)는 외부로부터 인식되는 음성 신호를 인식한다. 예를 들어, 음성 신호 인식부(102)는 원거리 줌(zoom) 마이크일 수 있다. 또한, 음성 신호 증폭부(104)는 음성 신호 인식부(102)로부터 인식된 음성 신호를 더욱 정확하게 분석하고 작은 신호도 분석 가능하도록 음성 신호를 증폭한다. 다만, 음성 신호 증폭부(104)는 음성 인식 장치(100)에 포함되지 않을 수도 있다. The voice signal recognizing unit 102 recognizes an externally recognized voice signal. For example, the speech signal recognition unit 102 may be a remote zoom microphone. The voice signal amplifying unit 104 further amplifies the voice signal so that the voice signal recognized from the voice signal recognizing unit 102 can be more accurately analyzed and a small signal can be analyzed. However, the speech signal amplifying unit 104 may not be included in the speech recognition apparatus 100. [

음성 신호 데이터 변환부(106)는 인식된 음성 신호의 특징 정보를 추출하여 음성 데이터로 변환한다. 음성 신호 데이터 변환부(106)는 예를 들어 음성 아날로그 신호를 비트 데이터로 변환시킬 수 있다. 또는, 음성 신호 데이터 변환부(106)는 예를 들어 수신된 음성 아날로그 신호를 신호의 특징을 추출하여 다른 아날로그 신호로 변환시킬 수도 있다. 음성 인식 장치(100)는 추가적으론 인식된 음성 신호에서 노이즈를 제거하는 필터부를 더 포함할 수도 있다.The voice signal data conversion section 106 extracts the feature information of the recognized voice signal and converts it into voice data. The voice signal data converting section 106 can convert, for example, a voice analog signal into bit data. Alternatively, the voice signal data converting unit 106 may extract the characteristics of the received voice analog signal, for example, and convert the extracted voice analog signal into another analog signal. The speech recognition apparatus 100 may further include a filter unit for additionally removing noise from the recognized speech signal.

또한, 전송부(108)는 음성 신호 데이터 변환부(106)에서 변환된 음성 데이터를 문자 변환 장치(110)로 전송한다. The transmitting unit 108 transmits the voice data converted by the voice signal data converting unit 106 to the character converting apparatus 110. [

문자 변환 장치(100)는 수신부(112), 문자 데이터 변환부(114), 저장부(116), 화자 분석부(117) 및 전송부(118)를 포함한다. The character conversion apparatus 100 includes a receiving unit 112, a character data conversion unit 114, a storage unit 116, a speaker analysis unit 117, and a transmission unit 118.

수신부(112)는 음성 인식 장치(100)로부터 음성 데이터를 수신한다. 수신된 음성 데이터는 문자 데이터 변환부(114)에서 문자로 변환된다. 예를 들어, 문자 데이터 변환부(114)는 수신된 음성 데이터의 특징을 추출하여 해당 특징에 대해서 상응하는 문자 데이터를 추출하여 문자 데이터로 변환한다. 음성 데이터의 특징으로는 예를 들어, 음성 신호의 피치 또는 에너지 등을 들 수 있다. 문자 데이터 변환부(114)는 예를 들어, 추출된 음성 데이터의 특징을 이용하고 미리 저장된 각 음성 데이터의 특징에 상응하는 문자 데이터를 참조하여 음성 데이터에 상응하는 문자 데이터를 추출 및 생성한다. 추가로, 문자 데이터 변환부에서는 음성 데이터의 신뢰도 평가를 수행하여 정확도를 높일 수 있다. 구체적으로, 인식된 음성 신호가 "과자 먹고 싶어"이면, 문자로 과자의 신뢰도가 85%이고 가자의 신뢰도가 65%일 때 여러 후보 중 가장 신뢰도가 높은 문자를 택할 수 있다. 여러 개의 음성 수신 기기를 통하여 음성을 받을 경우, 각각의 기기에서 강의자와의 거리나 방향에 따라 변환된 텍스트가 다를 수 있는데, 이 때 우선 순위는 각각의 기기가 변환한 결과에 대한 최고 신뢰도 값이 높은 문자를 선택할 수 있다. The receiving unit 112 receives voice data from the voice recognition apparatus 100. [ The received voice data is converted into a character by the character data conversion unit 114. [ For example, the character data conversion unit 114 extracts the characteristics of the received voice data, extracts corresponding character data for the feature, and converts the extracted character data into character data. The characteristics of the voice data include, for example, pitch or energy of the voice signal. The character data conversion unit 114 extracts and generates character data corresponding to the voice data by referring to the character data corresponding to the characteristics of each voice data that is stored in advance, using, for example, the characteristics of the extracted voice data. In addition, the character data conversion unit can improve the accuracy by performing reliability evaluation of voice data. Specifically, when the recognized voice signal is "I want to eat sweets", the most reliable character among the candidates can be selected when the reliability of the sweets is 85% and the reliability of the gamma is 65%. When the voice is received through several voice receiving devices, the converted text may be different according to the distance or the direction of the lecturer in each device. In this case, the priority is the highest reliability value of the result converted by each device You can choose a high character.

저장부(116)에는 음성 데이터의 특징에 상응하는 문자 데이터를 저장한다. 또한, 저장부(116)는 상황 별, 빈도수 별 등 특정 기준에 따라, 음성 데이터의 특징에 상응하는 문자 데이터를 저장할 수도 있다. The storage unit 116 stores character data corresponding to the characteristics of the voice data. In addition, the storage unit 116 may store character data corresponding to the characteristics of the voice data according to a specific criterion such as a situation, a frequency, and so on.

화자 분석부(117)는 수신되는 복수의 음성 데이터를 분석하여, 예를 들어 복수의 음성 데이터 간의 피치 또는 에너지를 분석하여 공통된 특징점을 추출하여 화자 별로 음성 데이터를 분류한다. 화자 별로 분류된 음성 데이터 정보를 문자 데이터 변환부(114)와 공유하여, 문자 데이터 변환부(114)는 화자별로 문자 데이터를 분류할 수 있다. 전송부(118)는 변환된 문자 데이터를 문자 표시 장치로(120)로 전송한다. The speaker analysis unit 117 analyzes a plurality of received voice data, for example, extracts common feature points by analyzing the pitch or energy between the plurality of voice data, and classifies the voice data by the speaker. The voice data information classified by the speaker is shared with the character data conversion unit 114 so that the character data conversion unit 114 can classify the character data for each speaker. The transmission unit 118 transmits the converted character data to the character display unit 120. [

문자 표시 장치(120)는 수신부(122), 표시부(124), 저장부(126), 입력부(128)를 포함한다. 문자 표시 장치(120)는 예를 들어, 휴대폰 단말, 노트북, 태블릿 PC 또는 데스크 탑일 수 있다. The character display device 120 includes a receiving unit 122, a display unit 124, a storage unit 126, and an input unit 128. The character display device 120 may be, for example, a cellular phone terminal, a notebook, a tablet PC, or a desk top.

수신부(122)는 문자 변환 장치(110)로부터 변환된 문자 데이터를 실시간으로 수신한다. 또한, 저장부(126)에는 표시부(124)에 표시할 문자 표시 인터페이스 및 입력 인터페이스를 저장하고 있다. The receiving unit 122 receives the converted character data from the character converting apparatus 110 in real time. The storage unit 126 stores a character display interface and an input interface to be displayed on the display unit 124. [

표시부(124)는 저장부(126)에 저장된 인터페이스를 표시하고, 해당 인터페이스를 이용하여 수신된 문자를 표시한다. 사용자는 입력부(128)를 통하여 표시된 문자를 수정할 수 있고, 하이라이트 표시, 캡쳐 등의 편집을 행할 수 있다. The display unit 124 displays the interface stored in the storage unit 126, and displays the received character using the interface. The user can edit the displayed character through the input unit 128, and perform editing such as highlight display and capture.

도 2는 도 1에 도시된 본 발명의 일 실시예의 구현 예에 대해서 도시한 도면이다. 예를 들어, 학생이 음성 인식 장치(200)를 학생자리에 두고 수업을 들으면, 수업 시간에 강사 또는 교사의 음성이 인식된다. 음성 인식 장치(200)에는 예를 들어 원거리 줌 마이크(202)가 탑재되어 핸드폰보다 음성 인식의 정확도를 높일 수 있다. 상술한 바와 같이 음성 인식 장치(200)에서 인식된 음성 신호는 음성 인식 장치(200) 내에서 증폭되고, 음성 데이터로 변환되어 문자 변환 장치로 전송된다. FIG. 2 is a view illustrating an embodiment of the present invention shown in FIG. 1. Referring to FIG. For example, when a student places a speech recognition device 200 in a student seat, the teacher or the teacher's voice is recognized during the class time. The voice recognition apparatus 200 is equipped with, for example, a remote zoom microphone 202, so that the accuracy of voice recognition can be enhanced compared to a mobile phone. As described above, the voice signal recognized by the voice recognition device 200 is amplified in the voice recognition device 200, converted into voice data, and transmitted to the character conversion device.

그 후에, 문자 변환 장치에서 변환된 문자 데이터는 학생의 단말기로 전송되어, 예를 들어 어플리케이션을 통하여 수업 내용이 그대로 문자로 표시되고 저장된다. 또한, 학생은 자신의 단말기의 어플리케이션을 통하여 표시된 문자를 예를 들어, 특정 문자에 하이라이트 표시를 하거나 문자를 수정하는 등의 편집을 행할 수도 있다. Thereafter, the character data converted by the character conversion apparatus is transmitted to the student terminal, and the contents of the class are displayed and stored as texts, for example, through the application. In addition, the student may perform editing such as highlighting a character displayed on an application of his / her terminal, for example, or highlighting a character or correcting a character.

도 3은 도 1에 도시된 본 발명의 일 실시예의 다른 구현 예에 대해서 도시한 도면이다. 예를 들어, 학생(사용자)이 음성 인식 장치(300)를 강사(화자) 근처에 두고 사용할 수 있다. 이는 학생에게 음성 인식 장치(300)의 컨트롤이 없다는 단점이 있지만 음성 인식률을 높일 수 있다. 음성 인식 장치(300)는 예를 들어, 원거리 줌 마이크(302)가 내장되어 있다. 음성 인식 장치(300)에서 인식된 음성 신호는 음성 인식 장치(300) 내에서 증폭되고, 음성 데이터로 변환되어 문자 변환 장치로 전송된다. 그 후에, 문자 변환 장치에서 변환된 문자 데이터는 학생의 단말기로 전송되어, 예를 들어, 어플리케이션을 통하여 수업 내용이 그대로 문자로 표시되고 저장된다. 또한, 학생은 자신의 단말기의 어플리케이션을 통하여 표시된 문자를 예를 들어, 특정 문자에 하이라이트 표시를 하거나 문자를 수정하는 등의 편집을 행할 수도 있다. FIG. 3 is a diagram illustrating another embodiment of the present invention shown in FIG. 1. Referring to FIG. For example, the student (user) can use the speech recognition apparatus 300 near the lecturer (speaker). This has the disadvantage that the student does not have control of the speech recognition apparatus 300, but can increase the speech recognition rate. The speech recognition device 300 has, for example, a built-in long distance zoom microphone 302. [ The voice signal recognized by the voice recognition device 300 is amplified in the voice recognition device 300, converted into voice data, and transmitted to the character conversion device. Thereafter, the character data converted by the character conversion device is transmitted to the student terminal, and the contents of the class are displayed and stored as texts, for example, through the application. In addition, the student may perform editing such as highlighting a character displayed on an application of his / her terminal, for example, or highlighting a character or correcting a character.

도 4는 도 1에 도시된 본 발명의 일 실시예의 또 다른 구현 예에 대해서 도시한 도면이다. 예를 들어, 가족들(다수의 화자들)과 대화를 하는 경우에, 가족들이 수화를 이용하지 않고 청각 장애인과 대화를 할 수 있도록 음성 인식 장치(400)를 실행시켜 가족들의 음성 신호를 인식하여 증폭시킨 후, 음성 데이터로 변환하여 문자 변환 장치로 전송한다. 문자 변환 장치에서 상술한 바와 같이 변환된 문자 데이터는 학생(사용자)의 단말기로 전송되어, 예를 들어, 어플리케이션을 통하여 대화 내용이 그대로 문자로 표시되고 저장된다. 다만, 본 구현 예와 같은 경우에는 화자가 복수 명이고, 음성 신호가 섞이기 때문에 문자 변환 장치에서 화자를 인식하여 화자별로 문자 데이터를 분류하여 문자 데이터를 학생 단말기로 전송하기 때문에, 학생의 단말기에도 스크립트와 같이 화자별로 분류되어 문자가 표시된다. FIG. 4 is a diagram illustrating another embodiment of the present invention shown in FIG. 1. Referring to FIG. For example, when a conversation is made with family members (a plurality of speakers), a speech recognition apparatus 400 is executed so that a family can communicate with a hearing-impaired person without using sign language, Amplifies it, converts it into voice data, and transmits it to the character conversion apparatus. In the character converting apparatus, the converted character data is transmitted to the terminal of the student (user), and for example, the conversation contents are displayed and stored as characters through the application. However, in the case of this embodiment, since there are a plurality of speakers and voice signals are mixed, the character conversion device recognizes the speaker, classifies the character data for each speaker, and transmits the character data to the student terminal. Like a script, characters are grouped by speaker.

도 5는 본 발명의 다른 실시예에 따른 문자 표시 장치(500) 및 문자 변환 장치(516)이다. 5 is a character display device 500 and a character conversion device 516 according to another embodiment of the present invention.

문자 표시 장치(500)는 음성 신호 인식부(502), 음성 신호 증폭부(504), 음성 신호 데이터 변환부(506), 전송부(508), 문자 데이터 수신부(510), 표시부(514), 저장부(515) 및 입력부(518)를 포함한다. 여기서, 문자 표시 장치(500)는 사용자의 휴대폰 단말, 노트북, 태블릿 PC 또는 데스크 탑일 수 있다.The character display apparatus 500 includes a voice signal recognition unit 502, a voice signal amplification unit 504, a voice signal data conversion unit 506, a transmission unit 508, a character data reception unit 510, a display unit 514, A storage unit 515 and an input unit 518. [ Here, the character display device 500 may be a user's cellular phone terminal, a notebook, a tablet PC, or a desktop.

음성 신호 인식부(502)는 외부로부터 인식되는 음성 신호를 인식한다. 예를 들어, 음성 신호 인식부(502)는 문자 표시 장치(500) 자체 내에 내장된 마이크일 수 있다. 다만, 외장 지향성 원거리 Zoom 마이크(516)를 통해서 음성이 인식될 수도 있다. 또한, 음성 신호 증폭부(504)는 음성 신호 인식부(502)로부터 인식된 음성 신호를 더욱 정확하게 분석하고 작은 신호도 분석 가능하도록 음성 신호를 증폭한다. 다만, 음성 신호 증폭부(504)는 생략 가능하다. The voice signal recognizing unit 502 recognizes an externally recognized voice signal. For example, the voice signal recognition unit 502 may be a microphone built in the character display device 500 itself. However, voice may be recognized through the external directional remote Zoom microphone 516. [ The audio signal amplifying unit 504 amplifies the audio signal so that the audio signal recognized by the audio signal recognizing unit 502 can be more accurately analyzed and a small signal can be analyzed. However, the audio signal amplifying unit 504 can be omitted.

음성 신호 데이터 변환부(506)는 인식된 음성 신호의 특징 정보를 추출하여 음성 데이터로 변환한다. 음성 신호 데이터 변환부(506)는 예를 들어 음성 아날로그 신호를 비트 데이터로 변환시킬 수 있다. 또는, 음성 신호 데이터 변환부(506)는 예를 들어 수신된 음성 아날로그 신호를 신호의 특징을 추출하여 다른 아날로그 신호로 변환시킬 수도 있다. 문자 표시 장치(500)는 추가적으로 인식된 음성 신호에서 노이즈를 제거하는 필터부를 더 포함할 수 있다. The voice signal data conversion section 506 extracts the feature information of the recognized voice signal and converts it into voice data. The audio signal data conversion section 506 can convert, for example, a voice analog signal into bit data. Alternatively, the voice signal data converting unit 506 may extract the characteristics of the received voice analog signal, for example, and convert the extracted voice analog signal into another analog signal. The character display apparatus 500 may further include a filter unit for removing noise from the recognized speech signal.

전송부(508)는 음성 신호 데이터 변환부(506)에서 변환된 음성 데이터를 문자 변환 장치(516)로 전송한다. The transmitting unit 508 transmits the converted voice data from the voice signal data converting unit 506 to the character converting apparatus 516. [

문자 데이터 수신부(510)는 문자 변환 장치(516)로부터 수신된 문자 데이터를 수신한다. 문자 데이터 수신부(510)로부터 수신된 문자 데이터를 저장부(512)에 저장된 인터페이스를 표시하고, 해당 인터페이스를 이용하여 표시한다. 사용자는 입력부(518)를 통하여 표시된 문자를 수정할 수 있고, 하이라이트 표시, 캡쳐 등의 편집을 행할 수 있다. The character data receiving unit 510 receives the character data received from the character converting apparatus 516. [ The character data received from the character data receiving unit 510 is displayed on the interface of the storage unit 512 and displayed using the interface. The user can edit the displayed character through the input unit 518 and perform editing such as highlight display and capture.

문자 변환 장치(516)는 수신부(519), 저장부(520), 문자 데이터 변환부(522), 화자 분석부(524) 및 전송부(526)를 포함한다.The character conversion apparatus 516 includes a receiving unit 519, a storage unit 520, a character data conversion unit 522, a speaker analysis unit 524, and a transmission unit 526.

수신부(519)는 문자 표시 장치(500)에서 변환된 음성 데이터를 수신한다. 수신된 음성 데이터는 문자 데이터 변환부(522)에서 문자로 변환된다. 예를 들어, 문자 데이터 변환부(522)는 수신된 음성 데이터의 특징을 추출하여 해당 특징에 대해서 상응하는 문자 데이터를 추출하여 문자 데이터로 변환한다. 음성 데이터의 특징으로는 예를 들어, 음성 신호의 피치 또는 에너지 등을 들 수 있다. 문자 데이터 변환부(522)는 예를 들어, 추출된 음성 데이터의 특징을 이용하고 미리 저장된 각 음성 데이터의 특징에 상응하는 문자 데이터를 참조하여 음성 데이터에 상응하는 문자 데이터를 추출 및 생성한다. The receiving unit 519 receives the converted voice data from the character display device 500. [ The received voice data is converted into a character by the character data conversion unit 522. For example, the character data conversion unit 522 extracts the characteristics of the received voice data, extracts corresponding character data for the feature, and converts the extracted character data into character data. The characteristics of the voice data include, for example, pitch or energy of the voice signal. The character data conversion unit 522 extracts and generates character data corresponding to the voice data by referring to the character data corresponding to the characteristics of each voice data that is stored in advance, using, for example, the characteristics of the extracted voice data.

저장부(520)에는 음성 데이터의 특징에 상응하는 문자 데이터를 저장한다. 또한, 저장부(520)는 상황 별, 빈도수 별 등 특정 기준에 따라, 음성 데이터의 특징에 상응하는 문자 데이터를 저장할 수도 있다. The storage unit 520 stores character data corresponding to the characteristics of the voice data. In addition, the storage unit 520 may store character data corresponding to the characteristics of the voice data according to a specific criterion such as a situation, a frequency, and so on.

화자 분석부(524)는 수신되는 복수의 음성 데이터를 분석하여, 예를 들어 복수의 음성 데이터 간의 피치 또는 에너지를 분석하여 공통된 특징점을 추출하여 화자 별로 음성 데이터를 분류한다. 화자 별로 분류된 음성 데이터 정보를 문자 데이터 변환부(522)와 공유하여, 문자 데이터 변환부(522)는 화자 별로 문자 데이터를 분류할 수 있다. 전송부(526)는 변환된 문자 데이터를 문자 표시 장치(500)로 전송한다. The speaker analyzing unit 524 analyzes a plurality of received voice data, for example, analyzes the pitch or energy between the plurality of voice data, extracts common feature points, and classifies the voice data for each speaker. The character data conversion unit 522 can classify the character data for each speaker by sharing the voice data information classified by the speaker with the character data conversion unit 522. [ The transmitting unit 526 transmits the converted character data to the character display device 500.

도 6은 도 5에 도시된 본 발명의 다른 실시예의 구현 예에 대해서 도시한 도면이다. 예를 들어, 학생이 문자 표시 장치(600)에 별도의 지향성 마이크(502)를 장착하고, 음성 인식에 기초한 문자 생성 어플리케이션을 실행하면, 수업 시간에 강사 또는 교사의 음성이 인식된다. 문자 표시 장치(600)는 예를 들어 학생의 휴대폰 단말일 수 있다. 또한, 상술된 바와 문자 표시 장치(500)에서 인식된 음성 신호는 문자 표시 장치(600)에서 증폭되고, 음성 데이터로 변환되어 문자 변환 장치(서버)로 전송된다. 그 후에, 문자 변환 장치에서 변환된 문자 데이터는 학생의 단말기로 전송되어, 예를 들어, 어플리케이션을 통하여 수업 내용이 그대로 문자로 표시되고 저장될 수 있다. 또한, 변환된 문자 데이터는 문자 변환 장치에 저장되어 해당 학생이 아닌 다른 복수의 이용자의 요청에 의하여 다른 복수의 이용자의 단말로 전송될 수도 있다. FIG. 6 is a diagram illustrating an embodiment of another embodiment of the present invention shown in FIG. For example, when a student attaches a directional microphone 502 to the character display device 600 and executes a character generation application based on voice recognition, the voice of the instructor or the teacher is recognized during the class time. The character display device 600 may be, for example, a cell phone terminal of a student. In addition, the voice signal recognized by the character display device 500 as described above is amplified in the character display device 600, converted into voice data, and transmitted to the character conversion device (server). Thereafter, the character data converted by the character converting apparatus is transmitted to the student terminal, and the contents of the class can be displayed and stored as texts, for example, through the application. In addition, the converted character data may be stored in the character conversion device and transmitted to a plurality of user terminals of a plurality of users at a request of a plurality of users other than the corresponding student.

도 7은 도 5에 도시된 본 발명의 다른 실시예의 다른 구현 예에 대해서 도시한 도면이다. 본 구현 예는, 예를 들어, 교사(화자)가 핀 마이크를 장착하고, 학생이 문자 표시 장치(700)에 핀마이크 수신기(702)를 장착하여 음성 인식을 하는 방식이다. 구체적으로, 교사가 장착한 핀 마이크를 통하여 음성 신호를 송출하면, 핀마이크 원격 수신기를 통하여 음성 신호를 수신하면, 문자 표시 장치(700)에서 상술한 바와 같이 음성 신호를 증폭시키고, 음성 데이터로 변환되어 문자 변환 장치로 전송된다. 그 후에, 문자 변환 장치에서 변환된 문자 데이터는 학생의 단말기로 전송되어, 예를 들어, 어플리케이션을 통하여 수업 내용이 그대로 문자로 표기되고 저장될 수 있다. 또한, 변환된 문자 데이터는 문자 변환 장치에 저장되어 해당 학생이 아닌 다른 복수의 이용자의 요청에 의하여 다른 복수의 이용자의 단말로 전송될 수도 있다.FIG. 7 is a view showing another embodiment of the other embodiment of the present invention shown in FIG. In this embodiment, for example, a teacher (speaker) is equipped with a pin microphone, and a student attaches a pin microphone receiver 702 to the character display device 700 to perform speech recognition. Specifically, when a voice signal is transmitted through a pin microphone provided by a teacher, the character display device 700 amplifies the voice signal and converts the voice signal into voice data And transmitted to the character conversion apparatus. Thereafter, the character data converted by the character converting apparatus is transmitted to the terminal of the student. For example, the contents of the class can be written and stored literally through the application. In addition, the converted character data may be stored in the character conversion device and transmitted to a plurality of user terminals of a plurality of users at a request of a plurality of users other than the corresponding student.

도 8은 도 5에 도시된 본 발명의 다른 실시예의 또 다른 구현 예에 대해서 도시한 도면이다. 본 구현 예는, 예를 들어, 교사(화자)가 일반 마이크를 장착하고, 마이크로 전달되는 음성 신호를 수신할 수 있는 수신기를 학생의 휴대폰이나 노트북에 연결하여 음성 신호를 수신한다. 학생의 휴대폰이나 노트북에서 수신된 음성 신호는 증폭되고 음성 데이터로 변환된 후 문자 변환 장치로 전송된다. 그 후에, 문자 변환 장치에서 변환된 문자 데이터는 학생의 단말기 또는 노트북으로 전송되어, 예를 들어, 어플리케이션을 통하여 수업 내용이 그대로 문자로 표기되고 저장될 수 있다. 또한, 표시되는 문자는 사용자가 입력부를 통하여 편집하는 것이 가능하다. FIG. 8 is a view showing another embodiment of the other embodiment of the present invention shown in FIG. In this embodiment, for example, a teacher (speaker) mounts a general microphone and receives a voice signal by connecting a receiver capable of receiving a micro-transferred voice signal to a student's mobile phone or notebook. The voice signal received from the student's cellular phone or notebook is amplified, converted into voice data, and then transmitted to the character converter. Thereafter, the character data converted by the character conversion device is transmitted to the student's terminal or the notebook, and the contents of the class can be written and stored literally, for example, through the application. In addition, the characters to be displayed can be edited by the user through the input unit.

도 9는 도 5에 도시된 본 발명의 다른 실시예의 또 다른 구현 예에 대해서 도시한 도면이다. 본 구현 예는, 자막이 제공되지 않은 한국 영화 또는 인터넷 강의 등에 자막을 실시간으로 제공하기 위한 것으로서, 예를 들어 노트북(핸드폰, 태블릿 PC 또는 데스크 탑 모두 가능)에서 재생되고 있는 영상에서 출력되는 음성 신호를 다시 노트북 내의 음성 신호 인식부에서 인식하여, 해당 신호를 증폭하고 음성 데이터로 변환하여 문자 변환 장치로 전송한다. 그 후에, 문자 변환 장치에서 변환된 문자 데이터는 노트북으로 다시 전송되어, 재생 중인 영상에 자막의 형태로 표기되고 저장될 수 있다. 또한, 변환된 문자 데이터는 사용자가 임의로 편집하는 것도 가능하다. FIG. 9 is a view showing another embodiment of the other embodiment of the present invention shown in FIG. In this embodiment, subtitles are provided in real time on a Korean movie or an Internet lecture in which no subtitles are provided. For example, in the case of a voice signal outputted from a video reproduced in a notebook (mobile phone, tablet PC or desktop) Is recognized again by the voice signal recognizing unit in the notebook, and the corresponding signal is amplified, converted into voice data, and transmitted to the character converting apparatus. Thereafter, the character data converted by the character conversion device is transmitted back to the notebook, and can be written and stored in the form of a caption on the image being reproduced. It is also possible for the user to arbitrarily edit the converted character data.

도 10은 도 5에 도시된 본 발명의 다른 실시예의 또 다른 구현 예에 대해서 도시한 도면이다. 본 구현 예는, 청각 장애인의 휴대폰 단말을 통하여 음성 ARS인증에 대한 불편함을 해소하기 위한 것으로서, 휴대폰 단말에서 출력되는 ARS 음성 신호를 다시 휴대폰 단말 내의 음성 신호 인식부에서 수신하고 증폭한 후, 음성 데이터로 변환하여 문자 변환 장치로 전송한다. 그 후에, 문자 변환 장치에서 변환된 문자 데이터는 핸드폰으로 다시 전송되어, 화면 상에 실시간으로 표시된다. FIG. 10 is a view showing another embodiment of another embodiment of the present invention shown in FIG. In this embodiment, an ARS voice signal output from a mobile phone terminal is received and amplified by a voice signal recognizing unit in a mobile phone terminal, and then voice Converted into data and transmitted to the character conversion apparatus. Thereafter, the character data converted by the character conversion device is transmitted again to the mobile phone and displayed on the screen in real time.

도 11은 도 5에 도시된 본 발명의 다른 실시예의 또 다른 구현 예에 대해서 도시한 도면이다. 본 구현 예에는, 화자가 복수 명일 때의 대화를 녹음한 음성 파일을 노트북 등을 통하여 재생시키면, 노트북 내의 음성 신호 인식부에서 다시 해당 음성 신호를 인식하고 증폭하여 음성 데이터로 변환한다. 또는 음성 파일에서 음성 데이터를 바로 추출할 수도 있다. 노트북 내의 전송부는 생성된 음성 데이터를 문자 변환 장치로 전송한다. 그 후에, 노트북의 문자 데이터 수신부는 화자 별로 분류되어 변환된 문자 데이터를 문자 변환 장치로부터 수신한다. 노트북의 표시부에서는 사용자가 해당 프로그램을 실시하면, 타임 스탬프에 따라 화자 별로 분류된 스크립트가 자동으로 생성된다. FIG. 11 is a view showing another embodiment of the other embodiment of the present invention shown in FIG. In this embodiment, when a voice file recording a dialogue with a plurality of speakers is reproduced through a notebook computer or the like, the voice signal recognizing unit in the notebook computer recognizes the voice signal again, amplifies the voice signal, and converts the voice signal into voice data. Alternatively, voice data may be directly extracted from the voice file. The transmitting unit in the notebook computer transmits the generated voice data to the character converting apparatus. Thereafter, the character data receiving section of the notebook receives the converted character data classified by the speaker from the character converting apparatus. In the display section of the notebook, if the user executes the program, a script classified by the speaker is automatically generated according to the time stamp.

한편, 도 12는 도 11에 도시된 구현 예의 다른 구현 예에 대해서 도시한 도면이다. 본 구현 예에는, 화자가 복수 명일 때의 대화를 통한 음성 신호를 인식하여 문자를 추출하는 것이다. 구체적으로 양지향 마이크가 장착된 음성 인식 장치는 복수의 화자의 음성 신호를 수신하고 녹음 파일로 저장한다. 음성 인식 장치가 수신한 음성 신호를 증폭하여 음성 데이터로 변환한 후 문자 변환 장치로 전송한다. 그 후에, 문자 변환 장치로부터 화자 별로 분류된 문자 데이터를 노트북이 수신한다. 이에 따라, 노트북의 표시부에서는 사용자가 해당 프로그램을 실시하면, 타임 스탬프에 따라 화자 별로 분류된 스크립트가 자동으로 생성된다. 12 is a view illustrating another embodiment of the embodiment shown in FIG. In this embodiment, a speech signal through a conversation when a plurality of speakers are present is recognized and characters are extracted. Specifically, a speech recognition apparatus equipped with a bidirectional microphone receives voice signals of a plurality of speakers and stores the voice signals as a recording file. The voice recognition device amplifies the received voice signal, converts it into voice data, and transmits the voice data to the character conversion device. Thereafter, the notebook receives the character data classified by the speaker from the character conversion device. Accordingly, when the user executes the program on the display unit of the notebook, a script classified by the speaker is automatically generated according to the time stamp.

도 13은 본 발명의 또 다른 실시예에 따른 문자 변환 장치(1300) 및 문자 표시 장치(1312)이다. 13 is a character conversion apparatus 1300 and a character display apparatus 1312 according to another embodiment of the present invention.

문자 변환 장치(1300)는 음성 신호 인식부(1302), 문자 데이터 변환부(1304), 저장부(1306), 화자 분석부(1308) 및 전송부(1310)를 포함한다. The character conversion apparatus 1300 includes a speech signal recognition unit 1302, a character data conversion unit 1304, a storage unit 1306, a speaker analysis unit 1308, and a transmission unit 1310.

음성 신호 인식부(1302)는 외부로부터 인식되는 음성 신호를 인식한다. 예를 들어, 음성 신호 인식부(1302)는 원거리 줌(zoom) 마이크일 수 있다. 또한, 음성 신호 증폭부(미도시)는 음성 신호 인식부(1302)로부터 인식된 음성 신호를 더욱 정확하게 분석하고 작은 신호도 분석 가능하도록 음성 신호를 증폭한다. 다만, 음성 신호 증폭부는 문자 변환 장치(1300)에 포함되지 않을 수도 있다.The speech signal recognition unit 1302 recognizes a speech signal recognized from the outside. For example, the speech signal recognition unit 1302 may be a remote zoom microphone. The audio signal amplifying unit (not shown) further analyzes the audio signal recognized from the audio signal recognizing unit 1302 and amplifies the audio signal so that a small signal can be analyzed. However, the voice signal amplifying unit may not be included in the character converting apparatus 1300.

문자 데이터 변환부(1304)는 수신된 음성 신호의 특징을 추출하여 해당 특징에 상응하는 문자 데이터를 추출하여 문자 데이터로 변환한다. 음성 데이터의 특징으로는 예를 들어, 음성 신호의 피치 또는 에너지 들을 들 수 있다. 문자 데이터 변환부(1304)는 예를 들어, 추출된 음성 데이터의 특징을 이용하고 미리 저장된 각 음성 데이터의 특징에 상응하는 문자 데이터를 참조하여 음성 데이터에 상응하는 문자 데이터를 추출 및 생성한다. The character data conversion unit 1304 extracts the characteristics of the received voice signal, extracts the character data corresponding to the feature, and converts the extracted character data into character data. The characteristics of the voice data include, for example, pitch or energies of the voice signal. The character data conversion unit 1304 extracts and generates character data corresponding to the voice data by referring to the character data corresponding to the characteristics of each voice data that is stored in advance, using the characteristics of the extracted voice data, for example.

저장부(1306)는 음성 데이터의 특징에 상응하는 문자 데이터를 저장한다. 또한, 저장부(1306)는 상황 별, 빈도수 별 등 특정 기준에 따라, 음성 데이터의 특징에 상응하는 문자 데이터를 저장할 수도 있다. The storage unit 1306 stores character data corresponding to the characteristics of the voice data. Also, the storage unit 1306 may store character data corresponding to the characteristics of the voice data according to a specific criterion such as a situation, a frequency, and so on.

화자 분석부(1308)는 수신되는 복수의 음성 데이터를 분석하여, 예를 들어 복수의 음성 데이터 간의 피치 또는 에너지를 분석하여 공통된 특징점을 추출하여 화자 별로 음성 데이터를 분류한다. 화자 별로 분류된 음성 데이터 정보를 문자 데이터 변환부(1304)와 공유하여, 문자 데이터 변환부(1304)는 화자별로 문자 데이터를 분류할 수 있다. 전송부(1310)는 변환된 문자 데이터를 문자 표시 장치로(1312)로 전송한다. The speaker analysis unit 1308 analyzes a plurality of received voice data, for example, analyzes the pitch or energy between the plurality of voice data, extracts common feature points, and classifies the voice data for each speaker. The voice data information classified by the speaker is shared with the character data conversion unit 1304, and the character data conversion unit 1304 can classify the character data by the speaker. The transmission unit 1310 transmits the converted character data to the character display device 1312. [

문자 표시 장치(1312)는 수신부(1314), 표시부(1316), 저장부(1318), 입력부(1320)를 포함한다. 문자 표시 장치(1312)는 예를 들어, 휴대폰 단말, 노트북, 태블릿 PC 또는 데스크 탑일 수 있다. The character display device 1312 includes a receiving unit 1314, a display unit 1316, a storage unit 1318, and an input unit 1320. The character display device 1312 may be, for example, a cellular phone terminal, a notebook, a tablet PC, or a desktop.

수신부(1314)는 문자 변환 장치(1300)로부터 변환된 문자 데이터를 실시간으로 수신한다. 또한, 저장부(1318)에는 표시부(1316)에 표시할 문자 표시 인터페이스 및 입력 인터페이스를 저장하고 있다. The receiving unit 1314 receives the converted character data from the character converting apparatus 1300 in real time. The storage unit 1318 stores a character display interface and an input interface to be displayed on the display unit 1316. [

표시부(1316)는 저장부(1318)에 저장된 인터페이스를 표시하고, 해당 인터페이스를 이용하여 수신된 문자를 표시한다. 사용자는 입력부(1320)를 통하여 표시된 문자를 수정할 수 있고, 하이라이트 표시, 캡쳐 등의 편집을 행할 수 있다.The display unit 1316 displays the interface stored in the storage unit 1318 and displays the received character using the interface. The user can edit the displayed character through the input unit 1320, and can perform editing such as highlight display and capture.

도 14는 도 13에 도시된 본 발명의 또 다른 실시예의 구현 예에 대해서 도시한 도면이다. 예를 들어, 가족들(다수의 화자들)과 대화를 하는 경우에, 가족들이 수화를 이용하지 않고 청각 장애인과 대화를 할 수 있도록 문자 변환 장치(1400)를 통하여 인식된 음성 신호를 문자 데이터로 변환하여 무선으로 사용자의 휴대폰 단말로 전송한다. 문자 변환 장치(1400)를 통하여 문자 데이터를 수신한 사용자의 단말은, 해당 문자를 실시간으로 표시부에 표시한다. 또한 화자가 복수인 경우 문자 변환 장치(1400)는 화자 별로 문자 데이터를 분류하여 전송한다. 이에 따라, 사용자의 단말의 표시부에는 화자 별로 문자 데이터가 예를 들어, 스크립트 형식으로 표시될 수 있다. 14 is a view illustrating an embodiment of another embodiment of the present invention shown in FIG. For example, when a conversation is made with family members (a plurality of speakers), a voice signal recognized through a character conversion device 1400 is transmitted as character data so that a family can communicate with a hearing-impaired person without using sign language And transmits it to the user's cellular phone terminal wirelessly. The terminal of the user who has received the character data through the character conversion apparatus 1400 displays the character in real time on the display unit. Also, when there are a plurality of speakers, the character conversion device 1400 classifies and transmits character data for each speaker. Accordingly, the character data may be displayed in the form of a script, for example, on a display unit of the user terminal.

도 15는 본 발명의 실시예에서 화자가 3명 이상인 경우의 구현 예가 도시되어 있다. 기본적인 구성은 상술한 실시예에 따르지만, 3명 이상의 화자의 음성 신호를 화자 별로 분류하는 데에 있어서, 음성 신호의 특성뿐만 아니라, 음성 신호가 수신되는 방향을 인식하여 좀 더 정확하게 화자를 분류할 수 있다. 즉, 음성 인식 장치의 위치를 기준으로 음성 신호 수신 방향을 인지하여 특정 방향으로부터 수신되는 음성 신호는 동일한 화자의 음성 신호로 인식할 수 있다. 구체적으로, 음성 신호를 화자별로 분류하여 화자 정보를 생성하기 위하여 양지향성 마이크가 사용될 수 있다. 양지향성 마이크(앞과 뒤의 방향에서의 소리는 집음하고, 그 방향을 함께 표시)는 소리가 앞에서 입력되는지 뒤에서 입력되는지 구분이 가능하기 때문에 방향에 따라 발화자가 구분될 수 있다. Fig. 15 shows an embodiment in the case where there are three or more speakers in the embodiment of the present invention. The basic configuration is according to the embodiment described above. However, in classifying the voice signals of three or more speakers by the speaker, it is possible to classify the speakers more accurately by recognizing not only the characteristics of the voice signals but also the directions in which the voice signals are received have. That is, the voice signal received from a specific direction can be recognized as a voice signal of the same speaker by recognizing the voice signal receiving direction based on the position of the voice recognition device. Specifically, a bi-directional microphone may be used to classify the speech signal by speaker and generate speaker information. A bi-directional microphone (the sound in front and back direction is collected and the direction is indicated together) can distinguish whether the sound is input before or after the sound, so the speaker can be distinguished according to the direction.

도 16은 본 발명의 일 실시예에 따른 음성 신호에 기초한 문자 데이터 생성 방법의 간략한 순서도이다. 16 is a simplified flowchart of a method of generating character data based on a speech signal according to an embodiment of the present invention.

음성 신호 장치가 화자의 음성 신호를 인식하여, 증폭한 후 음성 데이터로 전환한다(S1600). The speech signal device recognizes the speech signal of the speaker, amplifies the speech signal, and converts the speech signal into speech data (S1600).

그 후에 음성 데이터를 문자 데이터 변환 장치로 전송하여 문자 데이터 변환 장치에서 음성 데이터로부터 특징을 추출하여 화자를 분석하거나, 음성 신호 장치 내에서 음성 데이터로부터 특징을 추출하여 화자 분석을 한다(S1602). 구체적으로, 복수의 음성 신호를 수신했을 때, 음성 신호 또는 데이터의 특징, 예를 들어, 음성 신호의 피치 또는 에너지를 분석하여 신호의 공통점을 추출하여 동일 화자로부터 수신된 음성 신호를 구분하여 화자 별로 음성 신호를 분류한다. 화자 별로 분류된 음성 데이터 정보를 문자 데이터 변환부와 공유하여 문자 데이터 변환부는 화자 별로 문자 데이터를 분류할 수 있다. Thereafter, the voice data is transferred to the character data conversion device, and the character data is analyzed by extracting features from the voice data and extracting features from the voice data in the voice signal device (S1602). Specifically, when a plurality of audio signals are received, characteristics of the audio signal or data, for example, the pitch or energy of the audio signal are analyzed to extract the common points of the signals, and the audio signals received from the same speaker are separated Classify the voice signal. The character data conversion unit can classify the character data for each speaker by sharing the voice data information classified by the speaker with the character data conversion unit.

문자 데이터 변환 장치 또는 음성 신호 장치 내의 문자 데이터 변환부에서 화자 별로 분류된 특징을 추출하여 변환된 음성 데이터로부터, 그 문자 신호의 특징을 추출하여 해당하는 문자 데이터를 생성한다(S1604). 구체적으로, 저장부에 음성 데이터의 특징에 상응하는 문자 데이터가 미리 저장되어 있다. 또한, 저장부에 상황 별, 빈도수 별 등의 특정 기준에 따라 음성 데이터의 특징에 상응하는 문자 데이터가 저장되어 있다. 저장부에 저장되어 있는 음성 데이터에 상응하는 문자 데이터에 기초하여, 문자 데이터 변환부는 수신된 음성 데이터의 특징을 추출하여 상응하는 문자 데이터를 추출하여 문자 데이터로 변환한다. 음성 데이터의 특징으로는 예를 들어, 음성 신호의 피치 또는 에너지 등을 들 수 있다. The character data conversion unit in the character data conversion device or the voice signal device extracts characteristics classified by the speaker, extracts characteristics of the character signal from the converted voice data, and generates corresponding character data (S1604). Specifically, character data corresponding to the characteristic of the voice data is stored in the storage unit in advance. In addition, character data corresponding to the characteristic of the voice data is stored in the storage unit according to a specific criterion such as a condition, a frequency, and the like. Based on the character data corresponding to the voice data stored in the storage unit, the character data conversion unit extracts the characteristic of the received voice data, extracts the corresponding character data, and converts it into character data. The characteristics of the voice data include, for example, pitch or energy of the voice signal.

생성된 문자 데이터는 화자 별로 표시부에 표시한다(S1608). 구체적으로, 표시부는 저장부에 저장된 인터페이스를 표시하고, 해당 인터페이스를 이용하여 수신된 문자를 표시한다. 또한, 사용자는 입력부를 통하여 표시된 문자를 수정할 수 있고, 하이라이트 표시, 캡쳐 등의 편집을 행할 수 있다. The generated character data is displayed on the display unit for each speaker (S1608). Specifically, the display unit displays the interface stored in the storage unit, and displays the received character using the interface. Further, the user can modify the displayed character through the input unit, and can perform editing such as highlight display, capture, and the like.

이상 본 발명의 배송대행 신청의 다양한 방법에 대해서 살펴보았으나, 이러한 방법을 수행하는 각 단계는 상기 설명한 순서로 한정되는 것은 아니며, 본 발명의 목적을 달성할 수 있다면 각 단계의 순서를 다양하게 변경할 수도 있을 것이다. 예를 들어, 본 발명의 실시예들에 대한 설명에서는 구매상품에 대한 결제승인 후 쇼핑몰이 배송지 주소나 배송대행업체 정보 등을 자동배송대행업체로 전송하고, 자동배송대행업체는 배송대행업체의 주소나 배송료 정보 등을 쇼핑몰로 제공하였으나, 결제승인이 일어나기 전에 상기 정보들을 주고받을 수도 있을 것이다.Although various methods of the delivery agent application of the present invention have been described above, the steps of performing the method are not limited to the above-described order, and if the object of the present invention can be achieved, It might be. For example, in the description of the embodiments of the present invention, the shopping mall transmits the shipping address or the delivery agent information to the automatic shipping agent after the approval of the payment for the purchased product, and the automatic shipping agent sends the address of the shipping agent And shipping information to the shopping mall, but the information may be sent and received before payment approval occurs.

또한 다양한 실시 예들에 따른 장치 또는 시스템은 전술한 구성요소들 중 적어도 하나 이상을 포함하거나, 일부가 생략되거나, 또는 추가적인 다른 구성요소를 더 포함할 수 있다. 그리고 본 문서에 개시된 실시 예는 개시된 기술 내용의 설명 및 이해를 위해 제시된 것이며 본 발명의 범위를 한정하는 것은 아니다. 따라서 본 문서의 범위는 본 발명의 기술적 사상에 근거한 모든 변경 또는 다양한 다른 실시 예를 포함하는 것으로 해석되어야 한다.Also, an apparatus or system according to various embodiments may include at least one or more of the above-described elements, some of which may be omitted, or may further include additional other elements. And the embodiments disclosed in this document are presented for the purpose of explanation and understanding of the disclosed technical contents, and do not limit the scope of the present invention. Accordingly, the scope of this document should be interpreted to include all modifications based on the technical idea of the present invention or various other embodiments.

음성 인식 장치(100)
문자 변환 장치(110)
문자 표시 장치(120)
The speech recognition apparatus 100,
The character conversion device (110)
In the character display device 120,

Claims (18)

외부로부터 음성 신호를 인식하는 음성 인식 장치로부터 음성 데이터를 수신하는 수신부;
수신된 음성 데이터로부터 문자 데이터를 추출하는 문자 데이터 변환부;
상기 추출된 문자 데이터를 문자 표시 장치로 전송하는 전송부를 포함하는 것을 특징으로 하는 문자 변환 장치.
A receiving unit for receiving voice data from a voice recognition device for recognizing a voice signal from outside;
A character data conversion unit for extracting character data from the received voice data;
And a transmitting unit for transmitting the extracted character data to a character display device.
청구항 1에 있어서,
수신된 음성 데이터를 분석하여 화자별로 분류하는 화자 분석부를 더 포함하는 것을 특징으로 하는 문자 변환 장치.
The method according to claim 1,
And analyzing the received voice data and classifying the received voice data by a speaker.
청구항 1에 있어서,
미리 결정된 음성 데이터에 매칭되는 미리 결정된 문자 데이터를 저장하고 있는 저장부를 더 포함하는 것을 특징으로 하는 문자 변환 장치.

The method according to claim 1,
And a storage unit for storing predetermined character data matched with the predetermined voice data.

청구항 1에 있어서,
상기 문자 데이터 변환부는 수신된 음성 데이터 중 신뢰도 평가를 하여 신뢰도가 높은 음성 데이터를 우선적으로 문자 데이터로 추출하는 것을 특징으로 하는 문자 변환 장치.
The method according to claim 1,
Wherein the character data conversion unit performs reliability evaluation of the received voice data and preferentially extracts voice data having high reliability as character data.
외부로부터 음성 신호를 수신하는 음성 신호 인식부;
수신된 상기 음성 신호를 음성 데이터로 변환하는 음성 데이터 변환부; 및
변환된 상기 음성 데이터를 문자 데이터로 변환하는 문자 변환 장치로 전송하는 전송부를 포함하는 것을 특징으로 하는 음성 인식 장치.
A voice signal recognizing unit for receiving a voice signal from outside;
A voice data conversion unit for converting the received voice signal into voice data; And
And a transmitting unit for transmitting the converted voice data to a character converting apparatus that converts the converted voice data into character data.
청구항 5에 있어서,
상기 수신된 음성 신호를 증폭시키는 음성 신호 증폭부를 더 포함하는 것을 특징으로 하는 음성 인식 장치.
The method of claim 5,
And a voice signal amplifying unit for amplifying the received voice signal.
청구항 5에 있어서,
상기 음성 신호 인식부는 원거리 줌(zoom) 마이크인 것을 특징으로 하는 음성 인식 장치.
The method of claim 5,
Wherein the speech signal recognition unit is a remote zoom microphone.
외부로부터 음성 신호를 수신하는 음성 신호 인식부;
수신된 음성 신호를 음성 데이터로 변환하는 음성 데이터 변환부;
변환된 상기 음성 데이터로부터 문자를 추출하는 문자 데이터 변환부; 및
변환된 상기 문자 데이터를 문자 표시 장치로 전송하는 전송부를 포함하는 것을 특징으로 하는 문자 변환 장치.
A voice signal recognizing unit for receiving a voice signal from outside;
A voice data conversion unit for converting the received voice signal into voice data;
A character data conversion unit for extracting characters from the converted voice data; And
And a transmitting unit for transmitting the converted character data to a character display device.
청구항 8에 있어서,
상기 음성 데이터를 분석하여 화자별로 분류하는 화자 분석부를 더 포함하는 것을 특징으로 하는 문자 변환 장치.
The method of claim 8,
Further comprising: a speaker analyzing unit for analyzing the speech data and classifying the speech data by speakers.
청구항 8에 있어서,
미리 결정된 음성 데이터에 매칭되는 미리 결정된 문자 데이터를 저장하고 있는 저장부를 더 포함하는 것을 특징으로 하는 문자 변환 장치.

The method of claim 8,
And a storage unit for storing predetermined character data matched with the predetermined voice data.

청구항 8에 있어서,
상기 문자 데이터 변환부는 수신된 음성 데이터 중 신뢰도 평가를 하여 신뢰도가 높은 음성 데이터를 우선적으로 문자 데이터로 추출하는 것을 특징으로 하는 문자 변환 장치.
The method of claim 8,
Wherein the character data conversion unit performs reliability evaluation of the received voice data and preferentially extracts voice data having high reliability as character data.
청구항 8에 있어서,
상기 수신된 음성 신호를 증폭시키는 음성 신호 증폭부를 더 포함하는 것을 특징으로 하는 음성 인식 장치.
The method of claim 8,
And a voice signal amplifying unit for amplifying the received voice signal.
청구항 8에 있어서,
상기 음성 신호 인식부는 원거리 줌 마이크인 것을 특징으로 하는 음성 인식 장치.
The method of claim 8,
Wherein the voice signal recognizing unit is a far-range zoom microphone.
외부로부터 음성 신호를 수신하는 음성 신호 인식부;
수신된 음성 신호를 음성 데이터를 변환하는 음성 데이터 변환부;
변환된 상기 음성 데이터를 문자 데이터로 변환하는 문자 변환 장치로 전송하는 전송부; 및
상기 문자 변환 장치로부터 수신받은 문자 데이터를 표시하는 표시부를 포함하는 것을 특징으로 하는 문자 표시 장치.
A voice signal recognizing unit for receiving a voice signal from outside;
A voice data conversion unit for converting voice data of a received voice signal;
A transmitting unit for transmitting the converted voice data to a character converting apparatus for converting the voice data into character data; And
And a display unit for displaying the character data received from the character conversion apparatus.
청구항 14에 있어서,
상기 음성 신호 인식부는 지향성 원거리 줌 마이크를 통하여 음성 신호를 수신하는 것을 특징으로 하는 문자 표시 장치.
15. The method of claim 14,
Wherein the voice signal recognizing unit receives the voice signal through the directional remote zoom microphone.
음성 데이터를 수신하여 음성 데이터로부터 특징을 추출하는 단계;
추출된 음성 데이터의 특징을 기초하여 음성 데이터를 화자 별로 분류하여 화자 정보를 생성하는 단계;
추출된 음성 데이터의 특징을 기초하여 음성 데이터를 상응하는 문자 데이터로 변환하는 단계; 및
화자 정보와 변환된 문자 데이터를 문자 표시 장치로 전송하는 단계를 포함하는 것을 특징으로 하는 음성 신호에 기초한 문자 생성 방법.

Receiving voice data and extracting features from the voice data;
Generating speaker information by classifying the speech data according to the speaker based on the characteristics of the extracted speech data;
Converting the speech data into corresponding character data based on the characteristics of the extracted speech data; And
And transmitting the speaker information and the converted character data to a character display device.

청구항 16에 있어서,
상기 음성 데이터의 특징은 음성 신호의 피치, 에너지 또는 음성 신호 수신 방향인 음성 신호에 기초한 문자 생성 방법.
18. The method of claim 16,
Wherein the characteristic of the voice data is a pitch, an energy of the voice signal, or a voice signal which is the voice signal receiving direction.
청구항 16에 있어서,
상기 문자 데이터로 변환하는 단계는,
추출된 음성 데이터 중 신뢰도 평가를 하여 신뢰도가 높은 음성 데이터를 우선적으로 문자 데이터로 변환하는 것을 특징으로 하는 음성 신호에 기초한 문자 생성 방법.
18. The method of claim 16,
The step of converting into the character data comprises:
And the reliability of the extracted voice data is evaluated to convert the voice data having high reliability into the character data with priority.
KR1020160170560A 2016-12-14 2016-12-14 apparatus and method for generating text based on audio signal KR20180068655A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020160170560A KR20180068655A (en) 2016-12-14 2016-12-14 apparatus and method for generating text based on audio signal

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020160170560A KR20180068655A (en) 2016-12-14 2016-12-14 apparatus and method for generating text based on audio signal

Publications (1)

Publication Number Publication Date
KR20180068655A true KR20180068655A (en) 2018-06-22

Family

ID=62768563

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020160170560A KR20180068655A (en) 2016-12-14 2016-12-14 apparatus and method for generating text based on audio signal

Country Status (1)

Country Link
KR (1) KR20180068655A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102075506B1 (en) * 2019-07-17 2020-03-02 주식회사 리논 A System Providing Matching Platform Of Specialists Based on Video

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102075506B1 (en) * 2019-07-17 2020-03-02 주식회사 리논 A System Providing Matching Platform Of Specialists Based on Video

Similar Documents

Publication Publication Date Title
CN103327181B (en) Voice chatting method capable of improving efficiency of voice information learning for users
US8515728B2 (en) Language translation of visual and audio input
EP2574220B1 (en) Hand-held communication aid for individuals with auditory, speech and visual impairments
US20060173859A1 (en) Apparatus and method for extracting context and providing information based on context in multimedia communication system
Mostefa et al. The CHIL audiovisual corpus for lecture and meeting analysis inside smart rooms
CN108847214B (en) Voice processing method, client, device, terminal, server and storage medium
CN107527623B (en) Screen transmission method and device, electronic equipment and computer readable storage medium
US20090012788A1 (en) Sign language translation system
US20080109208A1 (en) Interactive conversational speech communicator method and system
US11281707B2 (en) System, summarization apparatus, summarization system, and method of controlling summarization apparatus, for acquiring summary information
KR102219943B1 (en) Server and system for controlling smart microphone
CN112653902A (en) Speaker recognition method and device and electronic equipment
CN110379406B (en) Voice comment conversion method, system, medium and electronic device
KR20190100694A (en) Method for judging learning achievement method based on user's handwritten data, smart device, server and system for the same
JP2015041101A (en) Foreign language learning system using smart spectacles and its method
US20110208523A1 (en) Voice-to-dactylology conversion method and system
CN112599130A (en) Intelligent conference system based on intelligent screen
KR20180068655A (en) apparatus and method for generating text based on audio signal
CN105450970A (en) Information processing method and electronic equipment
KR20130097985A (en) Method and apparatus for two-way communications
EP2977983A1 (en) Note-taking assistance system, information delivery device, terminal, note-taking assistance method, and computer-readable recording medium
US20180300316A1 (en) System and method for performing message translations
KR20200123054A (en) Voice recognition device
KR102312798B1 (en) Apparatus for Lecture Interpretated Service and Driving Method Thereof
JP6766981B2 (en) Broadcast system, terminal device, broadcasting method, terminal device operation method, and program

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
AMND Amendment
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
AMND Amendment