KR20180068655A - apparatus and method for generating text based on audio signal - Google Patents
apparatus and method for generating text based on audio signal Download PDFInfo
- Publication number
- KR20180068655A KR20180068655A KR1020160170560A KR20160170560A KR20180068655A KR 20180068655 A KR20180068655 A KR 20180068655A KR 1020160170560 A KR1020160170560 A KR 1020160170560A KR 20160170560 A KR20160170560 A KR 20160170560A KR 20180068655 A KR20180068655 A KR 20180068655A
- Authority
- KR
- South Korea
- Prior art keywords
- data
- character
- voice
- unit
- voice signal
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims description 21
- 230000005236 sound signal Effects 0.000 title description 15
- 238000006243 chemical reaction Methods 0.000 claims abstract description 74
- 239000000284 extract Substances 0.000 claims description 22
- 238000011156 evaluation Methods 0.000 claims description 3
- 230000005540 biological transmission Effects 0.000 abstract description 8
- 208000032041 Hearing impaired Diseases 0.000 abstract description 6
- 238000010586 diagram Methods 0.000 description 9
- 238000004458 analytical method Methods 0.000 description 5
- 230000001413 cellular effect Effects 0.000 description 5
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 2
- 230000003321 amplification Effects 0.000 description 2
- 235000009508 confectionery Nutrition 0.000 description 2
- 229940124447 delivery agent Drugs 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 238000003199 nucleic acid amplification method Methods 0.000 description 2
- 206010011878 Deafness Diseases 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Telephonic Communication Services (AREA)
- Telephone Function (AREA)
Abstract
Description
본 발명은 음성 신호에 기초한 문자 생성 장치로서, 수신된 음성 신호로부터 문자를 추출하여 문자 데이터를 생성하고, 표시하는 장치 및 방법에 관한 것이다.The present invention relates to an apparatus for generating a character based on a speech signal, and to an apparatus and method for extracting characters from a received speech signal to generate and display character data.
종래에는, 청각 장애인들이 일상 생활을 함에 있어서, 수화를 하지 못하는 일반인과의 대화 또는 일반적인 학원이나 학교 수업 등, 청각 장애인들은 대화나 수업에 참여하지 못하는 환경에 노출되어 있었다. 또한, 국내 드라마나 영화 등을 시청을 할 경우에도 청각 장애인들은 자막이 제공되는 방송에만 의존하고, 자막이 제공되지 않는 일반적인 티비나 국내 영화 시청에 제한적이므로 폭넓은 시청 환경을 접할 수 없는 문제가 있었다.In the past, hearing-impaired people were exposed to an environment in which they could not participate in conversation or class, such as conversation with the general public who could not sign language or general school or school classes in daily life. In addition, even when watching domestic dramas or movies, the hearing-impaired people are dependent only on the broadcast provided with subtitles, and are restricted to general TVs or domestic movies not provided with subtitles, .
또한, 비장애인들도 수업을 들을 때 수업 내용에 대한 필기를 하느라 수업에 집중하지 못하거나 수업 내용을 놓치게 되는 경우가 종종 있다. 또한, 직장인들이 회의 중에 회의 내용을 기록하지만, 회의 내용을 놓치고 기록하지 못하는 경우가 생길 수 있는 문제가 있었다.In addition, non - disabled people often do not concentrate on class or miss out on class because they take notes on class contents when they take classes. In addition, there was a problem that the workers recorded the meeting during the meeting, but missed the meeting and could not record it.
본 발명의 다양한 실시 예에 따르면 청각 장애인이 수화를 하지 못하는 비장애인과의 대화에 불편함이 없이 참여할 수 있고, 일반적인 학원이나 학교 수업을 참여할 수 있는 환경을 제공할 수 있는 음성 신호에 기초한 문자 생성 장치 및 방법을 제공할 수 있다. According to various embodiments of the present invention, it is possible to generate a character based on a voice signal, which can participate in conversation with a non-disabled person who is not capable of signing a deaf person, Apparatus and method.
또한, 본 발명의 다양한 실시예에 따르면 비장애인들도 수업 또는 회의 중에 내용을 일일이 기록하지 않아도, 자동으로 수업 또는 회의 중에 내용이 문자로 생성되어 기록되는 음성 신호에 기초한 문자 생성 장치 및 방법을 제공할 수 있다.In addition, according to various embodiments of the present invention, there is provided a device and method for generating a character based on a voice signal in which content is automatically generated and recorded in a class or during a meeting, even if the non-disabled person does not record contents during a class or a meeting can do.
본 발명의 일 실시예로서, 본 발명은 음성인식 장치로부터 음성 데이터를 수신하는 수신부; 수신된 음성 데이터로부터 문자 데이터를 추출하는 문자 데이터 변환부; 상기 추출된 문자 데이터를 표시 장치로 전송하는 전송부를 포함하는 것을 특징으로 하는 문자 변환 장치를 제공하는 것을 특징으로 한다. According to an embodiment of the present invention, there is provided a speech recognition apparatus comprising: a receiver for receiving speech data from a speech recognition apparatus; A character data conversion unit for extracting character data from the received voice data; And a transmitting unit for transmitting the extracted character data to a display device.
본 발명의 다른 실시예로서, 외부로부터 음성 신호를 수신하는 음성 신호 인식부; 수신된 상기 음성 신호를 음성 데이터로 변환하는 음성 데이터 변환부; 및 변환된 상기 음성 데이터를 문자 데이터로 변환하는 문자 변환 장치로 전송하는 전송부를 포함하는 것을 특징으로 하는 음성 인식 장치를 제공하는 것을 특징으로 한다. According to another embodiment of the present invention, there is provided a speech recognition apparatus comprising: a speech signal recognition unit for receiving a speech signal from outside; A voice data conversion unit for converting the received voice signal into voice data; And a transmitter for transmitting the converted voice data to a character converter for converting the voice data into character data.
본 발명의 다른 실시예로서, 외부로부터 음성 신호를 수신하는 음성 신호 인식부; 수신된 음성 신호를 음성 데이터로 변환하는 음성 데이터 변환부; 변환된 상기 음성 데이터로부터 문자를 추출하는 문자 데이터 변환부; 및 변환된 상기 문자 데이터를 표시 장치로 전송하는 전송부를 포함하는 것을 특징으로 하는 문자 변환 장치를 제공하는 것을 특징으로 한다. According to another embodiment of the present invention, there is provided a speech recognition apparatus comprising: a speech signal recognition unit for receiving a speech signal from outside; A voice data conversion unit for converting the received voice signal into voice data; A character data conversion unit for extracting characters from the converted voice data; And a transfer unit for transferring the converted character data to a display device.
본 발명의 다른 실시예로서, 외부로부터 음성 신호를 수신하는 음성 신호 인식부; 수신된 음성 신호를 음성 데이터를 변환하는 음성 데이터 변환부; 변환된 상기 음성 데이터를 문자 데이터로 변환하는 문자 변환 장치로 전송하는 전송부; 및 상기 문자 변환 장치로부터 수신받은 문자 데이터를 표시하는 표시부를 포함하는 것을 특징으로 하는 문자 표시 장치를 제공하는 것을 특징으로 한다. According to another embodiment of the present invention, there is provided a speech recognition apparatus comprising: a speech signal recognition unit for receiving a speech signal from outside; A voice data conversion unit for converting voice data of a received voice signal; A transmitting unit for transmitting the converted voice data to a character converting apparatus for converting the voice data into character data; And a display unit for displaying the character data received from the character conversion apparatus.
본 발명의 다양한 실시 예에 따르면, 청각 장애인들은 수화를 하지 못하는 비장애인과의 대화에 불편함 없이 참여할 수 있고, 수화를 사용하지 않는 일반적인 학원이나 학교 수업에 참여할 수 있는 환경이 제공될 수 있다. According to various embodiments of the present invention, hearing-impaired people can participate in conversations with non-disabled persons who are unable to sign, and can be provided with an environment in which they can participate in general academies or school classes that do not use sign language.
또한, 본 발명의 다양한 실시예에 따르면, 비장애인들도 수업 또는 회의 중에 내용을 일일이 기록하지 않아도, 자동으로 수업 또는 회의 중의 내용이 문자로 생성되어 효율적인 수업 또는 회의가 진행될 수 있다. In addition, according to various embodiments of the present invention, even when a non-disabled person does not record contents during a class or a meeting, the contents in a class or a meeting are automatically generated so that efficient class or meeting can be conducted.
도 1은 본 발명의 일 실시예에 따른 음성 인식 장치(100), 문자 변환 장치(110) 및 문자 표시 장치(120)이다.
도 2는 도 1에 도시된 본 발명의 일 실시예의 구현 예에 대해서 도시한 도면이다.
도 3은 도 1에 도시된 본 발명의 일 실시예의 다른 구현 예에 대해서 도시한 도면이다.
도 4는 도 1에 도시된 본 발명의 일 실시예의 또 다른 구현 예에 대해서 도시한 도면이다.
도 5는 본 발명의 다른 실시예에 따른 문자 표시 장치(500) 및 문자 변환 장치(516)이다.
도 6은 도 5에 도시된 본 발명의 다른 실시예의 구현 예에 대해서 도시한 도면이다.
도 7은 도 5에 도시된 본 발명의 다른 실시예의 다른 구현 예에 대해서 도시한 도면이다.
도 8은 도 5에 도시된 본 발명의 다른 실시예의 또 다른 구현 예에 대해서 도시한 도면이다.
도 9는 도 5에 도시된 본 발명의 다른 실시예의 또 다른 구현 예에 대해서 도시한 도면이다.
도 10은 도 5에 도시된 본 발명의 다른 실시예의 또 다른 구현 예에 대해서 도시한 도면이다.
도 11은 도 5에 도시된 본 발명의 다른 실시예의 또 다른 구현 예에 대해서 도시한 도면이다.
도 12는 도 11에 도시된 구현 예의 다른 구현 예에 대해서 도시한 도면이다.
도 13은 본 발명의 또 다른 실시예에 따른 문자 변환 장치(1300) 및 문자 표시 장치(1312)이다.
도 14는 도 13에 도시된 본 발명의 또 다른 실시예의 구현 예에 대해서 도시한 도면이다.
도 15는 본 발명의 실시예에서 화자가 3명 이상인 경우의 구현 예가 도시되어 있다.
도 16은 본 발명의 일 실시예에 따른 음성 신호에 기초하여 문자를 생성하는 방법에 대한 간략한 순서도이다. 1 is a block diagram of a
FIG. 2 is a view illustrating an embodiment of the present invention shown in FIG. 1. Referring to FIG.
FIG. 3 is a diagram illustrating another embodiment of the present invention shown in FIG. 1. Referring to FIG.
FIG. 4 is a diagram illustrating another embodiment of the present invention shown in FIG. 1. Referring to FIG.
5 is a
FIG. 6 is a diagram illustrating an embodiment of another embodiment of the present invention shown in FIG.
FIG. 7 is a view showing another embodiment of the other embodiment of the present invention shown in FIG.
FIG. 8 is a view showing another embodiment of the other embodiment of the present invention shown in FIG.
FIG. 9 is a view showing another embodiment of the other embodiment of the present invention shown in FIG.
FIG. 10 is a view showing another embodiment of another embodiment of the present invention shown in FIG.
FIG. 11 is a view showing another embodiment of the other embodiment of the present invention shown in FIG.
12 is a diagram illustrating another embodiment of the embodiment shown in FIG.
13 is a
14 is a view illustrating an embodiment of another embodiment of the present invention shown in FIG.
Fig. 15 shows an embodiment in the case where there are three or more speakers in the embodiment of the present invention.
16 is a simplified flowchart of a method for generating a character based on a speech signal according to an embodiment of the present invention.
이하에서는 도면을 참조하여 본 개시에 대해서 자세히 설명한다. 이때, 각각의 도면에서 동일한 구성 요소는 가능한 동일한 부호로 나타낸다. 또한, 이미 공지된 기능 및/또는 구성에 대한 상세한 설명은 생략한다. 이하에 개시된 내용은, 다양한 실시 예에 따른 동작을 이해하는데 필요한 부분이 중점적으로 설명하며, 그 설명의 요지를 흐릴 수 있는 요소들에 대한 설명은 생략한다.Hereinafter, the present disclosure will be described in detail with reference to the drawings. In the drawings, the same components are denoted by the same reference symbols as possible. In addition, detailed descriptions of known functions and / or configurations are omitted. The following description will focus on the parts necessary for understanding the operation according to various embodiments, and a description of elements that may obscure the gist of the description will be omitted.
본 문서에서, "A 또는 B", "A 또는/및 B 중 적어도 하나", 또는 "A 또는/및 B 중 하나 또는 그 이상" 등의 표현은 함께 나열된 항목들의 모든 가능한 조합을 포함할 수 있다. 예를 들면, "A 또는 B", "A 및 B 중 적어도 하나", 또는 "A 또는 B 중 적어도 하나"는, (1) 적어도 하나의 A를 포함, (2) 적어도 하나의 B를 포함, 또는 (3) 적어도 하나의 A 및 적어도 하나의 B 모두를 포함하는 경우를 모두 지칭할 수 있다.In this document, the expressions "A or B," "at least one of A and / or B," or "one or more of A and / or B," etc. may include all possible combinations of the listed items . For example, "A or B," "at least one of A and B," or "at least one of A or B" includes (1) at least one A, (2) Or (3) at least one A and at least one B all together.
다양한 실시 예에서 사용된 "제1", "제2", "첫째", 또는 "둘째" 등의 표현들은 다양한 구성요소들을, 순서 및/또는 중요도에 상관없이 수식할 수 있고, 해당 구성요소들을 한정하지 않는다. 예를 들면, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 바꾸어 명명될 수 있다.Expressions such as " first, "second," first, "or" second, " as used in various embodiments, Not limited. For example, without departing from the scope of the present invention, the first component may be referred to as a second component, and similarly, the second component may also be named as the first component.
또한 도면의 일부 구성요소는 과장되거나 생략되거나 또는 개략적으로 도시될 수 있다. 각 구성요소의 크기는 실제 크기를 전적으로 반영하는 것이 아니며, 따라서 각각의 도면에 그려진 구성요소들의 상대적인 크기나 간격에 의해 여기에 기재되는 내용들이 제한되는 것은 아니다.Also, some of the elements of the drawings may be exaggerated, omitted, or schematically illustrated. The size of each component does not entirely reflect the actual size, and therefore the contents described herein are not limited by the relative sizes or spacings of the components drawn in the respective drawings.
도 1은 본 발명의 일 실시예에 따른 음성 인식 장치(100), 문자 변환 장치(110) 및 문자 표시 장치(120)이다. 1 is a block diagram of a
음성 인식 장치(100)는 음성 신호 인식부(102), 음성 신호 증폭부(104), 음성 신호 데이터 변환부(106) 및 전송부(108)를 포함한다. The
음성 신호 인식부(102)는 외부로부터 인식되는 음성 신호를 인식한다. 예를 들어, 음성 신호 인식부(102)는 원거리 줌(zoom) 마이크일 수 있다. 또한, 음성 신호 증폭부(104)는 음성 신호 인식부(102)로부터 인식된 음성 신호를 더욱 정확하게 분석하고 작은 신호도 분석 가능하도록 음성 신호를 증폭한다. 다만, 음성 신호 증폭부(104)는 음성 인식 장치(100)에 포함되지 않을 수도 있다. The voice
음성 신호 데이터 변환부(106)는 인식된 음성 신호의 특징 정보를 추출하여 음성 데이터로 변환한다. 음성 신호 데이터 변환부(106)는 예를 들어 음성 아날로그 신호를 비트 데이터로 변환시킬 수 있다. 또는, 음성 신호 데이터 변환부(106)는 예를 들어 수신된 음성 아날로그 신호를 신호의 특징을 추출하여 다른 아날로그 신호로 변환시킬 수도 있다. 음성 인식 장치(100)는 추가적으론 인식된 음성 신호에서 노이즈를 제거하는 필터부를 더 포함할 수도 있다.The voice signal data conversion section 106 extracts the feature information of the recognized voice signal and converts it into voice data. The voice signal data converting section 106 can convert, for example, a voice analog signal into bit data. Alternatively, the voice signal data converting unit 106 may extract the characteristics of the received voice analog signal, for example, and convert the extracted voice analog signal into another analog signal. The
또한, 전송부(108)는 음성 신호 데이터 변환부(106)에서 변환된 음성 데이터를 문자 변환 장치(110)로 전송한다. The transmitting
문자 변환 장치(100)는 수신부(112), 문자 데이터 변환부(114), 저장부(116), 화자 분석부(117) 및 전송부(118)를 포함한다. The
수신부(112)는 음성 인식 장치(100)로부터 음성 데이터를 수신한다. 수신된 음성 데이터는 문자 데이터 변환부(114)에서 문자로 변환된다. 예를 들어, 문자 데이터 변환부(114)는 수신된 음성 데이터의 특징을 추출하여 해당 특징에 대해서 상응하는 문자 데이터를 추출하여 문자 데이터로 변환한다. 음성 데이터의 특징으로는 예를 들어, 음성 신호의 피치 또는 에너지 등을 들 수 있다. 문자 데이터 변환부(114)는 예를 들어, 추출된 음성 데이터의 특징을 이용하고 미리 저장된 각 음성 데이터의 특징에 상응하는 문자 데이터를 참조하여 음성 데이터에 상응하는 문자 데이터를 추출 및 생성한다. 추가로, 문자 데이터 변환부에서는 음성 데이터의 신뢰도 평가를 수행하여 정확도를 높일 수 있다. 구체적으로, 인식된 음성 신호가 "과자 먹고 싶어"이면, 문자로 과자의 신뢰도가 85%이고 가자의 신뢰도가 65%일 때 여러 후보 중 가장 신뢰도가 높은 문자를 택할 수 있다. 여러 개의 음성 수신 기기를 통하여 음성을 받을 경우, 각각의 기기에서 강의자와의 거리나 방향에 따라 변환된 텍스트가 다를 수 있는데, 이 때 우선 순위는 각각의 기기가 변환한 결과에 대한 최고 신뢰도 값이 높은 문자를 선택할 수 있다. The
저장부(116)에는 음성 데이터의 특징에 상응하는 문자 데이터를 저장한다. 또한, 저장부(116)는 상황 별, 빈도수 별 등 특정 기준에 따라, 음성 데이터의 특징에 상응하는 문자 데이터를 저장할 수도 있다. The
화자 분석부(117)는 수신되는 복수의 음성 데이터를 분석하여, 예를 들어 복수의 음성 데이터 간의 피치 또는 에너지를 분석하여 공통된 특징점을 추출하여 화자 별로 음성 데이터를 분류한다. 화자 별로 분류된 음성 데이터 정보를 문자 데이터 변환부(114)와 공유하여, 문자 데이터 변환부(114)는 화자별로 문자 데이터를 분류할 수 있다. 전송부(118)는 변환된 문자 데이터를 문자 표시 장치로(120)로 전송한다. The
문자 표시 장치(120)는 수신부(122), 표시부(124), 저장부(126), 입력부(128)를 포함한다. 문자 표시 장치(120)는 예를 들어, 휴대폰 단말, 노트북, 태블릿 PC 또는 데스크 탑일 수 있다. The
수신부(122)는 문자 변환 장치(110)로부터 변환된 문자 데이터를 실시간으로 수신한다. 또한, 저장부(126)에는 표시부(124)에 표시할 문자 표시 인터페이스 및 입력 인터페이스를 저장하고 있다. The receiving
표시부(124)는 저장부(126)에 저장된 인터페이스를 표시하고, 해당 인터페이스를 이용하여 수신된 문자를 표시한다. 사용자는 입력부(128)를 통하여 표시된 문자를 수정할 수 있고, 하이라이트 표시, 캡쳐 등의 편집을 행할 수 있다. The display unit 124 displays the interface stored in the
도 2는 도 1에 도시된 본 발명의 일 실시예의 구현 예에 대해서 도시한 도면이다. 예를 들어, 학생이 음성 인식 장치(200)를 학생자리에 두고 수업을 들으면, 수업 시간에 강사 또는 교사의 음성이 인식된다. 음성 인식 장치(200)에는 예를 들어 원거리 줌 마이크(202)가 탑재되어 핸드폰보다 음성 인식의 정확도를 높일 수 있다. 상술한 바와 같이 음성 인식 장치(200)에서 인식된 음성 신호는 음성 인식 장치(200) 내에서 증폭되고, 음성 데이터로 변환되어 문자 변환 장치로 전송된다. FIG. 2 is a view illustrating an embodiment of the present invention shown in FIG. 1. Referring to FIG. For example, when a student places a
그 후에, 문자 변환 장치에서 변환된 문자 데이터는 학생의 단말기로 전송되어, 예를 들어 어플리케이션을 통하여 수업 내용이 그대로 문자로 표시되고 저장된다. 또한, 학생은 자신의 단말기의 어플리케이션을 통하여 표시된 문자를 예를 들어, 특정 문자에 하이라이트 표시를 하거나 문자를 수정하는 등의 편집을 행할 수도 있다. Thereafter, the character data converted by the character conversion apparatus is transmitted to the student terminal, and the contents of the class are displayed and stored as texts, for example, through the application. In addition, the student may perform editing such as highlighting a character displayed on an application of his / her terminal, for example, or highlighting a character or correcting a character.
도 3은 도 1에 도시된 본 발명의 일 실시예의 다른 구현 예에 대해서 도시한 도면이다. 예를 들어, 학생(사용자)이 음성 인식 장치(300)를 강사(화자) 근처에 두고 사용할 수 있다. 이는 학생에게 음성 인식 장치(300)의 컨트롤이 없다는 단점이 있지만 음성 인식률을 높일 수 있다. 음성 인식 장치(300)는 예를 들어, 원거리 줌 마이크(302)가 내장되어 있다. 음성 인식 장치(300)에서 인식된 음성 신호는 음성 인식 장치(300) 내에서 증폭되고, 음성 데이터로 변환되어 문자 변환 장치로 전송된다. 그 후에, 문자 변환 장치에서 변환된 문자 데이터는 학생의 단말기로 전송되어, 예를 들어, 어플리케이션을 통하여 수업 내용이 그대로 문자로 표시되고 저장된다. 또한, 학생은 자신의 단말기의 어플리케이션을 통하여 표시된 문자를 예를 들어, 특정 문자에 하이라이트 표시를 하거나 문자를 수정하는 등의 편집을 행할 수도 있다. FIG. 3 is a diagram illustrating another embodiment of the present invention shown in FIG. 1. Referring to FIG. For example, the student (user) can use the
도 4는 도 1에 도시된 본 발명의 일 실시예의 또 다른 구현 예에 대해서 도시한 도면이다. 예를 들어, 가족들(다수의 화자들)과 대화를 하는 경우에, 가족들이 수화를 이용하지 않고 청각 장애인과 대화를 할 수 있도록 음성 인식 장치(400)를 실행시켜 가족들의 음성 신호를 인식하여 증폭시킨 후, 음성 데이터로 변환하여 문자 변환 장치로 전송한다. 문자 변환 장치에서 상술한 바와 같이 변환된 문자 데이터는 학생(사용자)의 단말기로 전송되어, 예를 들어, 어플리케이션을 통하여 대화 내용이 그대로 문자로 표시되고 저장된다. 다만, 본 구현 예와 같은 경우에는 화자가 복수 명이고, 음성 신호가 섞이기 때문에 문자 변환 장치에서 화자를 인식하여 화자별로 문자 데이터를 분류하여 문자 데이터를 학생 단말기로 전송하기 때문에, 학생의 단말기에도 스크립트와 같이 화자별로 분류되어 문자가 표시된다. FIG. 4 is a diagram illustrating another embodiment of the present invention shown in FIG. 1. Referring to FIG. For example, when a conversation is made with family members (a plurality of speakers), a
도 5는 본 발명의 다른 실시예에 따른 문자 표시 장치(500) 및 문자 변환 장치(516)이다. 5 is a
문자 표시 장치(500)는 음성 신호 인식부(502), 음성 신호 증폭부(504), 음성 신호 데이터 변환부(506), 전송부(508), 문자 데이터 수신부(510), 표시부(514), 저장부(515) 및 입력부(518)를 포함한다. 여기서, 문자 표시 장치(500)는 사용자의 휴대폰 단말, 노트북, 태블릿 PC 또는 데스크 탑일 수 있다.The
음성 신호 인식부(502)는 외부로부터 인식되는 음성 신호를 인식한다. 예를 들어, 음성 신호 인식부(502)는 문자 표시 장치(500) 자체 내에 내장된 마이크일 수 있다. 다만, 외장 지향성 원거리 Zoom 마이크(516)를 통해서 음성이 인식될 수도 있다. 또한, 음성 신호 증폭부(504)는 음성 신호 인식부(502)로부터 인식된 음성 신호를 더욱 정확하게 분석하고 작은 신호도 분석 가능하도록 음성 신호를 증폭한다. 다만, 음성 신호 증폭부(504)는 생략 가능하다. The voice
음성 신호 데이터 변환부(506)는 인식된 음성 신호의 특징 정보를 추출하여 음성 데이터로 변환한다. 음성 신호 데이터 변환부(506)는 예를 들어 음성 아날로그 신호를 비트 데이터로 변환시킬 수 있다. 또는, 음성 신호 데이터 변환부(506)는 예를 들어 수신된 음성 아날로그 신호를 신호의 특징을 추출하여 다른 아날로그 신호로 변환시킬 수도 있다. 문자 표시 장치(500)는 추가적으로 인식된 음성 신호에서 노이즈를 제거하는 필터부를 더 포함할 수 있다. The voice signal
전송부(508)는 음성 신호 데이터 변환부(506)에서 변환된 음성 데이터를 문자 변환 장치(516)로 전송한다. The transmitting
문자 데이터 수신부(510)는 문자 변환 장치(516)로부터 수신된 문자 데이터를 수신한다. 문자 데이터 수신부(510)로부터 수신된 문자 데이터를 저장부(512)에 저장된 인터페이스를 표시하고, 해당 인터페이스를 이용하여 표시한다. 사용자는 입력부(518)를 통하여 표시된 문자를 수정할 수 있고, 하이라이트 표시, 캡쳐 등의 편집을 행할 수 있다. The character
문자 변환 장치(516)는 수신부(519), 저장부(520), 문자 데이터 변환부(522), 화자 분석부(524) 및 전송부(526)를 포함한다.The
수신부(519)는 문자 표시 장치(500)에서 변환된 음성 데이터를 수신한다. 수신된 음성 데이터는 문자 데이터 변환부(522)에서 문자로 변환된다. 예를 들어, 문자 데이터 변환부(522)는 수신된 음성 데이터의 특징을 추출하여 해당 특징에 대해서 상응하는 문자 데이터를 추출하여 문자 데이터로 변환한다. 음성 데이터의 특징으로는 예를 들어, 음성 신호의 피치 또는 에너지 등을 들 수 있다. 문자 데이터 변환부(522)는 예를 들어, 추출된 음성 데이터의 특징을 이용하고 미리 저장된 각 음성 데이터의 특징에 상응하는 문자 데이터를 참조하여 음성 데이터에 상응하는 문자 데이터를 추출 및 생성한다. The receiving
저장부(520)에는 음성 데이터의 특징에 상응하는 문자 데이터를 저장한다. 또한, 저장부(520)는 상황 별, 빈도수 별 등 특정 기준에 따라, 음성 데이터의 특징에 상응하는 문자 데이터를 저장할 수도 있다. The
화자 분석부(524)는 수신되는 복수의 음성 데이터를 분석하여, 예를 들어 복수의 음성 데이터 간의 피치 또는 에너지를 분석하여 공통된 특징점을 추출하여 화자 별로 음성 데이터를 분류한다. 화자 별로 분류된 음성 데이터 정보를 문자 데이터 변환부(522)와 공유하여, 문자 데이터 변환부(522)는 화자 별로 문자 데이터를 분류할 수 있다. 전송부(526)는 변환된 문자 데이터를 문자 표시 장치(500)로 전송한다. The
도 6은 도 5에 도시된 본 발명의 다른 실시예의 구현 예에 대해서 도시한 도면이다. 예를 들어, 학생이 문자 표시 장치(600)에 별도의 지향성 마이크(502)를 장착하고, 음성 인식에 기초한 문자 생성 어플리케이션을 실행하면, 수업 시간에 강사 또는 교사의 음성이 인식된다. 문자 표시 장치(600)는 예를 들어 학생의 휴대폰 단말일 수 있다. 또한, 상술된 바와 문자 표시 장치(500)에서 인식된 음성 신호는 문자 표시 장치(600)에서 증폭되고, 음성 데이터로 변환되어 문자 변환 장치(서버)로 전송된다. 그 후에, 문자 변환 장치에서 변환된 문자 데이터는 학생의 단말기로 전송되어, 예를 들어, 어플리케이션을 통하여 수업 내용이 그대로 문자로 표시되고 저장될 수 있다. 또한, 변환된 문자 데이터는 문자 변환 장치에 저장되어 해당 학생이 아닌 다른 복수의 이용자의 요청에 의하여 다른 복수의 이용자의 단말로 전송될 수도 있다. FIG. 6 is a diagram illustrating an embodiment of another embodiment of the present invention shown in FIG. For example, when a student attaches a
도 7은 도 5에 도시된 본 발명의 다른 실시예의 다른 구현 예에 대해서 도시한 도면이다. 본 구현 예는, 예를 들어, 교사(화자)가 핀 마이크를 장착하고, 학생이 문자 표시 장치(700)에 핀마이크 수신기(702)를 장착하여 음성 인식을 하는 방식이다. 구체적으로, 교사가 장착한 핀 마이크를 통하여 음성 신호를 송출하면, 핀마이크 원격 수신기를 통하여 음성 신호를 수신하면, 문자 표시 장치(700)에서 상술한 바와 같이 음성 신호를 증폭시키고, 음성 데이터로 변환되어 문자 변환 장치로 전송된다. 그 후에, 문자 변환 장치에서 변환된 문자 데이터는 학생의 단말기로 전송되어, 예를 들어, 어플리케이션을 통하여 수업 내용이 그대로 문자로 표기되고 저장될 수 있다. 또한, 변환된 문자 데이터는 문자 변환 장치에 저장되어 해당 학생이 아닌 다른 복수의 이용자의 요청에 의하여 다른 복수의 이용자의 단말로 전송될 수도 있다.FIG. 7 is a view showing another embodiment of the other embodiment of the present invention shown in FIG. In this embodiment, for example, a teacher (speaker) is equipped with a pin microphone, and a student attaches a
도 8은 도 5에 도시된 본 발명의 다른 실시예의 또 다른 구현 예에 대해서 도시한 도면이다. 본 구현 예는, 예를 들어, 교사(화자)가 일반 마이크를 장착하고, 마이크로 전달되는 음성 신호를 수신할 수 있는 수신기를 학생의 휴대폰이나 노트북에 연결하여 음성 신호를 수신한다. 학생의 휴대폰이나 노트북에서 수신된 음성 신호는 증폭되고 음성 데이터로 변환된 후 문자 변환 장치로 전송된다. 그 후에, 문자 변환 장치에서 변환된 문자 데이터는 학생의 단말기 또는 노트북으로 전송되어, 예를 들어, 어플리케이션을 통하여 수업 내용이 그대로 문자로 표기되고 저장될 수 있다. 또한, 표시되는 문자는 사용자가 입력부를 통하여 편집하는 것이 가능하다. FIG. 8 is a view showing another embodiment of the other embodiment of the present invention shown in FIG. In this embodiment, for example, a teacher (speaker) mounts a general microphone and receives a voice signal by connecting a receiver capable of receiving a micro-transferred voice signal to a student's mobile phone or notebook. The voice signal received from the student's cellular phone or notebook is amplified, converted into voice data, and then transmitted to the character converter. Thereafter, the character data converted by the character conversion device is transmitted to the student's terminal or the notebook, and the contents of the class can be written and stored literally, for example, through the application. In addition, the characters to be displayed can be edited by the user through the input unit.
도 9는 도 5에 도시된 본 발명의 다른 실시예의 또 다른 구현 예에 대해서 도시한 도면이다. 본 구현 예는, 자막이 제공되지 않은 한국 영화 또는 인터넷 강의 등에 자막을 실시간으로 제공하기 위한 것으로서, 예를 들어 노트북(핸드폰, 태블릿 PC 또는 데스크 탑 모두 가능)에서 재생되고 있는 영상에서 출력되는 음성 신호를 다시 노트북 내의 음성 신호 인식부에서 인식하여, 해당 신호를 증폭하고 음성 데이터로 변환하여 문자 변환 장치로 전송한다. 그 후에, 문자 변환 장치에서 변환된 문자 데이터는 노트북으로 다시 전송되어, 재생 중인 영상에 자막의 형태로 표기되고 저장될 수 있다. 또한, 변환된 문자 데이터는 사용자가 임의로 편집하는 것도 가능하다. FIG. 9 is a view showing another embodiment of the other embodiment of the present invention shown in FIG. In this embodiment, subtitles are provided in real time on a Korean movie or an Internet lecture in which no subtitles are provided. For example, in the case of a voice signal outputted from a video reproduced in a notebook (mobile phone, tablet PC or desktop) Is recognized again by the voice signal recognizing unit in the notebook, and the corresponding signal is amplified, converted into voice data, and transmitted to the character converting apparatus. Thereafter, the character data converted by the character conversion device is transmitted back to the notebook, and can be written and stored in the form of a caption on the image being reproduced. It is also possible for the user to arbitrarily edit the converted character data.
도 10은 도 5에 도시된 본 발명의 다른 실시예의 또 다른 구현 예에 대해서 도시한 도면이다. 본 구현 예는, 청각 장애인의 휴대폰 단말을 통하여 음성 ARS인증에 대한 불편함을 해소하기 위한 것으로서, 휴대폰 단말에서 출력되는 ARS 음성 신호를 다시 휴대폰 단말 내의 음성 신호 인식부에서 수신하고 증폭한 후, 음성 데이터로 변환하여 문자 변환 장치로 전송한다. 그 후에, 문자 변환 장치에서 변환된 문자 데이터는 핸드폰으로 다시 전송되어, 화면 상에 실시간으로 표시된다. FIG. 10 is a view showing another embodiment of another embodiment of the present invention shown in FIG. In this embodiment, an ARS voice signal output from a mobile phone terminal is received and amplified by a voice signal recognizing unit in a mobile phone terminal, and then voice Converted into data and transmitted to the character conversion apparatus. Thereafter, the character data converted by the character conversion device is transmitted again to the mobile phone and displayed on the screen in real time.
도 11은 도 5에 도시된 본 발명의 다른 실시예의 또 다른 구현 예에 대해서 도시한 도면이다. 본 구현 예에는, 화자가 복수 명일 때의 대화를 녹음한 음성 파일을 노트북 등을 통하여 재생시키면, 노트북 내의 음성 신호 인식부에서 다시 해당 음성 신호를 인식하고 증폭하여 음성 데이터로 변환한다. 또는 음성 파일에서 음성 데이터를 바로 추출할 수도 있다. 노트북 내의 전송부는 생성된 음성 데이터를 문자 변환 장치로 전송한다. 그 후에, 노트북의 문자 데이터 수신부는 화자 별로 분류되어 변환된 문자 데이터를 문자 변환 장치로부터 수신한다. 노트북의 표시부에서는 사용자가 해당 프로그램을 실시하면, 타임 스탬프에 따라 화자 별로 분류된 스크립트가 자동으로 생성된다. FIG. 11 is a view showing another embodiment of the other embodiment of the present invention shown in FIG. In this embodiment, when a voice file recording a dialogue with a plurality of speakers is reproduced through a notebook computer or the like, the voice signal recognizing unit in the notebook computer recognizes the voice signal again, amplifies the voice signal, and converts the voice signal into voice data. Alternatively, voice data may be directly extracted from the voice file. The transmitting unit in the notebook computer transmits the generated voice data to the character converting apparatus. Thereafter, the character data receiving section of the notebook receives the converted character data classified by the speaker from the character converting apparatus. In the display section of the notebook, if the user executes the program, a script classified by the speaker is automatically generated according to the time stamp.
한편, 도 12는 도 11에 도시된 구현 예의 다른 구현 예에 대해서 도시한 도면이다. 본 구현 예에는, 화자가 복수 명일 때의 대화를 통한 음성 신호를 인식하여 문자를 추출하는 것이다. 구체적으로 양지향 마이크가 장착된 음성 인식 장치는 복수의 화자의 음성 신호를 수신하고 녹음 파일로 저장한다. 음성 인식 장치가 수신한 음성 신호를 증폭하여 음성 데이터로 변환한 후 문자 변환 장치로 전송한다. 그 후에, 문자 변환 장치로부터 화자 별로 분류된 문자 데이터를 노트북이 수신한다. 이에 따라, 노트북의 표시부에서는 사용자가 해당 프로그램을 실시하면, 타임 스탬프에 따라 화자 별로 분류된 스크립트가 자동으로 생성된다. 12 is a view illustrating another embodiment of the embodiment shown in FIG. In this embodiment, a speech signal through a conversation when a plurality of speakers are present is recognized and characters are extracted. Specifically, a speech recognition apparatus equipped with a bidirectional microphone receives voice signals of a plurality of speakers and stores the voice signals as a recording file. The voice recognition device amplifies the received voice signal, converts it into voice data, and transmits the voice data to the character conversion device. Thereafter, the notebook receives the character data classified by the speaker from the character conversion device. Accordingly, when the user executes the program on the display unit of the notebook, a script classified by the speaker is automatically generated according to the time stamp.
도 13은 본 발명의 또 다른 실시예에 따른 문자 변환 장치(1300) 및 문자 표시 장치(1312)이다. 13 is a
문자 변환 장치(1300)는 음성 신호 인식부(1302), 문자 데이터 변환부(1304), 저장부(1306), 화자 분석부(1308) 및 전송부(1310)를 포함한다. The
음성 신호 인식부(1302)는 외부로부터 인식되는 음성 신호를 인식한다. 예를 들어, 음성 신호 인식부(1302)는 원거리 줌(zoom) 마이크일 수 있다. 또한, 음성 신호 증폭부(미도시)는 음성 신호 인식부(1302)로부터 인식된 음성 신호를 더욱 정확하게 분석하고 작은 신호도 분석 가능하도록 음성 신호를 증폭한다. 다만, 음성 신호 증폭부는 문자 변환 장치(1300)에 포함되지 않을 수도 있다.The speech
문자 데이터 변환부(1304)는 수신된 음성 신호의 특징을 추출하여 해당 특징에 상응하는 문자 데이터를 추출하여 문자 데이터로 변환한다. 음성 데이터의 특징으로는 예를 들어, 음성 신호의 피치 또는 에너지 들을 들 수 있다. 문자 데이터 변환부(1304)는 예를 들어, 추출된 음성 데이터의 특징을 이용하고 미리 저장된 각 음성 데이터의 특징에 상응하는 문자 데이터를 참조하여 음성 데이터에 상응하는 문자 데이터를 추출 및 생성한다. The character data conversion unit 1304 extracts the characteristics of the received voice signal, extracts the character data corresponding to the feature, and converts the extracted character data into character data. The characteristics of the voice data include, for example, pitch or energies of the voice signal. The character data conversion unit 1304 extracts and generates character data corresponding to the voice data by referring to the character data corresponding to the characteristics of each voice data that is stored in advance, using the characteristics of the extracted voice data, for example.
저장부(1306)는 음성 데이터의 특징에 상응하는 문자 데이터를 저장한다. 또한, 저장부(1306)는 상황 별, 빈도수 별 등 특정 기준에 따라, 음성 데이터의 특징에 상응하는 문자 데이터를 저장할 수도 있다. The
화자 분석부(1308)는 수신되는 복수의 음성 데이터를 분석하여, 예를 들어 복수의 음성 데이터 간의 피치 또는 에너지를 분석하여 공통된 특징점을 추출하여 화자 별로 음성 데이터를 분류한다. 화자 별로 분류된 음성 데이터 정보를 문자 데이터 변환부(1304)와 공유하여, 문자 데이터 변환부(1304)는 화자별로 문자 데이터를 분류할 수 있다. 전송부(1310)는 변환된 문자 데이터를 문자 표시 장치로(1312)로 전송한다. The
문자 표시 장치(1312)는 수신부(1314), 표시부(1316), 저장부(1318), 입력부(1320)를 포함한다. 문자 표시 장치(1312)는 예를 들어, 휴대폰 단말, 노트북, 태블릿 PC 또는 데스크 탑일 수 있다. The
수신부(1314)는 문자 변환 장치(1300)로부터 변환된 문자 데이터를 실시간으로 수신한다. 또한, 저장부(1318)에는 표시부(1316)에 표시할 문자 표시 인터페이스 및 입력 인터페이스를 저장하고 있다. The receiving
표시부(1316)는 저장부(1318)에 저장된 인터페이스를 표시하고, 해당 인터페이스를 이용하여 수신된 문자를 표시한다. 사용자는 입력부(1320)를 통하여 표시된 문자를 수정할 수 있고, 하이라이트 표시, 캡쳐 등의 편집을 행할 수 있다.The
도 14는 도 13에 도시된 본 발명의 또 다른 실시예의 구현 예에 대해서 도시한 도면이다. 예를 들어, 가족들(다수의 화자들)과 대화를 하는 경우에, 가족들이 수화를 이용하지 않고 청각 장애인과 대화를 할 수 있도록 문자 변환 장치(1400)를 통하여 인식된 음성 신호를 문자 데이터로 변환하여 무선으로 사용자의 휴대폰 단말로 전송한다. 문자 변환 장치(1400)를 통하여 문자 데이터를 수신한 사용자의 단말은, 해당 문자를 실시간으로 표시부에 표시한다. 또한 화자가 복수인 경우 문자 변환 장치(1400)는 화자 별로 문자 데이터를 분류하여 전송한다. 이에 따라, 사용자의 단말의 표시부에는 화자 별로 문자 데이터가 예를 들어, 스크립트 형식으로 표시될 수 있다. 14 is a view illustrating an embodiment of another embodiment of the present invention shown in FIG. For example, when a conversation is made with family members (a plurality of speakers), a voice signal recognized through a
도 15는 본 발명의 실시예에서 화자가 3명 이상인 경우의 구현 예가 도시되어 있다. 기본적인 구성은 상술한 실시예에 따르지만, 3명 이상의 화자의 음성 신호를 화자 별로 분류하는 데에 있어서, 음성 신호의 특성뿐만 아니라, 음성 신호가 수신되는 방향을 인식하여 좀 더 정확하게 화자를 분류할 수 있다. 즉, 음성 인식 장치의 위치를 기준으로 음성 신호 수신 방향을 인지하여 특정 방향으로부터 수신되는 음성 신호는 동일한 화자의 음성 신호로 인식할 수 있다. 구체적으로, 음성 신호를 화자별로 분류하여 화자 정보를 생성하기 위하여 양지향성 마이크가 사용될 수 있다. 양지향성 마이크(앞과 뒤의 방향에서의 소리는 집음하고, 그 방향을 함께 표시)는 소리가 앞에서 입력되는지 뒤에서 입력되는지 구분이 가능하기 때문에 방향에 따라 발화자가 구분될 수 있다. Fig. 15 shows an embodiment in the case where there are three or more speakers in the embodiment of the present invention. The basic configuration is according to the embodiment described above. However, in classifying the voice signals of three or more speakers by the speaker, it is possible to classify the speakers more accurately by recognizing not only the characteristics of the voice signals but also the directions in which the voice signals are received have. That is, the voice signal received from a specific direction can be recognized as a voice signal of the same speaker by recognizing the voice signal receiving direction based on the position of the voice recognition device. Specifically, a bi-directional microphone may be used to classify the speech signal by speaker and generate speaker information. A bi-directional microphone (the sound in front and back direction is collected and the direction is indicated together) can distinguish whether the sound is input before or after the sound, so the speaker can be distinguished according to the direction.
도 16은 본 발명의 일 실시예에 따른 음성 신호에 기초한 문자 데이터 생성 방법의 간략한 순서도이다. 16 is a simplified flowchart of a method of generating character data based on a speech signal according to an embodiment of the present invention.
음성 신호 장치가 화자의 음성 신호를 인식하여, 증폭한 후 음성 데이터로 전환한다(S1600). The speech signal device recognizes the speech signal of the speaker, amplifies the speech signal, and converts the speech signal into speech data (S1600).
그 후에 음성 데이터를 문자 데이터 변환 장치로 전송하여 문자 데이터 변환 장치에서 음성 데이터로부터 특징을 추출하여 화자를 분석하거나, 음성 신호 장치 내에서 음성 데이터로부터 특징을 추출하여 화자 분석을 한다(S1602). 구체적으로, 복수의 음성 신호를 수신했을 때, 음성 신호 또는 데이터의 특징, 예를 들어, 음성 신호의 피치 또는 에너지를 분석하여 신호의 공통점을 추출하여 동일 화자로부터 수신된 음성 신호를 구분하여 화자 별로 음성 신호를 분류한다. 화자 별로 분류된 음성 데이터 정보를 문자 데이터 변환부와 공유하여 문자 데이터 변환부는 화자 별로 문자 데이터를 분류할 수 있다. Thereafter, the voice data is transferred to the character data conversion device, and the character data is analyzed by extracting features from the voice data and extracting features from the voice data in the voice signal device (S1602). Specifically, when a plurality of audio signals are received, characteristics of the audio signal or data, for example, the pitch or energy of the audio signal are analyzed to extract the common points of the signals, and the audio signals received from the same speaker are separated Classify the voice signal. The character data conversion unit can classify the character data for each speaker by sharing the voice data information classified by the speaker with the character data conversion unit.
문자 데이터 변환 장치 또는 음성 신호 장치 내의 문자 데이터 변환부에서 화자 별로 분류된 특징을 추출하여 변환된 음성 데이터로부터, 그 문자 신호의 특징을 추출하여 해당하는 문자 데이터를 생성한다(S1604). 구체적으로, 저장부에 음성 데이터의 특징에 상응하는 문자 데이터가 미리 저장되어 있다. 또한, 저장부에 상황 별, 빈도수 별 등의 특정 기준에 따라 음성 데이터의 특징에 상응하는 문자 데이터가 저장되어 있다. 저장부에 저장되어 있는 음성 데이터에 상응하는 문자 데이터에 기초하여, 문자 데이터 변환부는 수신된 음성 데이터의 특징을 추출하여 상응하는 문자 데이터를 추출하여 문자 데이터로 변환한다. 음성 데이터의 특징으로는 예를 들어, 음성 신호의 피치 또는 에너지 등을 들 수 있다. The character data conversion unit in the character data conversion device or the voice signal device extracts characteristics classified by the speaker, extracts characteristics of the character signal from the converted voice data, and generates corresponding character data (S1604). Specifically, character data corresponding to the characteristic of the voice data is stored in the storage unit in advance. In addition, character data corresponding to the characteristic of the voice data is stored in the storage unit according to a specific criterion such as a condition, a frequency, and the like. Based on the character data corresponding to the voice data stored in the storage unit, the character data conversion unit extracts the characteristic of the received voice data, extracts the corresponding character data, and converts it into character data. The characteristics of the voice data include, for example, pitch or energy of the voice signal.
생성된 문자 데이터는 화자 별로 표시부에 표시한다(S1608). 구체적으로, 표시부는 저장부에 저장된 인터페이스를 표시하고, 해당 인터페이스를 이용하여 수신된 문자를 표시한다. 또한, 사용자는 입력부를 통하여 표시된 문자를 수정할 수 있고, 하이라이트 표시, 캡쳐 등의 편집을 행할 수 있다. The generated character data is displayed on the display unit for each speaker (S1608). Specifically, the display unit displays the interface stored in the storage unit, and displays the received character using the interface. Further, the user can modify the displayed character through the input unit, and can perform editing such as highlight display, capture, and the like.
이상 본 발명의 배송대행 신청의 다양한 방법에 대해서 살펴보았으나, 이러한 방법을 수행하는 각 단계는 상기 설명한 순서로 한정되는 것은 아니며, 본 발명의 목적을 달성할 수 있다면 각 단계의 순서를 다양하게 변경할 수도 있을 것이다. 예를 들어, 본 발명의 실시예들에 대한 설명에서는 구매상품에 대한 결제승인 후 쇼핑몰이 배송지 주소나 배송대행업체 정보 등을 자동배송대행업체로 전송하고, 자동배송대행업체는 배송대행업체의 주소나 배송료 정보 등을 쇼핑몰로 제공하였으나, 결제승인이 일어나기 전에 상기 정보들을 주고받을 수도 있을 것이다.Although various methods of the delivery agent application of the present invention have been described above, the steps of performing the method are not limited to the above-described order, and if the object of the present invention can be achieved, It might be. For example, in the description of the embodiments of the present invention, the shopping mall transmits the shipping address or the delivery agent information to the automatic shipping agent after the approval of the payment for the purchased product, and the automatic shipping agent sends the address of the shipping agent And shipping information to the shopping mall, but the information may be sent and received before payment approval occurs.
또한 다양한 실시 예들에 따른 장치 또는 시스템은 전술한 구성요소들 중 적어도 하나 이상을 포함하거나, 일부가 생략되거나, 또는 추가적인 다른 구성요소를 더 포함할 수 있다. 그리고 본 문서에 개시된 실시 예는 개시된 기술 내용의 설명 및 이해를 위해 제시된 것이며 본 발명의 범위를 한정하는 것은 아니다. 따라서 본 문서의 범위는 본 발명의 기술적 사상에 근거한 모든 변경 또는 다양한 다른 실시 예를 포함하는 것으로 해석되어야 한다.Also, an apparatus or system according to various embodiments may include at least one or more of the above-described elements, some of which may be omitted, or may further include additional other elements. And the embodiments disclosed in this document are presented for the purpose of explanation and understanding of the disclosed technical contents, and do not limit the scope of the present invention. Accordingly, the scope of this document should be interpreted to include all modifications based on the technical idea of the present invention or various other embodiments.
음성 인식 장치(100)
문자 변환 장치(110)
문자 표시 장치(120)The
The character conversion device (110)
In the
Claims (18)
수신된 음성 데이터로부터 문자 데이터를 추출하는 문자 데이터 변환부;
상기 추출된 문자 데이터를 문자 표시 장치로 전송하는 전송부를 포함하는 것을 특징으로 하는 문자 변환 장치.
A receiving unit for receiving voice data from a voice recognition device for recognizing a voice signal from outside;
A character data conversion unit for extracting character data from the received voice data;
And a transmitting unit for transmitting the extracted character data to a character display device.
수신된 음성 데이터를 분석하여 화자별로 분류하는 화자 분석부를 더 포함하는 것을 특징으로 하는 문자 변환 장치.
The method according to claim 1,
And analyzing the received voice data and classifying the received voice data by a speaker.
미리 결정된 음성 데이터에 매칭되는 미리 결정된 문자 데이터를 저장하고 있는 저장부를 더 포함하는 것을 특징으로 하는 문자 변환 장치.
The method according to claim 1,
And a storage unit for storing predetermined character data matched with the predetermined voice data.
상기 문자 데이터 변환부는 수신된 음성 데이터 중 신뢰도 평가를 하여 신뢰도가 높은 음성 데이터를 우선적으로 문자 데이터로 추출하는 것을 특징으로 하는 문자 변환 장치.
The method according to claim 1,
Wherein the character data conversion unit performs reliability evaluation of the received voice data and preferentially extracts voice data having high reliability as character data.
수신된 상기 음성 신호를 음성 데이터로 변환하는 음성 데이터 변환부; 및
변환된 상기 음성 데이터를 문자 데이터로 변환하는 문자 변환 장치로 전송하는 전송부를 포함하는 것을 특징으로 하는 음성 인식 장치.
A voice signal recognizing unit for receiving a voice signal from outside;
A voice data conversion unit for converting the received voice signal into voice data; And
And a transmitting unit for transmitting the converted voice data to a character converting apparatus that converts the converted voice data into character data.
상기 수신된 음성 신호를 증폭시키는 음성 신호 증폭부를 더 포함하는 것을 특징으로 하는 음성 인식 장치.
The method of claim 5,
And a voice signal amplifying unit for amplifying the received voice signal.
상기 음성 신호 인식부는 원거리 줌(zoom) 마이크인 것을 특징으로 하는 음성 인식 장치.
The method of claim 5,
Wherein the speech signal recognition unit is a remote zoom microphone.
수신된 음성 신호를 음성 데이터로 변환하는 음성 데이터 변환부;
변환된 상기 음성 데이터로부터 문자를 추출하는 문자 데이터 변환부; 및
변환된 상기 문자 데이터를 문자 표시 장치로 전송하는 전송부를 포함하는 것을 특징으로 하는 문자 변환 장치.
A voice signal recognizing unit for receiving a voice signal from outside;
A voice data conversion unit for converting the received voice signal into voice data;
A character data conversion unit for extracting characters from the converted voice data; And
And a transmitting unit for transmitting the converted character data to a character display device.
상기 음성 데이터를 분석하여 화자별로 분류하는 화자 분석부를 더 포함하는 것을 특징으로 하는 문자 변환 장치.
The method of claim 8,
Further comprising: a speaker analyzing unit for analyzing the speech data and classifying the speech data by speakers.
미리 결정된 음성 데이터에 매칭되는 미리 결정된 문자 데이터를 저장하고 있는 저장부를 더 포함하는 것을 특징으로 하는 문자 변환 장치.
The method of claim 8,
And a storage unit for storing predetermined character data matched with the predetermined voice data.
상기 문자 데이터 변환부는 수신된 음성 데이터 중 신뢰도 평가를 하여 신뢰도가 높은 음성 데이터를 우선적으로 문자 데이터로 추출하는 것을 특징으로 하는 문자 변환 장치.
The method of claim 8,
Wherein the character data conversion unit performs reliability evaluation of the received voice data and preferentially extracts voice data having high reliability as character data.
상기 수신된 음성 신호를 증폭시키는 음성 신호 증폭부를 더 포함하는 것을 특징으로 하는 음성 인식 장치.
The method of claim 8,
And a voice signal amplifying unit for amplifying the received voice signal.
상기 음성 신호 인식부는 원거리 줌 마이크인 것을 특징으로 하는 음성 인식 장치.
The method of claim 8,
Wherein the voice signal recognizing unit is a far-range zoom microphone.
수신된 음성 신호를 음성 데이터를 변환하는 음성 데이터 변환부;
변환된 상기 음성 데이터를 문자 데이터로 변환하는 문자 변환 장치로 전송하는 전송부; 및
상기 문자 변환 장치로부터 수신받은 문자 데이터를 표시하는 표시부를 포함하는 것을 특징으로 하는 문자 표시 장치.
A voice signal recognizing unit for receiving a voice signal from outside;
A voice data conversion unit for converting voice data of a received voice signal;
A transmitting unit for transmitting the converted voice data to a character converting apparatus for converting the voice data into character data; And
And a display unit for displaying the character data received from the character conversion apparatus.
상기 음성 신호 인식부는 지향성 원거리 줌 마이크를 통하여 음성 신호를 수신하는 것을 특징으로 하는 문자 표시 장치.
15. The method of claim 14,
Wherein the voice signal recognizing unit receives the voice signal through the directional remote zoom microphone.
추출된 음성 데이터의 특징을 기초하여 음성 데이터를 화자 별로 분류하여 화자 정보를 생성하는 단계;
추출된 음성 데이터의 특징을 기초하여 음성 데이터를 상응하는 문자 데이터로 변환하는 단계; 및
화자 정보와 변환된 문자 데이터를 문자 표시 장치로 전송하는 단계를 포함하는 것을 특징으로 하는 음성 신호에 기초한 문자 생성 방법.
Receiving voice data and extracting features from the voice data;
Generating speaker information by classifying the speech data according to the speaker based on the characteristics of the extracted speech data;
Converting the speech data into corresponding character data based on the characteristics of the extracted speech data; And
And transmitting the speaker information and the converted character data to a character display device.
상기 음성 데이터의 특징은 음성 신호의 피치, 에너지 또는 음성 신호 수신 방향인 음성 신호에 기초한 문자 생성 방법.
18. The method of claim 16,
Wherein the characteristic of the voice data is a pitch, an energy of the voice signal, or a voice signal which is the voice signal receiving direction.
상기 문자 데이터로 변환하는 단계는,
추출된 음성 데이터 중 신뢰도 평가를 하여 신뢰도가 높은 음성 데이터를 우선적으로 문자 데이터로 변환하는 것을 특징으로 하는 음성 신호에 기초한 문자 생성 방법.
18. The method of claim 16,
The step of converting into the character data comprises:
And the reliability of the extracted voice data is evaluated to convert the voice data having high reliability into the character data with priority.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020160170560A KR20180068655A (en) | 2016-12-14 | 2016-12-14 | apparatus and method for generating text based on audio signal |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020160170560A KR20180068655A (en) | 2016-12-14 | 2016-12-14 | apparatus and method for generating text based on audio signal |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20180068655A true KR20180068655A (en) | 2018-06-22 |
Family
ID=62768563
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020160170560A KR20180068655A (en) | 2016-12-14 | 2016-12-14 | apparatus and method for generating text based on audio signal |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR20180068655A (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102075506B1 (en) * | 2019-07-17 | 2020-03-02 | 주식회사 리논 | A System Providing Matching Platform Of Specialists Based on Video |
-
2016
- 2016-12-14 KR KR1020160170560A patent/KR20180068655A/en active Search and Examination
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102075506B1 (en) * | 2019-07-17 | 2020-03-02 | 주식회사 리논 | A System Providing Matching Platform Of Specialists Based on Video |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103327181B (en) | Voice chatting method capable of improving efficiency of voice information learning for users | |
US8515728B2 (en) | Language translation of visual and audio input | |
EP2574220B1 (en) | Hand-held communication aid for individuals with auditory, speech and visual impairments | |
US20060173859A1 (en) | Apparatus and method for extracting context and providing information based on context in multimedia communication system | |
Mostefa et al. | The CHIL audiovisual corpus for lecture and meeting analysis inside smart rooms | |
CN108847214B (en) | Voice processing method, client, device, terminal, server and storage medium | |
CN107527623B (en) | Screen transmission method and device, electronic equipment and computer readable storage medium | |
US20090012788A1 (en) | Sign language translation system | |
US20080109208A1 (en) | Interactive conversational speech communicator method and system | |
US11281707B2 (en) | System, summarization apparatus, summarization system, and method of controlling summarization apparatus, for acquiring summary information | |
KR102219943B1 (en) | Server and system for controlling smart microphone | |
CN112653902A (en) | Speaker recognition method and device and electronic equipment | |
CN110379406B (en) | Voice comment conversion method, system, medium and electronic device | |
KR20190100694A (en) | Method for judging learning achievement method based on user's handwritten data, smart device, server and system for the same | |
JP2015041101A (en) | Foreign language learning system using smart spectacles and its method | |
US20110208523A1 (en) | Voice-to-dactylology conversion method and system | |
CN112599130A (en) | Intelligent conference system based on intelligent screen | |
KR20180068655A (en) | apparatus and method for generating text based on audio signal | |
CN105450970A (en) | Information processing method and electronic equipment | |
KR20130097985A (en) | Method and apparatus for two-way communications | |
EP2977983A1 (en) | Note-taking assistance system, information delivery device, terminal, note-taking assistance method, and computer-readable recording medium | |
US20180300316A1 (en) | System and method for performing message translations | |
KR20200123054A (en) | Voice recognition device | |
KR102312798B1 (en) | Apparatus for Lecture Interpretated Service and Driving Method Thereof | |
JP6766981B2 (en) | Broadcast system, terminal device, broadcasting method, terminal device operation method, and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
AMND | Amendment | ||
E902 | Notification of reason for refusal | ||
AMND | Amendment | ||
E601 | Decision to refuse application | ||
AMND | Amendment |