KR20230013473A - 화자들의 음성을 처리하기 위한 장치 및 방법 - Google Patents
화자들의 음성을 처리하기 위한 장치 및 방법 Download PDFInfo
- Publication number
- KR20230013473A KR20230013473A KR1020210094265A KR20210094265A KR20230013473A KR 20230013473 A KR20230013473 A KR 20230013473A KR 1020210094265 A KR1020210094265 A KR 1020210094265A KR 20210094265 A KR20210094265 A KR 20210094265A KR 20230013473 A KR20230013473 A KR 20230013473A
- Authority
- KR
- South Korea
- Prior art keywords
- voice
- speakers
- language
- speaker
- voices
- Prior art date
Links
- 238000012545 processing Methods 0.000 title claims abstract description 150
- 238000000034 method Methods 0.000 title claims description 24
- 238000013519 translation Methods 0.000 claims abstract description 89
- 230000004044 response Effects 0.000 claims abstract description 10
- 230000005236 sound signal Effects 0.000 claims description 13
- 238000004891 communication Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 7
- 238000000926 separation method Methods 0.000 description 6
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000011017 operating method Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
- G10L21/028—Voice signal separating using properties of sound source
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Otolaryngology (AREA)
- Machine Translation (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
Description
도 2는 본 발명의 실시 예들에 따른 음성 처리 장치를 나타낸다.
도 3은 본 발명의 실시 예들에 따른 음성 처리 장치의 동작을 설명하기 위한 도면이다.
도 4는 본 발명의 실시 예들에 따른 음성 처리 장치에 의한 음성 분리 방법을 나타내는 플로우 차트이다.
도 5는 본 발명의 실시 예들에 따른 음성 처리 장치의 번역 기능을 설명하기 위한 도면이다.
도 6은 본 발명의 실시 예들에 따른 음성 처리 장치의 번역 기능을 설명하기 위한 도면이다.
도 7는 본 발명의 실시 예들에 따른 음성 처리 장치에 의한 번역 결과의 생성 방법을 나타내는 플로우 차트이다.
도 8은 본 발명의 실시 예들에 따른 음성 처리 장치의 동작을 설명하기 위한 도면이다.
100: 음성 처리 장치 200: 번역 서버
110: 마이크 120: 통신 회로
130: 프로세서 140: 메모리
150: 스피커
Claims (7)
- 화자들의 음성에 대한 번역 결과를 생성하도록 구성되는 음성 처리 장치에 있어서,
화자들의 음성에 응답하여, 화자들의 음성과 연관된 음성 신호를 생성하도록 구성되는 마이크;
화자들의 음성의 음원 위치에 대응하는 언어를 나타내는 위치-언어 정보를 저장하도록 구성되는 메모리;
상기 음성 신호 및 위치-언어 정보를 이용하여 화자들 각각의 음성의 언어를 번역한 번역 결과를 생성하고, 번역 결과를 이용하여, 다른 언어로 표현된 화자들 각각의 음성 내용이 포함된 번역문 회의록을 생성하도록 구성되는 프로세서를 포함하는,
음성 처리 장치. - 제1항에 있어서, 상기 프로세서는,
마이크로부터 생성된 음성 신호를 이용하여, 화자들의 음성의 음원 위치를 결정하고, 결정된 음원 위치를 나타내는 음원 위치 정보를 생성하고,
상기 음성 신호로부터 각 음원 위치에서 발화된 음성과 연관된 분리 음성 신호를 생성하고,
상기 메모리에 저장된 위치-언어 정보를 이용하여, 화자들의 음성의 현재 언어를 결정하고,
상기 분리 음성 신호와 결정된 현재 언어를 이용하여, 화자들의 음성의 현재 언어가 다른 언어로 번역된 번역 결과를 생성하는,
음성 처리 장치. - 제2항에 있어서,
상기 마이크는 어레이를 이루도록 배치된 복수의 마이크들을 포함하고, 상기 복수의 마이크들은 상기 화자들의 음성에 응답하여 상기 음성 신호를 생성하고,
상기 프로세서는,
상기 복수의 마이크들로부터 생성된 복수의 음성 신호들 사이의 시간 지연에 기초하여, 상기 음원 위치를 결정하는,
음성 처리 장치. - 제2항에 있어서, 상기 프로세서는,
상기 메모리에 저장된 위치-언어 정보를 이용하여, 화자들 각각의 음성의 현재 언어가 번역될 다른 언어를 결정하고,
결정된 현재 언어 및 다른 언어에 따라, 화자들의 음성의 현재 언어가 다른 언어로 번역된 번역 결과를 생성하는,
음성 처리 장치. - 제4항에 있어서, 상기 프로세서는,
화자들의 음성과 연관된 음성 신호를 이용하여 화자들 중 제1화자의 음성의 음원 위치를 나타내는 제1음원 위치 정보를 생성하고,
상기 음성 신호와 상기 제1음원 위치 정보를 이용하여, 상기 제1화자의 음성과 연관된 제1분리 음성 신호를 생성하고,
상기 메모리에 저장된 위치-언어 정보를 참조하여, 상기 제1음원 위치 정보에 대응하는 제1화자의 음성의 언어를 결정하고,
상기 메모리에 저장된 위치-언어 정보를 참조하여, 상기 화자들 중 상기 제1화자를 제외한 나머지 화자들의 음성의 언어를 결정하고,
상기 제1분리 음성 신호를 이용하여, 상기 제1화자의 음성의 언어가 나머지 화자들의 음성의 언어로 번역된 번역 결과를 생성하는,
음성 처리 장치. - 제2항에 있어서, 상기 프로세서는,
상기 분리 음성 신호를 이용하여 화자들의 음성의 현재 언어로 표현된 화자들 각각의 음성 내용이 포함된 원문 회의록을 생성하는,
음성 처리 장치. - 제1항에 있어서, 상기 프로세서는,
상기 번역문 회의록을 생성하고, 상기 번역 결과를 텍스트 변환하고, 텍스트 데이터를 상기 번역문 회의록에 기록하는,
음성 처리 장치.
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020210094265A KR20230013473A (ko) | 2021-07-19 | 2021-07-19 | 화자들의 음성을 처리하기 위한 장치 및 방법 |
PCT/KR2022/010276 WO2023003271A1 (ko) | 2021-07-19 | 2022-07-14 | 화자들의 음성을 처리하기 위한 장치 및 방법 |
CN202280062878.0A CN117980989A (zh) | 2021-07-19 | 2022-07-14 | 用于处理说话者的语音的设备和方法 |
US18/580,554 US20240419926A1 (en) | 2021-07-19 | 2022-07-14 | Device and method for processing voices of speakers |
JP2024503740A JP2024526924A (ja) | 2021-07-19 | 2022-07-14 | 話し手の音声を処理するための装置および方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020210094265A KR20230013473A (ko) | 2021-07-19 | 2021-07-19 | 화자들의 음성을 처리하기 위한 장치 및 방법 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20230013473A true KR20230013473A (ko) | 2023-01-26 |
Family
ID=84979437
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020210094265A KR20230013473A (ko) | 2021-07-19 | 2021-07-19 | 화자들의 음성을 처리하기 위한 장치 및 방법 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20240419926A1 (ko) |
JP (1) | JP2024526924A (ko) |
KR (1) | KR20230013473A (ko) |
CN (1) | CN117980989A (ko) |
WO (1) | WO2023003271A1 (ko) |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015060095A (ja) * | 2013-09-19 | 2015-03-30 | 株式会社東芝 | 音声翻訳装置、音声翻訳方法およびプログラム |
JP6975876B2 (ja) * | 2015-10-23 | 2021-12-01 | パナソニックIpマネジメント株式会社 | 翻訳システム |
JP6737141B2 (ja) * | 2016-11-17 | 2020-08-05 | 富士通株式会社 | 音声処理方法、音声処理装置、及び音声処理プログラム |
KR101989127B1 (ko) * | 2017-05-31 | 2019-09-30 | 네이버랩스 주식회사 | 번역 장치, 번역 방법 및 번역 컴퓨터 프로그램 |
KR102395013B1 (ko) * | 2017-09-05 | 2022-05-04 | 엘지전자 주식회사 | 인공지능 홈 어플라이언스 및 음성 인식 서버 시스템의 동작 방법 |
-
2021
- 2021-07-19 KR KR1020210094265A patent/KR20230013473A/ko not_active Application Discontinuation
-
2022
- 2022-07-14 US US18/580,554 patent/US20240419926A1/en active Pending
- 2022-07-14 JP JP2024503740A patent/JP2024526924A/ja active Pending
- 2022-07-14 CN CN202280062878.0A patent/CN117980989A/zh active Pending
- 2022-07-14 WO PCT/KR2022/010276 patent/WO2023003271A1/ko active Application Filing
Also Published As
Publication number | Publication date |
---|---|
CN117980989A (zh) | 2024-05-03 |
US20240419926A1 (en) | 2024-12-19 |
JP2024526924A (ja) | 2024-07-19 |
WO2023003271A1 (ko) | 2023-01-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9293134B1 (en) | Source-specific speech interactions | |
JP2016009193A (ja) | ユーザ適合音声認識 | |
CN102549654A (zh) | 语音翻译系统、控制装置以及控制方法 | |
US11182567B2 (en) | Speech translation apparatus, speech translation method, and recording medium storing the speech translation method | |
JP2011504624A (ja) | 自動同時通訳システム | |
JP2019090942A (ja) | 情報処理装置、情報処理システム、情報処理方法、および情報処理プログラム | |
KR20180012639A (ko) | 음성 인식 방법, 음성 인식 장치, 음성 인식 장치를 포함하는 기기, 음성 인식 방법을 수행하기 위한 프로그램을 저장하는 저장 매체, 및 변환 모델을 생성하는 방법 | |
KR20210036169A (ko) | 대화 시스템, 대화 처리 방법, 번역 장치 및 번역 방법 | |
JP4667085B2 (ja) | 音声対話システム、コンピュータプログラム、対話制御装置及び音声対話方法 | |
KR20180066513A (ko) | 자동 통역 방법 및 장치, 및 기계 번역 방법 | |
KR20230013473A (ko) | 화자들의 음성을 처리하기 위한 장치 및 방법 | |
JP2011221237A (ja) | 音声出力装置、そのコンピュータプログラムおよびデータ処理方法 | |
JP2015187738A (ja) | 音声翻訳装置、音声翻訳方法および音声翻訳プログラム | |
KR20220022674A (ko) | 음성 데이터를 처리하기 위한 음성 처리 장치 및 이의 작동 방법 | |
KR20220042009A (ko) | 차량과 통신할 수 있는 음성 처리 장치 및 이의 작동 방법 | |
KR20250010867A (ko) | 언어 모델이 탑재된 음성 처리 시스템 및 이에 포함되는 음성 처리 장치 | |
KR20250014162A (ko) | 언어 모델이 탑재된 다중 화자 음성 번역 시스템 | |
US20230377594A1 (en) | Mobile terminal capable of processing voice and operation method therefor | |
KR102575293B1 (ko) | 음성을 처리하기 위한 음성 처리 장치, 음성 처리 시스템 및 음성 처리 방법 | |
KR20250014947A (ko) | 언어 모델이 탑재된 토론 지원 시스템 | |
KR20250011284A (ko) | 언어 모델이 탑재된 대화형 음성 처리 시스템 및 이에 포함된 음성 처리 장치 | |
KR20250014618A (ko) | 언어 모델이 탑재된 언어 튜터링 시스템 | |
KR20220042509A (ko) | 음성 처리 장치 및 이의 작동 방법 | |
KR20250011281A (ko) | 언어 모델이 탑재되어 차량과 연계된 음성 처리 시스템 및 이에 포함되는 음성 처리 장치 | |
KR20250011283A (ko) | 언어 모델이 탑재되어 키오스크와 연동된 음성 처리 시스템 및 이에 포함된 음성 처리 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PA0109 | Patent application |
Patent event code: PA01091R01D Comment text: Patent Application Patent event date: 20210719 |
|
PA0201 | Request for examination |
Patent event code: PA02012R01D Patent event date: 20220712 Comment text: Request for Examination of Application Patent event code: PA02011R01I Patent event date: 20210719 Comment text: Patent Application |
|
PG1501 | Laying open of application | ||
E902 | Notification of reason for refusal | ||
PE0902 | Notice of grounds for rejection |
Comment text: Notification of reason for refusal Patent event date: 20250115 Patent event code: PE09021S01D |