WO2021107218A1 - 음성 데이터의 프라이버시 보호를 위한 방법 및 디바이스 - Google Patents

음성 데이터의 프라이버시 보호를 위한 방법 및 디바이스 Download PDF

Info

Publication number
WO2021107218A1
WO2021107218A1 PCT/KR2019/016711 KR2019016711W WO2021107218A1 WO 2021107218 A1 WO2021107218 A1 WO 2021107218A1 KR 2019016711 W KR2019016711 W KR 2019016711W WO 2021107218 A1 WO2021107218 A1 WO 2021107218A1
Authority
WO
WIPO (PCT)
Prior art keywords
voice
segments
voice data
privacy
preliminary
Prior art date
Application number
PCT/KR2019/016711
Other languages
English (en)
French (fr)
Inventor
이태훈
Original Assignee
주식회사 공훈
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 공훈 filed Critical 주식회사 공훈
Priority to PCT/KR2019/016711 priority Critical patent/WO2021107218A1/ko
Publication of WO2021107218A1 publication Critical patent/WO2021107218A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W12/00Security arrangements; Authentication; Protecting privacy or anonymity
    • H04W12/02Protecting privacy or anonymity, e.g. protecting personally identifiable information [PII]

Definitions

  • Embodiments of this disclosure relate to the field of voice interactions.
  • voice recognition based devices and services continues to increase.
  • devices such as Naver Clova, Kakao Mini, Amazon Echo, and Google Home are used in millions of homes around the world, and Samsung Bixby
  • services such as , Apple Siri, and Microsoft Cortana is becoming more common.
  • Speech recognition based devices capture natural speech from users via microphones, analyze user queries, and provide appropriate responses or services.
  • User queries can not only use the device or other devices (eg, turning off the TV), but also use external services (eg, retrieving weather forecast or stock prices, and responding to device failures). getting help, etc.).
  • Modern speech recognition-based devices also perform speaker recognition.
  • speaker recognition may have a number of features, such as controlling the user's access (eg, the child cannot configure a home network, cannot access adult movies, etc.), personalization of interactions (eg, The interactive vocabulary can be adapted to the speaker's category chosen among young children, adolescents, adults, or the elderly).
  • An object of the technical idea of the present disclosure is to provide a method and a device for performing processing for privacy protection on voice data so that privacy voice commands and conversation contents cannot be confirmed from the voice data.
  • a method for privacy preserving of voice data comprising: acquiring voice data representing a speaker's voice utterance; extracting predetermined voice segments from the voice data; and generating privacy-preserving voice data based on the voice segments.
  • the extracting may include filtering the voice data and extracting the voice segments, at least a part of which has a distinctive feature, from the voice data.
  • the distinguishing characteristic may include at least one of rupturability, friability, and frictional property.
  • each of the speech segments may be a unit element of any one of a syllable, a word, and a word.
  • the extracting may include filtering the voice data and dividing the first preliminary voice segments having the distinctive feature into second preliminary voice segments not having the distinctive feature. ; and extracting the voice segments for generating the privacy protection voice data by selecting at least a portion of the first preliminary voice segments or selecting the first and second preliminary voice segments at a predetermined ratio according to a preset condition. step; may include.
  • generating the privacy-preserving voice data includes: shuffling at least a portion of the voice segments; and generating the privacy-preserving voice data using the shuffled voice segments.
  • the generating of the privacy-preserving voice data may include generating the privacy-preserving voice data by using the voice segments as it is.
  • a device for protecting the privacy of voice data comprising: at least one processor; and a memory electrically coupled to the processor, wherein the memory, when the processor is executed, extracts predetermined speech segments from speech data representing a speaker's speech utterance, and protects privacy based on the speech segments
  • a device is provided that stores instructions for generating voice data.
  • FIG. 1 is an exemplary diagram for explaining a system for protecting the privacy of voice data according to an embodiment of the present disclosure.
  • FIG. 2 is an exemplary flowchart illustrating a method for protecting the privacy of voice data according to an embodiment of the present disclosure.
  • 3 and 4 are diagrams for explaining an embodiment of step S230 of FIG. 2 .
  • 5 and 6 are diagrams for explaining an embodiment of step S250 of FIG. 2 .
  • a component when referred to as “connected” or “connected” with another component, the component may be directly connected or directly connected to the other component, but in particular It should be understood that, unless there is a description to the contrary, it may be connected or connected through another element in the middle.
  • ⁇ unit means a unit that processes at least one function or operation, which is a processor, a micro Processor (Micro Processor), Application Processor (Application Processor), Micro Controller (Micro Controller), CPU (Central Processing Unit), GPU (Graphics Processing Unit), APU (Accelerate Processor Unit), DSP (Digital Signal Processor), ASIC ( It may be implemented by hardware or software such as an Application Specific Integrated Circuit, FPGA, or the like, or a combination of hardware and software.
  • Micro Processor Micro Processor
  • Application Processor Application Processor
  • Micro Controller Micro Controller
  • CPU Central Processing Unit
  • GPU Graphics Processing Unit
  • APU Accelerate Processor Unit
  • DSP Digital Signal Processor
  • ASIC It may be implemented by hardware or software such as an Application Specific Integrated Circuit, FPGA, or the like, or a combination of hardware and software.
  • each of the constituent units in the present disclosure is merely a division for each main function in charge of each constituent unit. That is, two or more components to be described below may be combined into one component, or one component may be divided into two or more for each more subdivided function.
  • each of the constituent units to be described below may additionally perform some or all of the functions of other constituent units in addition to the main function it is responsible for. Of course, it may be carried out by being dedicated to it.
  • FIG. 1 is an exemplary diagram for explaining a system for protecting the privacy of voice data according to an embodiment of the present disclosure.
  • a system 10 may include a device 100 and a database 200 .
  • 1 illustrates that the device 100 and the database 200 are separately implemented for convenience, this is only an example, and the device 100 and the database 200 may be integrated.
  • the device 100 and the database 200 may be implemented in plurality so that each of the device 100 and the database 200 perform the same function or share some functions. .
  • the device 100 is, for example, implemented as an independent voice recognition-based home assistance device, or a user device such as a set-top box, gateway, television, computer, smartphone, tablet, etc. to which a voice recognition-based service is applied. may be, or may be incorporated into them.
  • a user device such as a set-top box, gateway, television, computer, smartphone, tablet, etc. to which a voice recognition-based service is applied. may be, or may be incorporated into them.
  • a case in which the device 100 is an independent home assistance device will be described as an example.
  • the device 100 may include a voice data acquisition unit 110 , a voice segment extraction unit 130 , and a privacy protection voice data generation unit 150 .
  • the voice data acquisition unit 110 may acquire voice data representing the voice utterance of at least one speaker.
  • the voice data acquisition unit 110 is configured to capture voice utterances generated by a user, that is, a speaker, and generate digital type voice data from a corresponding analog type voice.
  • it may include a microphone, an analog-to-digital converter, and the like.
  • the voice data acquisition unit 110 may receive the speaker's voice data from other home assistance devices or user devices that are communicatively coupled to the device 100 .
  • the voice segment extractor 130 may extract predetermined voice segments from the voice data acquired by the voice data acquirer 110 .
  • the voice segment extractor 130 may extract voice segments at least partially having a distinctive feature from the voice data.
  • the at least some of the voice segments extracted by the voice segment extracting unit 130 having distinctive characteristics may be used by the privacy-preserving voice data generating unit 150 to generate the privacy-preserving voice data.
  • the distinctive feature is a feature used for classifying phonemes (phonemes), and may be a linguistic feature advantageous for identifying a speaker corresponding to the acquired voice data.
  • the distinguishing characteristic may include at least one of rupture property, friability property, and friction property.
  • the present invention is not limited thereto.
  • the distinctive feature may further include voiced, non-voiced, continuity, semivowel, non-voicing, and the like.
  • the voice segments may be unit elements of sentences constituting the acquired voice data.
  • each of the voice segments may be any one of a syllable, a word, and a word.
  • the voice segments may be the same unit element, but the present invention is not limited thereto. At least some of the voice segments may be different unit elements.
  • the speech segments have the distinctive feature is a criterion such that the speech feature values (eg, speech feature vectors, parameter values, etc.) of the speech segments are equal to or greater than a predetermined reference value related to the distinctive feature. Note that it is a concept that includes cases that satisfy
  • the voice segment extractor 130 may filter the voice data to distinguish first preliminary voice segments having the distinctive feature and second preliminary voice segments not having the distinctive feature.
  • the first preliminary voice segments may be voice segments having any one of a plurality of distinctive features, for example, friability and burstability.
  • the voice segment extractor 130 may repeat the process for extracting the first preliminary voice segments for each distinctive feature from the voice data.
  • the voice segment extractor 130 may perform a process for extracting the first preliminary voice segments related to all distinctive features from the voice data once.
  • the first preliminary voice segments may be voice segments having only one distinguishing characteristic, for example, friability.
  • the speech segment extractor 130 may select the other distinctive feature. Filtering may be additionally performed.
  • the voice segment extractor 130 may determine the remaining voice segments excluding the first preliminary voice segments as the second preliminary voice segments.
  • the voice segment extractor 130 may determine whether at least a portion of the first or second preliminary voice segments overlaps, and converts at least a portion into the final first or second preliminary voice segment according to whether or not they overlap.
  • the above-described duplication is a concept including a case in which a unit element of a preset voice segment or a unit element smaller than that coincides.
  • the above-described duplication may include a case in which the word itself matches or a word that is a unit element smaller than the word matches.
  • the voice segment extractor 130 When a part of the first or second preliminary voice segments overlap, the voice segment extractor 130 combines the redundant preliminary voice segments to obtain preset voice characteristic values (eg, voice feature vectors and parameter values). A preliminary voice segment having a close characteristic value may be determined as a final preliminary voice segment. In other words, the voice segment extractor 130 may analyze the voice characteristic values of the redundant preliminary voice segments, and determine a preliminary voice segment having a voice characteristic value close to a preset value as the final preliminary voice segment. .
  • preset voice characteristic values eg, voice feature vectors and parameter values
  • the voice segment extractor 130 may determine them as final preliminary voice segments as they are.
  • the voice segment extractor 130 may use only some of the overlapping voice segments for subsequent processing in order to improve the efficiency of extraction and management in extracting the voice segments.
  • the voice segment extractor 130 may use the extracted voice segments as the final voice segments while including the overlapping voice segments.
  • the voice segment extractor 130 may select at least some of the first preliminary voice segments according to a preset condition to extract voice segments (privacy protection voice segments) used to generate the privacy protection voice data.
  • the preset condition is that, in consideration of the application of the privacy-protected voice data to a service such as speaker identification, the type, number, etc. of the first preliminary voice segments sufficient to express the characteristics of the speaker related to the privacy-protected voice data can
  • the voice segment extractor 130 may extract the privacy protection voice segments by selecting a part of the first preliminary voice segments and a part of the second preliminary voice segments at a predetermined ratio according to the preset condition.
  • the preset condition may also be the type, number, etc. of the first and second preliminary voice segments sufficient to express the speaker's characteristics related to the privacy-preserving voice data.
  • the ratio may be a ratio of the number of the first preliminary voice segments to the number of the second preliminary voice segments, and the number of the first preliminary voice segments may be greater than the number of the second preliminary voice segments. .
  • the voice segment extractor 130 may extract the remaining first and second preliminary voice segments that are not selected as the voice segments for privacy protection as voice segments for reference.
  • the reference voice segments may be used by the privacy protection voice data generator 150 to generate reference voice data such as training data for improving voice recognition performance.
  • the voice segment extractor 130 includes a feature analyzer for extracting feature quantities of voice segments, and a syllable corresponding to a voice segment based on the feature quantities.
  • a classifier for searching and identifying words, phrases, etc. may be included.
  • reference data necessary for a search may be stored in a predetermined storage space of the device 100 itself or in the database 200 .
  • the privacy protection voice data generator 150 may generate the privacy protection voice data based on the extracted predetermined voice segments, that is, at least some of the privacy protection voice segments having distinctive characteristics. In other words, the privacy protection voice data generation unit 150 may reconstruct the extracted predetermined voice segments to generate privacy protection voice data in a form in which the user's voice content related to the original voice data cannot be identified. have.
  • the privacy protection voice data generator 150 may shuffle at least a portion of the privacy protection voice segments and generate the privacy protection voice data using the shuffled voice segments.
  • the privacy protection voice data generation unit 150 may randomly shuffle (shuffle) all or part of the privacy protection voice segments in chronological order and serialize the shuffled voice segments to generate the privacy protection voice data. have.
  • the privacy protection voice data generation unit 150 may generate the privacy protection voice data by serializing the privacy protection voice segments as it is.
  • the privacy protection voice data generator 150 may generate reference voice data using the reference voice segments.
  • the privacy-protected voice data generator 150 may generate the reference voice data by shuffling the reference voice segments or using them as they are, similarly to the method of generating the privacy-preserving voice data.
  • the device 100 may configure the user's voice information PRVI based on the tag (TAG) including the generated privacy protection voice data (PRVD) and corresponding user identification information (ID), etc.
  • the voice information PRVI may be transmitted to the database 200 .
  • the device 100 may transmit the generated reference voice data RVD as it is, or configure the reference voice information RVI based on the reference voice data RVD and predetermined information and transmit it to the database 200 .
  • the database 200 may store and manage voice information PRVI for a plurality of users.
  • the database 200 may process and store data included in the voice information PRVI so that the voice information PRVI for a plurality of users can be used as reference information for identifying the corresponding users.
  • the database 200 may store and manage reference voice data RVD and/or reference voice information RVI.
  • the database 200 may process and store the reference voice data (RVD) and/or the reference voice information (RVI) to be utilized in machine learning for improving voice recognition performance.
  • the device 100 extracts predetermined voice segments from voice data corresponding to the user's uttered voice, and generates privacy protection voice data in which voice data is reconstructed using the extracted voice segments. and transmitted to the database 200 . Accordingly, the database 200 cannot confirm the content of the user's utterance unlike the original uttered voice, and can store and manage voice information in a state in which the size is greatly reduced.
  • FIG. 2 is an exemplary flowchart illustrating a method for protecting the privacy of voice data according to an embodiment of the present disclosure.
  • 3 and 4 are diagrams for explaining an embodiment of step S230 of FIG. 2 .
  • 5 and 6 are diagrams for explaining an embodiment of step S250 of FIG. 2 .
  • the method (hereinafter referred to as a method) for protecting the privacy of voice data illustrated in FIGS. 2 to 6 may be performed by the device 100 described with reference to FIG. 1 , and accordingly the content described with reference to FIG. 1 A detailed description of the same content as described above is omitted for convenience.
  • the device 100 acquires voice data ( S210 ).
  • the device 100 may generate voice data by capturing voices generated by users, that is, speakers, or may receive voice data of speakers from other devices.
  • the device 100 extracts predetermined voice segments from the acquired voice data (S230).
  • the device 100 filters the voice data to classify first preliminary voice segments having a distinctive feature and second preliminary voice segments having no distinctive feature ( S231 ). .
  • the distinctive feature may be a feature used to classify phonemes, such as rupturability, friability, friction, voiced, unvoiced, continuity, semivowel, non-voicing, and the like, and the distinctive feature is the characteristics exemplified above. It may be set to at least one or more of
  • the device 100 is 'yellow dust' (friction), 'because' (rupture), 'because' (rupture), 'sky' (friction), 'real' (friction), ' Eliminates hazy (breakable), 'cold' (friable), 'cold' (friable), 'air' (bursting), 'turbid' (rupturable), and 'dislike' (frictional) It can be determined as 1 spare voice segments.
  • the device 100 may determine 'fine dust', 'don't know', 'today', and 'too' as the second preliminary voice segments.
  • the device 100 extracts voice segments for privacy protection by selecting at least a portion of the first preliminary voice segments or selecting the first and second preliminary voice segments at a predetermined ratio according to a preset condition (S233).
  • the device 100 displays 'yellow dust' ( friction), 'sky' (friction), 'real' (friction), 'air' (rupture), and 'fine dust' and 'today' among the second preliminary voice segments to select the privacy protection voice It can be extracted as segments.
  • the selection of the first preliminary voice segments and the second preliminary voice segments may be made according to voice characteristic values of the voice segments, or may be made randomly.
  • the unit of the voice segment for privacy protection may be a word
  • the device 100 performs the unit of the voice segment for privacy protection and the first and second preliminary voice segments in the process of extracting the voice segments for privacy protection.
  • a predetermined process may be additionally performed to match the .
  • the device 100 extracts the remaining first and second preliminary voice segments not selected in step S233 as voice segments for reference ( S235 ).
  • the device 100 may detect 'because of', 'because of', 'cloudy', 'cold', 'cold', 'turbid', 'dislike', which are not selected from among the first preliminary voice segments. ' and 'I don't know' and 'too much' that are not selected from among the second preliminary voice segments may be extracted as the reference voice segments.
  • the device 100 extracts any one from overlapping preliminary voice segments, for example, 'because' and 'because', 'cold' and 'but' as the reference voice segment, respectively.
  • the device 100 may extract all redundant spare voice segments as the reference voice segments as shown in FIG. 4 .
  • the device 100 uses 'yellow dust', 'fine dust', 'today', 'sky', 'real', and 'air' to generate privacy protection voice data in a subsequent step for privacy protection voice segments. can be extracted with
  • the device 100 selectively follows 'because of', 'because of', 'don't know', 'cloudy', 'cold', 'but cold', 'turbid', 'too much', 'dislike'. In the step, it may be extracted as reference speech segments for use in generating reference speech data.
  • the device 100 generates privacy-protected voice data based on the extracted voice segments (privacy-protected voice segments) ( S250 ). Also, optionally, the device 100 generates reference voice data based on the extracted voice segments (voice segments for reference) ( S250 ).
  • the device 100 shuffles at least a portion of the extracted privacy protection voice segments ( S251 ).
  • the device 100 randomly mixes the extracted privacy-protecting voice segments in chronological order in the order of 'fine dust', 'real', 'yellow dust', 'air', 'today', 'sky'. can be rearranged.
  • the device 100 generates privacy protection voice data using the shuffled privacy protection voice segments (S253).
  • the device 100 serializes 'fine dust', 'real', 'yellow dust', 'air', 'today', and 'sky' to provide privacy protection voices such as "fine dust, real yellow dust, air today, sky" data can be generated.
  • the device 100 may generate privacy protection voice data by serializing the extracted privacy protection voice segments as necessary.
  • the device 100 shuffles at least a portion of the extracted reference voice segments (S255).
  • the device 100 randomly shuffles the reference voice segments in chronological order to 'do not know', 'cold', 'because of', 'too', 'because of', 'cloudy', 'but it is cold' ', 'dislike' can be rearranged in the same order.
  • the device 100 generates reference voice data using the shuffled reference voice segments (S257).
  • the device 100 serializes 'I don't know', 'cold', 'because', 'too', 'because of', 'cloudy', 'it's cold', and 'I don't know' to say "I don't know, but it's cold.” It is possible to generate reference voice data such as "I don't like it because it's too cold or because it's too cloudy.”
  • the device 100 may generate reference voice data by serializing the extracted reference voice segments as necessary.
  • a method for protecting the privacy of voice data uses voice segments extracted from voice data corresponding to original voice information to generate privacy-preserving voice data so that a user related to the voice data cannot be identified. .
  • the device 100 includes at least one processor for implementing the above-described voice data acquisition unit, voice segment extraction unit, and privacy protection voice data generation unit, a memory for storing and executing various data and program data, a database, and a service
  • a processor for implementing the above-described voice data acquisition unit, voice segment extraction unit, and privacy protection voice data generation unit, a memory for storing and executing various data and program data, a database, and a service
  • a permanent storage such as a disk drive
  • a communication port for communicating with an external device a user interface device such as a touch panel, a key, a button, etc.
  • a user interface device such as a touch panel, a key, a button, etc.
  • the above-described methods according to the present disclosure implemented as a software module or algorithm may be stored on a computer-readable recording medium as computer-readable codes or program instructions executable on the at least one processor.
  • the computer-readable recording medium includes a magnetic storage medium (eg, read-only memory (ROM), random-access memory (RAM), floppy disk, hard disk, etc.) and an optically readable medium (eg, CD-ROM). ), and DVD (Digital Versatile Disc)).
  • the computer-readable recording medium is distributed among computer systems connected through a network, so that the computer-readable code can be stored and executed in a distributed manner.
  • the medium is readable by a computer, stored in a memory, and executable on at least one processor.
  • the present disclosure may be represented in functional block configurations and various processing steps. These functional blocks may be implemented in any number of hardware and/or software configurations that perform specific functions.
  • the present disclosure provides integrated circuit configurations, such as memory, processing, logic, look-up table, etc., capable of executing various functions by control of one or more microprocessors or other control devices. can be hired Similar to how the components of this disclosure may be implemented as software programming or software components, this disclosure is directed to C, C++, including various algorithms implemented in a combination of data structures, processes, routines, or other programming constructs. , Java, assembler, etc. may be implemented in a programming or scripting language. Functional aspects may be implemented in an algorithm running on one or more processors.
  • 'mechanism', 'element', 'means', and 'configuration' may be used broadly and are not limited to mechanical and physical configurations. The term may include the meaning of a series of routines of software in association with a processor or the like.
  • connections or connecting members of the lines between the components shown in the drawings illustratively represent functional connections and/or physical or circuit connections, and in actual devices, various functional connections, physical connections that are replaceable or additional may be referred to as connections, or circuit connections.
  • connections or circuit connections.
  • 'essential' or 'importantly' it may not be a necessary component for the application of the present disclosure.

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computer Security & Cryptography (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Bioethics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Storage Device Security (AREA)

Abstract

본 개시의 기술적 사상에 의한 일 양태에 따르면, 화자의 음성 발화를 표현하는 음성 데이터를 획득하는 단계와, 음성 데이터로부터 소정의 음성 세그먼트들을 추출하는 단계, 및 음성 세그먼트들을 기초로 프라이버시 보호 음성 데이터를 생성하는 단계를 포함하는 음성 데이터의 프라이버시 보호를 위한 방법이 제공된다.

Description

음성 데이터의 프라이버시 보호를 위한 방법 및 디바이스
본 개시(disclosure)의 실시예들은 음성 상호 작용들의 분야에 관한 것이다.
이 부분에 기술된 내용은 단순히 본 개시의 실시예들에 대한 배경 정보를 제공할 뿐 종래기술을 구성하는 것은 아니다.
음성 인식 기반 디바이스들 및 서비스들의 보급이 계속해서 증가하고 있다. 예를 들면, 네이버 클로바(Naver Clova), 카카오 미니(Kakao Mini), 아마존 에코(Amazon Echo), 구글 홈(Google Home) 등과 같은 디바이스들이 전세계의 수백만 가정에서 사용되고 있고, 삼성 빅스비(Samsung Bixby), 애플 시리(Apple Siri), 마이크로소프트 코타나(Microsoft Cortana) 등과 같은 서비스의 사용이 보편화되고 있다.
음성 인식 기반 디바이스들(혹은 서비스가 적용된 디바이스들)은, 마이크로폰을 통해 사용자들로부터의 자연스러운 스피치를 캡처하고, 사용자 질의를 분석하며, 적절한 응답 또는 서비스를 제공한다. 사용자 질의들은 해당 디바이스나 타 디바이스들을 사용할 수 있을 뿐만 아니라(예를 들면, TV의 전원을 끄는 것 등) 외부 서비스들을 사용할 수 있다(예를 들면, 일기 예보 또는 주가를 검색하는 것, 디바이스 고장에 대해 도움을 받는 것 등).
최신의 음성 인식 기반 디바이스들은 화자 인식도 수행한다. 그러한 화자 인식은 다수의 특징들, 이를테면, 사용자의 접근 제어(예를 들면, 아이는 홈 네트워크를 구성할 수 없음, 성인 영화들에 액세스할 수 없음 등), 상호 작용들의 개인화(예를 들면, 상호 작용의 어휘는 어린 아이들, 청소년들, 성인들, 또는 고령자들 중에서 선택되는 화자의 카테고리에 적응될 수 있음)를 가능하게 한다.
이러한 음성 인식 기반의 질의/응답 서비스, 화자 인식 서비스로 인해 사용자의 생활 편의성이 크게 개선되고 있지만, 개인정보 또는 프라이버시에 대한 침해 우려도 커지고 있다. 수집, 저장된 개인의 음성 정보가 유출될 가능성이 있고, 서비스 프로바이더들이 개선된 서비스의 제공을 위해 수집, 저장된 사용자의 음성 정보를 응용하는 과정에서 개인 정보가 노출될 우려가 있기 때문이다.
따라서, 개인정보 또는 프라이버시 보호를 위한 해법이 필요하다는 것이 이해될 수 있고, 본 개시는 그러한 해법을 제공한다.
본 개시의 기술적 사상이 이루고자 하는 과제는, 음성 데이터로부터 프라이버시 음성 명령 및 대화 내용을 확인할 수 없도록 음성 데이터에 대해 프라이버시 보호를 위한 처리를 수행하는 방법 및 디바이스를 제공하는데 있다.
본 개시의 기술적 사상이 이루고자 하는 기술적 과제는 위에서 언급한 과제들로 제한되지 않으며, 언급되지 않은 또 다른 과제들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
본 개시의 기술적 사상에 의한 일 양태에 따르면, 음성 데이터의 프라이버시 보호(privacy preserving)를 위한 방법으로, 화자의 음성 발화를 표현하는 음성 데이터를 획득하는 단계; 상기 음성 데이터로부터 소정의 음성 세그먼트들을 추출하는 단계; 및 상기 음성 세그먼트들을 기초로 프라이버시 보호 음성 데이터를 생성하는 단계;를 포함하는 방법이 제공된다.
예시적인 실시예에 따르면, 상기 추출하는 단계는, 상기 음성 데이터를 필터링하여 상기 음성 데이터로부터 적어도 일부가 변별적 특징(distinctive feature)을 갖는 상기 음성 세그먼트들을 추출하는 단계;를 포함할 수 있다.
예시적인 실시예에 따르면, 상기 변별적 특징은, 파열성, 파찰성, 및 마찰성 중 적어도 하나를 포함할 수 있다.
예시적인 실시예에 따르면, 상기 음성 세그먼트들은, 각각, 음절, 낱말, 및 어절 중 어느 하나의 단위 요소일 수 있다.
예시적인 실시예에 따르면, 상기 추출하는 단계는, 상기 음성 데이터를 필터링하여, 상기 변별적 특징을 갖는 제1 예비 음성 세그먼트들과 상기 변별적 특징을 갖지 않는 제2 예비 음성 세그먼트들로 구분하는 단계; 및 기 설정된 조건에 따라, 상기 제1 예비 음성 세그먼트들의 적어도 일부를 선택하거나 소정 비율로 상기 제1 및 제2 예비 음성 세그먼트들을 선택하여, 상기 프라이버시 보호 음성 데이터를 생성하기 위한 상기 음성 세그먼트들을 추출하는 단계;를 포함할 수 있다.
예시적인 실시예에 따르면, 상기 프라이버시 보호 음성 데이터를 생성하는 단계는, 상기 음성 세그먼트들의 적어도 일부를 셔플링하는 단계; 및 상기 셔플링된 음성 세그먼트들을 이용하여 상기 프라이버시 보호 음성 데이터를 생성하는 단계;를 포함할 수 있다.
예시적인 실시예에 따르면, 상기 프라이버시 보호 음성 데이터를 생성하는 단계는, 상기 음성 세그먼트들을 그대로(intactly) 이용하여 상기 프라이버시 보호 음성 데이터를 생성하는 단계;를 포함할 수 있다.
본 개시의 기술적 사상에 의한 다른 양태에 따르면, 음성 데이터의 프라이버시 보호를 위한 디바이스로, 적어도 하나의 프로세서; 및 상기 프로세서에 전기적으로 연결된 메모리;를 포함하고, 상기 메모리는, 상기 프로세서가 실행 시에, 화자의 음성 발화를 표현하는 음성 데이터로부터 소정의 음성 세그먼트들을 추출하고, 상기 음성 세그먼트들을 기초로 프라이버시 보호 음성 데이터를 생성하도록 하는 인스트럭션들을 저장하는, 디바이스가 제공된다.
본 개시의 기술적 사상에 의한 실시예들에 따르면, 간단하면서도 효과적으로 음성 데이터로부터 관련된 개인의 사적인 대화 내용을 추출 또는 유추할 수 없도록 음성 데이터를 비식별화할 수 있는 효과가 있다.
또한, 본 개시의 기술적 사상에 의한 실시예들에 따르면, 음성 데이터를 효율적으로 관리(저장, 검색) 할 수 있도록 하고, 이를 통해 보다 용이하게 화자들의 식별을 위한 데이터베이스를 구축할 수 있게 하는 효과가 있다.
본 개시의 효과는 위에서 언급한 효과들로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
본 개시에서 인용되는 도면을 보다 충분히 이해하기 위하여 각 도면의 간단한 설명이 제공된다.
도 1은 본 개시의 일 실시예에 따른 음성 데이터의 프라이버시 보호를 위한 시스템을 설명하기 위한 예시적인 도면이다.
도 2는 본 개시의 일 실시예에 따른 음성 데이터의 프라이버시 보호를 위한 방법을 설명하기 위한 예시적인 흐름도이다.
도 3 및 도 4는 도 2의 단계 S230의 일 실시예를 설명하기 위한 도면들이다.
도 5 및 도 6는 도 2의 단계 S250의 일 실시예를 설명하기 위한 도면들이다.
본 개시의 기술적 사상은 다양한 변경을 가할 수 있고 여러 가지 실시 예를 가질 수 있는 바, 특정 실시 예들을 도면에 예시하고 이를 상세한 설명을 통해 상세히 설명하고자 한다. 그러나, 이는 본 개시의 기술적 사상을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 개시의 기술적 사상의 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
본 개시의 기술적 사상을 설명함에 있어서, 관련된 공지 기술에 대한 구체적인 설명이 본 개시의 기술적 사상의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 본 명세서의 설명 과정에서 이용되는 숫자(예를 들면, 제1, 제2 등)는 하나의 구성요소를 다른 구성요소와 구분하기 위한 식별기호에 불과하다.
또한, 본 개시에서, 일 구성요소가 다른 구성요소와 "연결된다" 거나 "접속된다" 등으로 언급된 때에는, 상기 일 구성요소가 상기 다른 구성요소와 직접 연결되거나 또는 직접 접속될 수도 있지만, 특별히 반대되는 기재가 존재하지 않는 이상, 중간에 또 다른 구성요소를 매개하여 연결되거나 또는 접속될 수도 있다고 이해되어야 할 것이다.
또한, 본 개시에 기재된 "~부", "~기", "~자", "~모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 프로세서(Processor), 마이크로 프로세서(Micro Processor), 어플리케이션 프로세서(Application Processor), 마이크로 컨트롤러(Micro Controller), CPU(Central Processing Unit), GPU(Graphics Processing Unit), APU(Accelerate Processor Unit), DSP(Digital Signal Processor), ASIC(Application Specific Integrated Circuit), FPGA(Field Programmable Gate Array) 등과 같은 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.
그리고 본 개시에서의 구성부들에 대한 구분은 각 구성부가 담당하는 주기능 별로 구분한 것에 불과함을 명확히 하고자 한다. 즉, 이하에서 설명할 2개 이상의 구성부가 하나의 구성부로 합쳐지거나 또는 하나의 구성부가 보다 세분화된 기능별로 2개 이상으로 분화되어 구비될 수도 있다. 그리고 이하에서 설명할 구성부 각각은 자신이 담당하는 주기능 이외에도 다른 구성부가 담당하는 기능 중 일부 또는 전부의 기능을 추가적으로 수행할 수도 있으며, 구성부 각각이 담당하는 주기능 중 일부 기능이 다른 구성부에 의해 전담되어 수행될 수도 있음은 물론이다.
이하, 본 개시의 기술적 사상에 의한 실시예들을 차례로 상세히 설명한다.
도 1은 본 개시의 일 실시예에 따른 음성 데이터의 프라이버시 보호를 위한 시스템을 설명하기 위한 예시적인 도면이다.
도 1을 참조하면, 시스템(10)은 디바이스(100) 및 데이터베이스(200)를 포함할 수 있다. 도 1에서는 편의를 위해 디바이스(100)와 데이터베이스(200)가 분리 구현되는 것으로 도시하였으나, 이는 예시적일 뿐 디바이스(100)와 데이터베이스(200)는 통합될 수 있다. 또한, 하나의 디바이스(100)와 하나의 데이터베이스(200)만을 도시하고 있으나, 디바이스(100)와 데이터베이스(200) 각각이 서로 동일한 기능을 수행하거나 일부 기능을 분담하여 수행하도록 복수개로 구현될 수 있다.
디바이스는(100)는, 이를 테면, 독립적인 음성 인식 기반의 홈 어시스턴스 디바이스, 또는 음성 인식 기반의 서비스가 적용된 셋-톱 박스, 게이트웨이, 텔레비전, 컴퓨터, 스마트폰, 태블릿 등과 같은 사용자 디바이스로 구현될 수 있고, 또는 이들에 통합될 수도 있다. 이하에서는 설명의 편의를 위해 디바이스(100)가 독립적인 홈 어시스턴스 디바이스인 경우를 예로 들어 설명한다.
디바이스(100)는 음성 데이터 획득부(110), 음성 세그먼트 추출부(130), 및 프라이버시 보호 음성 데이터 생성부(150)를 포함할 수 있다.
음성 데이터 획득부(110)는 적어도 하나의 화자의 음성 발화를 표현하는 음성 데이터를 획득할 수 있다. 도 1에 도시하지는 않았으나, 음성 데이터 획득부(110)는 사용자, 즉, 화자에 의해 생성되는 음성(voice) 발화들을 캡처하기 위해, 그리고 대응하는 아날로그 타입의 음성으로부터 디지털 타입의 음성 데이터를 생성하기 위해, 마이크로폰, 아날로그 디지털 변환기(analog-to-digital converter) 등을 포함할 수 있다.
실시예에 따라서, 음성 데이터 획득부(110)는 디바이스(100)와 통신적으로 연결된(communicatively coupled) 다른 홈 어시스턴스 디바이스, 또는 사용자 디바이스들로부터 화자의 음성 데이터를 수신할 수도 있다.
음성 세그먼트 추출부(130)는 음성 데이터 획득부(110)에 의해 획득된 음성 데이터로부터 소정의 음성 세그먼트들을 추출할 수 있다.
일 실시예에서, 음성 세그먼트 추출부(130)는 상기 음성 데이터로부터 적어도 일부가 변별적 특징(distinctive feature)을 갖는 음성 세그먼트들을 추출할 수 있다. 음성 세그먼트 추출부(130)에 의해 추출된 상기 적어도 일부가 변별적 특징을 갖는 음성 세그먼트들은 프라이버시 보호 음성 데이터 생성부(150)가 프라이버시 보호 음성 데이터를 생성하는데 이용될 수 있다.
상기 변별적 특징은, 음소(음운)를 분류하는데 사용되는 특징으로, 상기 획득된 음성 데이터에 대응하는 화자를 식별하는데 유리한 언어학적 특징일 수 있다. 예를 들면, 상기 변별적 특징은, 파열성, 파찰성, 및 마찰성 중 적어도 하나를 포함할 수 있다. 그러나, 이에 한정되는 것은 아니다. 상기 변별적 특징은, 유성성, 비유성성, 연속성, 반모음성, 비음성 등을 더 포함할 수 있다.
상기 음성 세그먼트들은, 상기 획득된 음성 데이터를 이루는 문장들의 단위 요소들일 수 있다. 예를 들면, 상기 음성 세그먼트들은, 각각 음절, 낱말 및 어절 중 어느 하나일 수 있다. 구현예에 따라서, 상기 음성 세그먼트들은 서로 동일한 단위 요소일 수 있으나 이에 한정되는 것은 아니다. 상기 음성 세그먼트들 중 적어도 일부는 서로 상이한 단위 요소일 수도 있다.
한편, 상기 음성 세그먼트들이 상기 변별적 특징을 갖는다는 것은, 상기 음성 세그먼트들의 음성 특성 값(예를 들면, 음성 특징벡터, 파라미터 값 등)이 상기 변별적 특징과 관련된 소정의 기준 값 이상일 것과 같은 기준을 충족시키는 경우를 포함하는 개념임을 알려둔다.
상술한 실시예를 더 자세히 설명한다.
음성 세그먼트 추출부(130)는, 상기 음성 데이터를 필터링하여, 상기 변별적 특징을 갖는 제1 예비 음성 세그먼트들과 상기 변별적 특징을 갖지 않는 제2 예비 음성 세그먼트들을 구분할 수 있다.
일부 실시예에서, 상기 제1 예비 음성 세그먼트들은 복수의 변별적 특징들, 예를 들면, 파찰성, 파열성 중 어느 하나의 변별적 특징을 갖는 음성 세그먼트들일 수 있다. 이 경우, 음성 세그먼트 추출부(130)는 상기 음성 데이터로부터 변별적 특징 별로 상기 제1 예비 음성 세그먼트들을 추출하기 위한 과정을 반복할 수 있다. 또는, 음성 세그먼트 추출부(130)는 상기 음성 데이터로부터 모든 변별적 특징에 관한 상기 제1 예비 음성 세그먼트들을 추출하기 위한 과정을 1회 수행할 수도 있다.
일부 실시예에서, 상기 제1 예비 음성 세그먼트들은 하나의 변별적 특징, 예를 들면, 파찰성만을 갖는 음성 세그먼트들일 수 있다. 이 경우, 하나의 변별적 특징에 대한 추출 결과물인 상기 제1 예비 음성 세그먼트들이 없거나, 특성 값, 개수 등이 소정의 기준 값에 미달하면, 음성 세그먼트 추출부(130)는 다른 변별적 특징에 대한 필터링을 추가적으로 수행할 수 있다.
음성 세그먼트 추출부(130)는 상기 제1 예비 음성 세그먼트들을 제외한 나머지 음성 세그먼트들을 상기 제2 예비 음성 세그먼트들로 결정할 수 있다.
한편, 음성 세그먼트 추출부(130)는 상기 제1 또는 제2 예비 음성 세그먼트들에서 적어도 일부가 중복되는지를 판단할 수 있고, 중복 여부에 따라 적어도 일부를 최종적인 제1 또는 제2 예비 음성 세그먼트로 결정할 수 있다. 여기서, 상술한 중복은 기설정된 음성 세그먼트의 단위 요소 또는 그보다 작은 단위 요소가 일치하는 경우를 포함하는 개념이다. 예를 들면, 기설정된 음성 세그먼트의 단위가 어절인 경우, 상술한 중복은 어절 자체가 일치하거나 어절보다 작은 단위 요소인 낱말이 일치하는 경우를 포함할 수 있다.
음성 세그먼트 추출부(130)는 상기 제1 또는 제2 예비 음성 세그먼트들에서 일부가 중복되면, 중복되는 예비 음성 세그먼트들을 결합하여 기 설정된 음성 특성 값(예를 들면, 음성 특징벡터 및 파라미터 값)에 가까운 특성 값을 갖는예비 음성 세그먼트를 최종적인 예비 음성 세그먼트로 결정할 수 있다. 다시 말해, 음성 세그먼트 추출부(130)는 상기 중복되는 예비 음성 세그먼트들의 음성 특성 값을 분석할 수 있고, 기 설정된 값에 가까운 음성 특성 값을 갖는 예비 음성 세그먼트를 최종적인 예비 음성 세그먼트로서 결정할 수 있다.
음성 세그먼트 추출부(130)는 상기 제1 또는 제2 예비 음성 세그먼트들에서 일부가 중복되지 않으면, 이들을 그대로 최종적인 예비 음성 세그먼트들로 결정할 수 있다.
이와 같이, 음성 세그먼트 추출부(130)는 음성 세그먼트들을 추출함에 있어서 추출 및 관리의 효율성 개선을 위해 중복되는 음성 세그먼트들은 일부만을 후속 처리에 사용할 수 있다.
그러나, 이에 한정되는 것은 아니며, 음성 세그먼트 추출부(130)는 중복되는 음성 세그먼트들을 포함한 상태로, 즉 추출된 음성 세그먼트들을 그대로 최종 음성 세그먼트들로 이용할 수 있음은 물론이다.
음성 세그먼트 추출부(130)는 기 설정된 조건에 따라서 상기 제1 예비 음성 세그먼트들의 적어도 일부를 선택하여 상기 프라이버시 보호 음성 데이터를 생성하는데 사용되는 음성 세그먼트들(프라이버시 보호용 음성 세그먼트들)을 추출할 수 있다. 상기 기 설정된 조건은, 상기 프라이버시 보호 음성 데이터가 화자 식별 등의 서비스에 응용되는 것을 고려하여, 상기 프라이버시 보호 음성 데이터와 관련된 화자의 특성을 표현하기에 충분한 상기 제1 예비 음성 세그먼트들의 종류, 개수 등일 수 있다.
또는, 음성 세그먼트 추출부(130)는 상기 기 설정된 조건에 따라서 소정의 비율로 상기 제1 예비 음성 세그먼트들의 일부와 상기 제2 예비 음성 세그먼트들의 일부를 선택하여 상기 프라이버시 보호용 음성 세그먼트들을 추출할 수 있다. 상기 기 설정된 조건도, 상기 프라이버시 보호 음성 데이터와 관련된 화자의 특성을 표현하기에 충분한 상기 제1 및 제2 예비 음성 세그먼트들의 종류, 개수 등일 수 있다. 상기 비율은, 상기 제1 예비 음성 세그먼트들의 개수와 상기 제2 예비 음성 세그먼트들의 개수의 비일 수 있고, 상기 제1 예비 음성 세그먼트들의 개수가 상기 제2 예비 음성 세그먼트들의 개수보다 큰 값을 가질 수 있다.
선택적으로, 음성 세그먼트 추출부(130)는 상기 프라이버시 보호용 음성 세그먼트들로 선택되지 않은 잔여 제1 및 제2 예비 음성 세그먼트들을 참조용 음성 세그먼트들로 추출할 수 있다. 상기 참조용 음성 세그먼트들은 프라이버시 보호 음성 데이터 생성부(150)가 음성인식 성능 개선을 위한 학습용 데이터 등의 참조 음성 데이터를 생성하는데 이용될 수 있다.
한편, 음성 세그먼트 추출부(130)는 상술한 바와 같이 획득된 음성 데이터로부터 소정의 음성 세그먼트들을 추출하기 위해서, 음성 세그먼트들의 특징량을 추출하는 특징 분석기, 특징량에 기초하여 음성 세그먼트에 대응하는 음절, 낱말, 어절 등을 검색 식별하기 위한 분류기 등을 포함할 수 있다. 그리고, 검색에 필요한 기준 데이터 등은 디바이스(100) 자체의 소정의 저장 공간, 또는 데이터베이스(200)에 저장될 수 있다.
프라이버시 보호 음성 데이터 생성부(150)는 추출된 소정의 음성 세그먼트들, 즉, 적어도 일부가 변별적 특징을 갖는 프라이버시 보호용 음성 세그먼트들을 기초로 프라이버시 보호 음성 데이터를 생성할 수 있다. 다시 말해, 프라이버시 보호 음성 데이터 생성부(150)는, 상기 추출된 소정의 음성 세그먼트들을 재구성하여, 원래의 음성 데이터와 관련된 사용자의 음성 내용을 식별할 수 없는 형태의 프라이버시 보호 음성 데이터를 생성할 수 있다.
일 실시예에서, 프라이버시 보호 음성 데이터 생성부(150)는 상기 프라이버시 보호용 음성 세그먼트들의 적어도 일부를 셔플링(shuffling)하고, 셔플링된 음성 세그먼트들을 이용하여 상기 프라이버시 보호 음성 데이터를 생성할 수 있다.
예를 들면, 프라이버시 보호 음성 데이터 생성부(150)는 상기 프라이버시 보호용 음성 세그먼트들의 전부 또는 일부를 랜덤하게 시간순으로 뒤섞은(셔플링) 후 뒤섞인 음성 세그먼트들을 직렬화하여 상기 프라이버시 보호 음성 데이터를 생성할 수 있다.
다른 실시예에서, 프라이버시 보호 음성 데이터 생성부(150)는 상기 프라이버시 보호용 음성 세그먼트들을 그대로(intactly) 직렬화하여 상기 프라이버시 보호 음성 데이터를 생성할 수 있다.
한편, 선택적으로, 프라이버시 보호 음성 데이터 생성부(150)는 상기 참조용 음성 세그먼트들을 이용하여 참조 음성 데이터를 생성할 수도 있다. 프라이버시 보호 음성 데이터 생성부(150)는 상기 프라이버시 보호 음성 데이터를 생성하는 방식과 유사하게 상기 참조용 음성 세그먼트들을 셔플링하거나 그대로 이용하여 상기 참조 음성 데이터를 생성할 수 있다.
디바이스(100)는 생성된 프라이버시 보호 음성 데이터(PRVD)와 함께 대응하는 사용자 식별 정보(ID) 등을 포함하는 태그(TAG)를 기초로 사용자의 음성 정보(PRVI)를 구성할 수 있고, 사용자의 음성 정보(PRVI)를 데이터베이스(200)로 전송할 수 있다.
또한, 디바이스(100)는 생성된 참조 음성 데이터(RVD)를 그대로 혹은 참조 음성 데이터(RVD)와 소정의 정보를 기초로 참조 음성 정보(RVI)를 구성하여 데이터베이스(200)로 전송할 수도 있다.
데이터베이스(200)는 다수의 사용자들에 대한 음성 정보(PRVI)를 저장, 관리할 수 있다. 데이터베이스(200)는 다수의 사용자들에 대한 음성 정보(PRVI)를 각각 대응하는 사용자 확인을 위한 기준 정보로 활용할 수 있도록 음성 정보(PRVI)에 포함된 데이터들을 가공하여 저장할 수도 있다.
또한, 데이터베이스(200)는 참조 음성 데이터(RVD) 및/또는 참조 음성 정보(RVI)를 저장, 관리할 수 있다. 데이터베이스(200)는 참조 음성 데이터(RVD) 및/또는 참조 음성 정보(RVI)를 음성 인식 성능 개선을 위한 기계 학습에 활용할 수 있도록 가공하여 저장할 수도 있다.
본 개시의 실시예들에 따른 디바이스(100)는 사용자의 발화된 음성에 대응하는 음성 데이터로부터 소정의 음성 세그먼트들을 추출하고, 추출된 음성 세그먼트들을 이용하여 음성 데이터가 재구성된 프라이버시 보호 음성 데이터를 생성하여 데이터베이스(200)로 전송한다. 이에 따라, 데이터베이스(200)가 원래의 발화된 음성과는 달리 사용자의 발화 내용을 확인할 수 없고 또 크기가 크게 저감된 상태로 음성 정보를 저장, 관리할 수 있게 된다.
이와 같이, 본 개시의 실시예들에 따른 간단하면서도 효과적인 음성 데이터의 프라이버시 보호 처리를 통해서, 음성 데이터의 개인정보 노출, 침해를 미연에 방지할 수 있고, 음성 인식 기반의 다양한 서비스를 제공함에 있어서 음성 정보 수집에 대한 사용자의 불안감을 해소시킬 수 있다.
또한, 음성 정보와 대응하는 발화자와의 관련성을 끊는 종래의 비식별 처리와 달리, 사용자와의 관련성을 유지한 상태에서도 프라이버시 보호가 가능하여 수집된 음성 정보를 기초로 화자 식별 등 다양한 서비스에 응용이 가능한 장점이 있다.
또한, 프라이버시 보호 처리와 함께 기계 학습 등에 사용될 수 있는 데이터를 생성할 수 있어, 학습 데이터의 생산, 수집에 제약이 있는 음성 상호 작용 분야의 한계를 극복할 수 있도록 한다.
도 2는 본 개시의 일 실시예에 따른 음성 데이터의 프라이버시 보호를 위한 방법을 설명하기 위한 예시적인 흐름도이다. 도 3 및 도 4는 도 2의 단계 S230의 일 실시예를 설명하기 위한 도면들이다. 도 5 및 도 6는 도 2의 단계 S250의 일 실시예를 설명하기 위한 도면들이다. 도 2 내지 도 6에 예시된 음성 데이터의 프라이버시 보호를 위한 방법(이하, 방법이라 칭함)은 도 1을 참조하여 설명한 디바이스(100)에 의해 수행될 수 있고, 이에 따라 도 1을 참조하여 설명한 내용과 동일한 내용에 대해서는 편의를 위해 자세한 설명은 생략한다.
먼저, 도 2를 참조하면, 디바이스(100)는 음성 데이터를 획득한다(S210).
실시예에 따라서, 디바이스(100)는 사용자들, 즉 화자들에 의해 생성되는 음성들을 캡처하여 음성 데이터를 생성할 수 있고, 또는 다른 디바이스들로부터 화자들의 음성 데이터를 수신할 수도 있다.
디바이스(100)는 획득된 음성 데이터로부터 소정의 음성 세그먼트들을 추출한다(S230).
도 3 및 도 4를 더 참조하면, 디바이스(100)는 상기 음성 데이터를 필터링하여 변별적 특징을 갖는 제1 예비 음성 세그먼트들과 변별적 특징을 갖지 않는 제2 예비 음성 세그먼트들을 구분한다(S231).
상기 변별적 특징은, 파열성, 파찰성, 마찰성, 유성성, 비유성성, 연속성, 반모음성, 비음성 등과 같은 음소를 분류하는데 사용되는 특징일 수 있고, 상기 변별적 특징은 앞서 예시한 특징들 중 적어도 하나 이상으로 설정될 수 있다.
화자로부터 발화된 음성 데이터가 "황사 때문인지 미세먼지 때문인지 모르겠지만, 오늘은 하늘이 진짜 뿌옇다. 추위도 추위지만 탁한 공기는 너무 싫어"이고, 변별적 특징은 파열성, 파찰성 및 마찰성이고, 어절이 세그먼트 단위인 경우를 예로 들어 설명한다.
이 경우, 디바이스(100)는 '황사'(마찰성), '때문인지'(파열성), '때문인지'(파열성), '하늘이'(마찰성), '진짜'(파찰성), '뿌옇다'(파열성), '추위도'(파찰성), '추위지만'(파찰성), '공기는'(파열성), '탁한'(파열성), '싫어'(마찰성)를 제1 예비 음성 세그먼트들로 결정할 수 있다.
디바이스(100)는 '미세먼지', '모르겠지만', '오늘은', '너무'를 제2 예비 음성 세그먼트들로 결정할 수 있다.
디바이스(100)는 기 설정된 조건에 따라 상기 제1 예비 음성 세그먼트들의 적어도 일부를 선택하거나 소정 비율로 상기 제1 및 제2 예비 음성 세그먼트들을 선택하여 프라이버시 보호용 음성 세그먼트들을 추출한다(S233).
상기 조건이 상기 제1 예비 음성 세그먼트들의 개수가 상기 제2 예비 음성 세그먼트들의 개수보다 크도록 선택하는 것으로 미리 설정된 경우를 예로 들면, 디바이스(100)는 상기 제1 예비 음성 세그먼트들 중에서 '황사'(마찰성), '하늘'(마찰성), '진짜'(파찰성), '공기'(파열성)를, 상기 제2 예비 음성 세그먼트들 중에서 '미세먼지', '오늘'을 선택하여 상기 프라이버시 보호용 음성 세그먼트들로서 추출할 수 있다.
상기 제1 예비 음성 세그먼트들과 상기 제2 예비 음성 세그먼트들의 선택은 음성 세그먼트들의 음성 특성 값에 따라서 이루어질 수 있고, 또는 랜덤하게 이루어질 수도 있다.
그리고, 도시하지는 않았으나, 상기 프라이버시 보호용 음성 세그먼트의 단위는 낱말일 수 있고, 디바이스(100)는 상기 프라이버시 보호용 음성 세그먼트들의 추출 과정에서 상기 프라이버시 보호용 음성 세그먼트와 상기 제1 및 제2 예비 음성 세그먼트의 단위를 일치시키기 위한 소정의 처리를 추가 수행할 수 있다.
선택적으로, 디바이스(100)는 단계 S233에서 선택되지 않은 잔여 제1 및 제2 예비 음성 세그먼트들을 참조용 음성 세그먼트들로 추출한다(S235).
예를 들면, 디바이스(100)는 상기 제1 예비 음성 세그먼트들 중에서 선택되지 않은 '때문인지', '때문인지', '뿌옇다', '추위도', '추위지만', '탁한', '싫어'를, 상기 제2 예비 음성 세그먼트들 중에서 선택되지 않은 '모르겠지만', '너무'를 상기 참조용 음성 세그먼트들로 추출할 수 있다.
한편, 디바이스(100)는 중복되는 예비 음성 세그먼트들, 예를 들면, '때문인지'와 '때문인지', '추위도'와 '추위지만'에서 각각 어느 하나를 상기 참조용 음성 세그먼트로 추출할 수 있다. 그러나, 이는 예시적인 것일 뿐이며, 디바이스(100)는 도 4에 도시된 바와 같이 중복되는 예비 음성 세그먼트들을 모두 상기 참조용 음성 세그먼트로 추출할 수 있음은 물론이다.
결과적으로, 디바이스(100)는 '황사', '미세먼지', '오늘', '하늘', '진짜', '공기'를 후속 단계에서 프라이버시 보호 음성 데이터 생성에 이용하기 위한 프라이버시 보호용 음성 세그먼트들로 추출할 수 있다.
또한, 디바이스(100)는 선택적으로 '때문인지', '때문인지', '모르겠지만', '뿌옇다', '추위도', '추위지만', '탁한', '너무', '싫어'를 후속 단계에서 참조 음성 데이터 생성에 이용하기 위한 참조용 음성 세그먼트들로 추출할 수도 있다.
다시 도 2를 참조하면, 디바이스(100)는 추출된 음성 세그먼트들(프라이버시 보호용 음성 세그먼트들)을 기초로 프라이버시 보호 음성 데이터를 생성한다(S250). 또한, 선택적으로, 디바이스(100)는 추출된 음성 세그먼트들(참조용 음성 세그먼트들)을 기초로 참조 음성 데이터를 생성한다(S250).
도 5 및 도 6를 더 참조하면, 디바이스(100)는 추출된 프라이버시 보호용 음성 세그먼트들의 적어도 일부를 셔플링한다(S251).
예를 들면, 디바이스(100)는 추출된 상기 프라이버시 보호용 음성 세그먼트들을 랜덤하게 시간순으로 뒤섞어 '미세먼지', '진짜', '황사', '공기', '오늘', '하늘'과 같은 순으로 재배열할 수 있다.
디바이스(100)는 셔플링된 프라이버시 보호용 음성 세그먼트들을 이용하여 프라이버시 보호 음성 데이터를 생성한다(S253).
예를 들면, 디바이스(100)는 '미세먼지', '진짜', '황사', '공기', '오늘', '하늘'을 직렬화하여 "미세먼지 진짜 황사 공기 오늘 하늘"과 같은 프라이버시 보호 음성 데이터를 생성할 수 있다.
이는 예시적인 것일 뿐이며, 디바이스(100)는 필요에 따라서 추출된 프라이버시 보호용 음성 세그먼트들을 그대로 직렬화하여 프라이버시 보호 음성 데이터를 생성할 수도 있다.
선택적으로, 디바이스(100)는 추출된 참조용 음성 세그먼트들의 적어도 일부를 셔플링한다(S255).
예를 들면, 디바이스(100)는 상기 참조용 음성 세그먼트들을 랜덤하게 시간순으로 뒤섞어 '모르겠지만', '추위도', '때문인지', '너무', '때문인지', '뿌옇다', '추위지만', '싫어'와 같은 순으로 재배열할 수 있다.
디바이스(100)는 셔플링된 참조용 음성 세그먼트들을 이용하여 참조 음성 데이터를 생성한다(S257).
예를 들면, 디바이스(100)는 '모르겠지만', '추위도', '때문인지', '너무', '때문인지', '뿌옇다', '추위지만', '싫어'를 직렬화하여 "모르겠지만 추위도 때문인지 너무 때문인지 뿌옇다 추위지만 싫어"와 같은 참조 음성 데이터를 생성할 수 있다.
이는 예시적인 것일 뿐이며, 디바이스(100)는 필요에 따라서 추출된 참조용 음성 세그먼트들을 그대로 직렬화하여 참조 음성 데이터를 생성할 수도 있다.
본 개시의 실시예들에 따른 음성 데이터의 프라이버시 보호 방법은, 원래의 음성 정보에 대응하는 음성 데이터로부터 추출된 음성 세그먼트들을 이용하여 음성 데이터와 관련된 사용자를 특정해낼 수 없도록 프라이버시 보호 음성 데이터를 생성한다.
이와 같은 간편한 방법을 통해서, 음성 데이터의 개인정보 노출, 침해를 방지할 수 있음은 물론이고, 음성 인식 기반의 다양한 서비스를 제공하기 위해 요구되는 음성 정보 수집 동의 절차에 대한 사용자의 불안감을 해소시킬 수 있다.
또한, 사용자와의 관련성은 그대로 유지한 상태로 프라이버시 보호가 가능하여 수집된 음성 정보를 기초로 화자 식별 등 다양한 서비스에 응용이 가능할 수 있다.
또한, 프라이버시 보호 처리와 함께 기계 학습 등에 사용될 수 있는 데이터를 생성할 수 있어, 학습 데이터의 생산, 수집에 제약이 있는 음성 상호 작용 분야의 한계를 극복할 수 있도록 한다.
본 개시에 따른 디바이스(100)는 상술한 음성 데이터 획득부, 음성 세그먼트 추출부 및 프라이버시 보호 음성 데이터 생성부를 구현하기 위한 적어도 하나의 프로세서, 각종 데이터, 프로그램 데이터를 저장하고 실행하는 메모리, 데이터베이스, 서비스 오퍼레이터 등 타 장치와의 통신을 위한 통신 인터페이스 이외에도, 디스크 드라이브와 같은 영구 저장부(permanent storage), 외부 장치와 통신하는 통신 포트, 터치 패널, 키(key), 버튼 등과 같은 사용자 인터페이스 장치 등을 더 포함할 수 있다.
그리고, 소프트웨어 모듈 또는 알고리즘으로 구현되는 상술한 본 개시에 따른 방법들은 상기 적어도 하나의 프로세서 상에서 실행 가능한 컴퓨터가 읽을 수 있는 코드들 또는 프로그램 명령들로서 컴퓨터가 읽을 수 있는 기록 매체 상에 저장될 수 있다. 여기서 컴퓨터가 읽을 수 있는 기록 매체로 마그네틱 저장 매체(예컨대, ROM(read-only memory), RAM(random-access memory), 플로피 디스크, 하드 디스크 등) 및 광학적 판독 매체(예컨대, 시디롬(CD-ROM), 디브이디(DVD: Digital Versatile Disc)) 등이 있다. 컴퓨터가 읽을 수 있는 기록 매체는 네트워크로 연결된 컴퓨터 시스템들에 분산되어, 분산 방식으로 컴퓨터가 판독 가능한 코드가 저장되고 실행될 수 있다. 매체는 컴퓨터에 의해 판독가능하며, 메모리에 저장되고, 적어도 하나의 프로세서에서 실행될 수 있다.
본 개시의 이해를 위하여, 도면에 도시된 바람직한 실시예들에서 참조 부호를 기재하였으며, 본 개시의 실시예들을 설명하기 위하여 특정 용어들을 사용하였으나, 특정 용어에 의해 본 개시의 기술적 사상이 한정되는 것은 아니며, 본 개시의 기술적 사상은 당업자에 있어서 통상적으로 생각할 수 있는 모든 구성 요소들을 포함할 수 있다.
본 개시는 기능적인 블록 구성들 및 다양한 프로세싱 단계들로 나타내어질 수 있다. 이러한 기능 블록들은 특정 기능들을 실행하는 다양한 개수의 하드웨어 또는/및 소프트웨어 구성들로 구현될 수 있다. 예를 들면, 본 개시는 하나 이상의 마이크로프로세서들의 제어 또는 다른 제어 장치들에 의해서 다양한 기능들을 실행할 수 있는, 메모리, 프로세싱, 로직(logic), 룩업 테이블(look-up table) 등과 같은 직접 회로 구성들을 채용할 수 있다. 본 개시에의 구성 요소들이 소프트웨어 프로그래밍 또는 소프트웨어 요소들로 실행될 수 있는 것과 유사하게, 본 개시는 데이터 구조, 프로세스들, 루틴들 또는 다른 프로그래밍 구성들의 조합으로 구현되는 다양한 알고리즘을 포함하여, C, C++, 자바(Java), 어셈블러(assembler) 등과 같은 프로그래밍 또는 스크립팅 언어로 구현될 수 있다. 기능적인 측면들은 하나 이상의 프로세서들에서 실행되는 알고리즘으로 구현될 수 있다. 또한, 본 개시는 전자적인 환경 설정, 신호 프로세싱, 및/또는 데이터 프로세싱 등을 위하여 종래 기술을 채용할 수 있다. '매커니즘', '요소', '수단', '구성'과 같은 용어는 넓게 사용될 수 있으며, 기계적이고 물리적인 구성들로서 한정되는 것은 아니다. 상기 용어는 프로세서 등과 연계하여 소프트웨어의 일련의 프로세싱들(routines)의 의미를 포함할 수 있다.
본 개시에서 설명하는 특정 실행들은 일 실시예들로서, 어떠한 방법으로도 본 개시의 범위를 한정하는 것은 아니다. 명세서의 간결함을 위하여, 종래 전자적인 구성들, 제어 시스템들, 소프트웨어, 상기 시스템들의 다른 기능적인 측면들의 기재는 생략될 수 있다. 또한, 도면에 도시된 구성 요소들 간의 선들의 연결 또는 연결 부재들은 기능적인 연결 및/또는 물리적 또는 회로적 연결들을 예시적으로 나타낸 것으로서, 실제 장치에서는 대체 가능하거나 추가의 다양한 기능적인 연결, 물리적인 연결, 또는 회로 연결들로서 나타내어질 수 있다. 또한, '필수적인', '중요하게' 등과 같이 구체적인 언급이 없다면 본 개시의 적용을 위하여 반드시 필요한 구성 요소가 아닐 수 있다.
본 개시의 명세서(특히 특허청구범위에서)에서 '상기'의 용어 및 이와 유사한 지시 용어의 사용은 단수 및 복수 모두에 해당하는 것일 수 있다. 또한, 본 개시에서 범위(range)를 기재한 경우 상기 범위에 속하는 개별적인 값을 적용한 실시예를 포함하는 것으로서(이에 반하는 기재가 없다면), 발명의 상세한 설명에 상기 범위를 구성하는 각 개별적인 값을 기재한 것과 같다.
마지막으로, 본 개시에 따른 방법을 구성하는 단계들에 대하여 명백하게 순서를 기재하거나 반하는 기재가 없다면, 상기 단계들은 적당한 순서로 행해질 수 있다. 반드시 상기 단계들의 기재 순서에 따라 본 개시가 한정되는 것은 아니다.
본 개시에서 모든 예들 또는 예시적인 용어(예들 들어, 등등)의 사용은 단순히 본 개시의 실시예들을 상세히 설명하기 위한 것으로서 특허청구범위에 의해 한정되지 않는 이상 상기 예들 또는 예시적인 용어로 인해 본 개시의 범위가 한정되는 것은 아니다. 또한, 당업자는 다양한 수정, 조합 및 변경이 부가된 특허청구범위 또는 그 균등물의 범주 내에서 설계 조건 및 팩터에 따라 구성될 수 있음을 알 수 있다.

Claims (8)

  1. 음성 데이터의 프라이버시 보호(privacy preserving)를 위한 방법으로,
    화자의 음성 발화를 표현하는 음성 데이터를 획득하는 단계;
    상기 음성 데이터로부터 소정의 음성 세그먼트들을 추출하는 단계; 및
    상기 음성 세그먼트들을 기초로 프라이버시 보호 음성 데이터를 생성하는 단계;
    를 포함하는, 방법.
  2. 제1 항에 있어서,
    상기 추출하는 단계는,
    상기 음성 데이터로부터 적어도 일부가 변별적 특징(distinctive feature)을 갖는 상기 음성 세그먼트들을 추출하는 단계;
    를 포함하는, 방법.
  3. 제2 항에 있어서,
    상기 변별적 특징은,
    파열성, 파찰성, 및 마찰성 중 적어도 하나를 포함하는 것을 특징으로 하는, 방법.
  4. 제2 항에 있어서,
    상기 음성 세그먼트들은,
    각각, 음절, 낱말, 및 어절 중 어느 하나의 단위 요소인 것을 특징으로 하는, 방법.
  5. 제2 항에 있어서,
    상기 추출하는 단계는,
    상기 음성 데이터를 필터링하여, 상기 변별적 특징을 갖는 제1 예비 음성 세그먼트들과 상기 변별적 특징을 갖지 않는 제2 예비 음성 세그먼트들로 구분하는 단계; 및
    기 설정된 조건에 따라, 상기 제1 예비 음성 세그먼트들의 적어도 일부를 선택하거나 소정 비율로 상기 제1 및 제2 예비 음성 세그먼트들을 선택하여, 상기 프라이버시 보호 음성 데이터를 생성하기 위한 상기 음성 세그먼트들을 추출하는 단계;
    를 포함하는, 방법.
  6. 제1 항에 있어서,
    상기 프라이버시 보호 음성 데이터를 생성하는 단계는,
    상기 음성 세그먼트들의 적어도 일부를 셔플링하는 단계; 및
    상기 셔플링된 음성 세그먼트들을 이용하여 상기 프라이버시 보호 음성 데이터를 생성하는 단계;
    를 포함하는, 방법.
  7. 제1 항에 있어서,
    상기 프라이버시 보호 음성 데이터를 생성하는 단계는,
    상기 음성 세그먼트들을 그대로(intactly) 이용하여 상기 프라이버시 보호 음성 데이터를 생성하는 단계;
    를 포함하는, 방법.
  8. 음성 데이터의 프라이버시 보호를 위한 디바이스로,
    적어도 하나의 프로세서; 및
    상기 프로세서에 전기적으로 연결된 메모리;
    를 포함하고,
    상기 메모리는, 상기 프로세서가 실행 시에,
    화자의 음성 발화를 표현하는 음성 데이터로부터 소정의 음성 세그먼트들을 추출하고,
    상기 음성 세그먼트들을 기초로 프라이버시 보호 음성 데이터를 생성하도록 하는 인스트럭션들을 저장하는, 디바이스.
PCT/KR2019/016711 2019-11-29 2019-11-29 음성 데이터의 프라이버시 보호를 위한 방법 및 디바이스 WO2021107218A1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/KR2019/016711 WO2021107218A1 (ko) 2019-11-29 2019-11-29 음성 데이터의 프라이버시 보호를 위한 방법 및 디바이스

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/KR2019/016711 WO2021107218A1 (ko) 2019-11-29 2019-11-29 음성 데이터의 프라이버시 보호를 위한 방법 및 디바이스

Publications (1)

Publication Number Publication Date
WO2021107218A1 true WO2021107218A1 (ko) 2021-06-03

Family

ID=76130628

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2019/016711 WO2021107218A1 (ko) 2019-11-29 2019-11-29 음성 데이터의 프라이버시 보호를 위한 방법 및 디바이스

Country Status (1)

Country Link
WO (1) WO2021107218A1 (ko)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20050021554A (ko) * 2002-07-24 2005-03-07 어플라이드 마인즈, 인크. 음성 마스킹 시스템 및 그 방법
KR20080065327A (ko) * 2007-01-09 2008-07-14 최현준 대화 도청 방지를 위한 사운드 마스킹 방법과 이를 위한장치
US20140172424A1 (en) * 2011-05-23 2014-06-19 Qualcomm Incorporated Preserving audio data collection privacy in mobile devices
KR101475894B1 (ko) * 2013-06-21 2014-12-23 서울대학교산학협력단 장애 음성 개선 방법 및 장치
KR20190000956A (ko) * 2017-06-23 2019-01-04 퓨렌스 주식회사 개인 정보 보호를 위한 학습형 녹취 파일 인식 시스템

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20050021554A (ko) * 2002-07-24 2005-03-07 어플라이드 마인즈, 인크. 음성 마스킹 시스템 및 그 방법
KR20080065327A (ko) * 2007-01-09 2008-07-14 최현준 대화 도청 방지를 위한 사운드 마스킹 방법과 이를 위한장치
US20140172424A1 (en) * 2011-05-23 2014-06-19 Qualcomm Incorporated Preserving audio data collection privacy in mobile devices
KR101475894B1 (ko) * 2013-06-21 2014-12-23 서울대학교산학협력단 장애 음성 개선 방법 및 장치
KR20190000956A (ko) * 2017-06-23 2019-01-04 퓨렌스 주식회사 개인 정보 보호를 위한 학습형 녹취 파일 인식 시스템

Similar Documents

Publication Publication Date Title
WO2020207035A1 (zh) 骚扰电话拦截方法、装置、设备及存储介质
WO2020139058A1 (en) Cross-device voiceprint recognition
WO2018070780A1 (en) Electronic device and method for controlling the same
WO2015005679A1 (ko) 음성 인식 방법, 장치 및 시스템
WO2016129930A1 (en) Operating method for voice function and electronic device supporting the same
WO2020204655A1 (en) System and method for context-enriched attentive memory network with global and local encoding for dialogue breakdown detection
KR20180129486A (ko) 외국어학습을 위한 청크단위 분리 규칙과 핵심어 자동 강세 표시 구현 방법 및 시스템
WO2023282520A1 (ko) 목소리 개인정보 보호 기술을 이용한 학습 데이터베이스 구축 방법 및 시스템
WO2020159140A1 (ko) 전자 장치 및 이의 제어 방법
EP2941895A1 (en) Display apparatus and method of controlling a display apparatus in a voice recognition system
WO2020054980A1 (ko) 음소기반 화자모델 적응 방법 및 장치
WO2021071137A1 (ko) 외국어 문장 빈칸 추론 문제 자동 생성 방법 및 시스템
WO2021251539A1 (ko) 인공신경망을 이용한 대화형 메시지 구현 방법 및 그 장치
WO2019172734A2 (ko) 데이터 마이닝 장치, 이를 이용하는 음성인식 방법 및 시스템
WO2020091431A1 (ko) 그래픽 객체를 이용한 자막 생성 시스템
WO2020204256A1 (ko) 음성합성엔진을 이용한 멀티미디어 음성인식 자동 평가시스템
WO2023167466A1 (ko) 음성 개인정보 보호 기술을 이용한 기계학습 데이터베이스 구축 시스템
WO2021107218A1 (ko) 음성 데이터의 프라이버시 보호를 위한 방법 및 디바이스
WO2020235910A1 (en) Text reconstruction system and method thereof
Mixdorff et al. Visual cues in Mandarin tone perception.
WO2018117660A1 (en) Security enhanced speech recognition method and device
WO2024029799A1 (ko) 인지 장애와 연관된 정보를 제공하는 방법 및 장치
WO2018074658A1 (ko) 하이브리드 자막 효과 구현 단말 및 방법
WO2016137071A1 (ko) 적어도 하나의 의미론적 유닛의 집합을 음성을 이용하여 개선하기 위한 방법, 장치 및 컴퓨터 판독 가능한 기록 매체
WO2022031060A1 (ko) 인공 신경망을 이용한 다화자 음성 합성 방법 및 장치

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19953902

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19953902

Country of ref document: EP

Kind code of ref document: A1

122 Ep: pct application non-entry in european phase

Ref document number: 19953902

Country of ref document: EP

Kind code of ref document: A1