WO2013180600A2 - Способ переозвучивания аудиоматериалов и устройство для его осуществления - Google Patents

Способ переозвучивания аудиоматериалов и устройство для его осуществления Download PDF

Info

Publication number
WO2013180600A2
WO2013180600A2 PCT/RU2013/000404 RU2013000404W WO2013180600A2 WO 2013180600 A2 WO2013180600 A2 WO 2013180600A2 RU 2013000404 W RU2013000404 W RU 2013000404W WO 2013180600 A2 WO2013180600 A2 WO 2013180600A2
Authority
WO
WIPO (PCT)
Prior art keywords
input
output
audio
phrase
acoustic
Prior art date
Application number
PCT/RU2013/000404
Other languages
English (en)
French (fr)
Other versions
WO2013180600A3 (ru
Inventor
Александр Юрьевич БРЕДИХИН
Original Assignee
Bredikhin Aleksandr Yurevich
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bredikhin Aleksandr Yurevich filed Critical Bredikhin Aleksandr Yurevich
Priority to US14/402,084 priority Critical patent/US20150112687A1/en
Publication of WO2013180600A2 publication Critical patent/WO2013180600A2/ru
Publication of WO2013180600A3 publication Critical patent/WO2013180600A3/ru

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser

Definitions

  • the invention relates to electronic equipment, mainly using software-controlled electronic information processing devices, and can be used in speech synthesis.
  • a device for determining and correcting accent, which includes: (a) means for inputting unwanted speech images in which the aforementioned speech images are digitized, analyzed and stored in digital memory as a library of unwanted speech images; (B) means for inputting the correct speech patterns corresponding to the aforementioned unwanted speech patterns in which the above-mentioned correct speech patterns are digitized, analyzed and stored in digital memory as a library of the correct speech patterns; (c) means for actively recognizing incoming speech patterns, comparing the above recognized speech patterns with unwanted speech patterns stored in a digital memory as a library of unwanted speech patterns, and deleting and queuing for replacing unwanted speech patterns identified in the above incoming speech patterns images; (d) means for analyzing the aforementioned unwanted speech patterns identified in the incoming speech patterns and determining the correct speech patterns uniquely corresponding to them; and (e) means for replacing said unwanted speech patterns identified in the incoming speech patterns with the above correct speech patterns that are unambiguously recognized as corresponding to the above unwanted speech patterns, resulting in output speech patterns in which the said unwanted
  • the input audio signal is analyzed for the presence of predefined unwanted speech patterns, i.e. phonemes or phoneme groups that need to be fixed, for example, representing a foreign accent. These unwanted images are then altered or completely replaced with pre-stored audio images, adjusted for the tone of the user's voice.
  • the level of speech correction i.e., the set of phonemes to be changed, can be set as needed.
  • the device operates in two modes: the first is the training mode, i.e., saving unwanted phonemes and sound images to replace them, and the second is the correction mode, i.e. in which the phonemes are modified based on the stored information.
  • the training mode i.e., saving unwanted phonemes and sound images to replace them
  • the correction mode i.e. in which the phonemes are modified based on the stored information.
  • computer-based software and hardware are used.
  • the equipment allows you to adjust the emphasis in real time with different levels of complexity, up to extremely complex systems for correcting various accents for several users, based on a multi-circuit architecture consisting of several microcircuits and boards.
  • the limitation of this device is the ability only to correct unwanted phonemes and the inability to regulate other speech characteristics, for example, changes in the timbre of the voice.
  • a device for processing speech information for modulating an input voice signal by converting it into an output voice signal comprising an input device configured to input an audio signal representing an input voice signal with a characteristic frequency spectrum, an audio signal processing device configured with a processor providing changing the frequency spectrum of the input voice signal, a database of parameters in which several sets of parameters are stored, each the second of which individually characterizes the change in the frequency spectrum by the processor, a control device that selects the desired set of parameters from the parameter database and adjusts the processor using the selected set of parameters, and a playback device configured to output an audio signal processed by the processor and representing a voice signal with output characteristics of the frequency spectrum corresponding to the selected set of parameters (US Patent N ° 5847303, G10H 1/36, publ. 08/08/1998).
  • This device converts the frequency range, which allows men to sing karaoke in a female voice and vice versa.
  • the device allows you to sing a karaoke song in the voice of the selected professional singer / singer by changing the frequency spectrum.
  • the device allows you to change the speech characteristics in accordance with a set of predefined parameters stored in the database of a computing device, for example, a computer.
  • the limitations of the device are: an audio signal can only be converted into a predefined audio signal, characterized by pre-stored parameters in the database; the impossibility of playing the changed sound signal at another point in space, because the device is intended only for use in karaoke, this device in real time can only be used by one user.
  • a device for converting an incoming voice signal into an output voice signal in accordance with a target voice signal comprising a source of an incoming audio signal, a storage device that temporarily stores source data that are correlated and taken from the target voice, an analysis device that analyzes the incoming voice signal and extracts from it a series of input data frames representing an incoming voice signal, a manufacturing device that produces a series of target data frames x, representing the target voice signal based on the source data, adjusting the frames of the target data relative to the frames of the input data, and a synthesizing device that synthesizes the output voice signal in accordance with the frames of the target data and the frames of the input data, while the generating device is based on the characteristic analyzer, which is designed to extract from the incoming voice signal a characteristic vector that is a characteristic of the output voice signal, and on the basis of the correcting processor, while the storage device stores the data of characteristic vectors for use in recognizing them contained in the incoming voice signal, and stores the data of the conversion function, which are part of
  • the device allows to ensure in karaoke the performance of a song by the user's voice, but in a manner and with a quality level of performance of a professional singer (for example, no worse than the performance level of a famous artist of a given song), while minimizing errors made by the user during performance.
  • a limitation of the device is the inability to control the learning mode to obtain the highest quality playback in operation mode.
  • a known method of voice conversion including the learning phase, which consists in dynamically aligning the speech signals of the texts of the target and the source speakers, in the formation of the corresponding codebook display and the conversion function of the speech signals, as well as the conversion phase, which consists in determining the parameters of the speech signal of the source speaker, in the conversion the parameters of the speech signal of the source speaker into the parameters of the speech signal of the target speaker and in the synthesis of the converted speech signal, and in the training phase in the speech signal of the target and source speakers in the analysis frame, the harmonics of the fundamental tone, the noise component and the transition component are distinguished, while the voiced frame of the speech signal represents in the form of harmonics of the fundamental tone and the noise component, and the transition component consists of unvoiced frames of the speech signal, the frame of the speech signal is processed using one speaker and determine its vocalization, if the frame of the speech signal is vocalized, then determine its frequency of the fundamental tone, if the fundamental tone is not detected, then the frame is transient, and if the frame is not vocalized and
  • mappings are then converted to the parameters of the target speaker on the basis of the corresponding codebooks and the transition frame of the target speaker is synthesized.
  • the conversion phase if the frame of the speech signal of the source speaker is voiced, then the frequency of the pitch of the speech signal and the time profile of its change are determined using the discrete Fourier transform , consistent with the frequency of the fundamental tone, then divide the frame of the speech signal of the original speaker into components - the harmonics of the frequency of the fundamental tone and noise component equal to the residual noise from the difference between the frame of the original speaker and the resynthesized frame according to the harmonics of the fundamental tone, these mentioned components are converted into the parameters of the target speaker based on the codebooks of the display, while the conversion of the frequency of the fundamental tone for the original speaker is additionally taken into account, the component of harmonics of the fundamental tone is synthesized and a noise component of the target speaker, which are summed with the synthesized transition component and the pause of the speech signal.
  • RF patent M 2427044, G10
  • the method allows to increase the degree of coincidence of the voice of the target speaker in the converted speech signal by improving the intelligibility and recognition of the voice of the target speaker directly.
  • a limitation of the known technical solution is that it is completely text-dependent and it is impossible to control the learning process (phase) b for the most high-quality reproduction of a speech signal before and after its conversion.
  • the problem solved by the invention is improving the quality and technical and operational characteristics.
  • the technical result that can be obtained by implementing the claimed method and device is improving the quality of the training phase and the pace of its implementation, improving the degree of coincidence of the user's voice (target speaker) in the converted speech signal by improving the accuracy, intelligibility and recognition of the voice of the user directly, ensuring the possibility of a one-time training phase for a specific audio material, and the use of this training phase data to re-sound other audio materials .
  • the method of re-sounding audio materials is that an acoustic base of the source audio materials, including parametric files, and an acoustic training base, including av files of speaker training phrases and the corresponding acoustic base of the source ones, are formed in a software-controlled electronic information processing device audio materials, transport data from the acoustic base of the source audio materials to display a list of the outcome on-screen audio RU2013 / 000404
  • the user selects at least one audio material from the list of the source database of the source audio materials from the acoustic base list, the data about it is transferred to the program memory of the electronic information processing device for saving to the random access memory, and the speaker selects the appropriate audio material for the selected speaker from the acoustic training base which convert to sound phrases and transmit them to the user on the sound reproducing device, the user through the microphone doesn’t play sound phrases, during the playback of which the text of the phrase being reproduced and the cursor moving along the text of the phrase in accordance with how the user should play it are displayed on the monitor screen, create wav files in accordance with the phrases that are saved in the order in which the phrases are played in formed acoustic base of the target speaker, while a software-controlled electronic information processing device controls the speed of the reproduced phrase and its volume, according to wav files saved in the acoustic base of the target speaker and wav files of the acoustic training base are formed with a conversion function file, then the parametri
  • background noise was recorded, which is stored as a wav file in the acoustic base of the target speaker, and a program-controlled electronic information processing device performs noise reduction of background noise;
  • a program-controlled electronic information processing device filters the digital RAW stream corresponding to the reproduced phrase, instantaneously energy and smooth the results of calculating the instantaneous energy, compare the value of the smoothed average energy value with a given threshold value, calculate the average duration of pauses in the wav file, and a software-controlled electronic information processing device decides whether the reference speech speed matches;
  • a program-controlled electronic information processing device evaluates the duration of syllable segments, for this purpose, the speech signal of the reproduced phrase is normalized, filtering, detecting, multiplying the envelopes of the reproduced phrase signals, differentiating, comparing the received reproduced phrase signal with threshold voltages and highlighting the logical the signal corresponding to the presence of a syllable segment, calculate the duration of the syllables segment, after which the program-controlled electronic information processing device makes a decision on the conformity of the reference speech speed;
  • the software-controlled electronic information processing device displays a message about the violation of the volume of the played phrase on the monitor screen ;
  • the program-controlled electronic information processing device normalizes the wav files, cuts them, reduces noise, and controls the correspondence of the reproduced and displayed text of the reproduced phrase.
  • the device for re-sounding audio materials contains a control unit, a block for selecting audio materials, an acoustic base for the source audio materials, an acoustic base for the target speaker, a learning unit, a phrase playback unit, a phrase recording unit, an acoustic training base, a conversion unit, a function base conversions, acoustic base of converted audio materials, a unit for displaying conversion results, a monitor, a keyboard, a manipulator, a microphone, a device Playing sound, the keyboard output is connected to a first input control unit, to the first input of the block for selecting audio materials, and to the first input of the block for displaying conversion results, the output of the manipulator is connected to the second input of the control unit, to the second input of the block for selecting audio materials, and to the second input of the block for displaying conversion results, the input of the monitor is connected to the output of the block selection of audio materials, to the output of the training unit, to the
  • An additional embodiment of the device is possible, in which it is advisable that an authorization / registration unit and a registered user base are entered into the device, the keyboard output is connected to the first input of the authorization / registration unit, and the manipulator output is connected to the second input authorization / registration unit, the monitor input is connected to the output of the authorization / registration unit, the sixth input / output of the control unit is connected to the first input / output of the registration authorization unit, and the second input / output of the authorization / registration unit 20 is connected to the input / output of the registered user base.
  • FIG. 1 depicts a functional diagram of the claimed device
  • FIG. 2 - graphical interface of the form for selecting audio materials
  • FIG. 3 - graphical interface of the authorization / registration form
  • FIG. 4 is a graphical interface of the background noise recording form
  • FIG. 5 is a graphical interface of the phrase reproduction form
  • FIG. 6 - graphical interface of the form of reproduction (recording) of the heard phrase
  • FIG. 7 subblocks of the phrase recording unit in FIG. one ;
  • FIG. 8 is a block diagram of an algorithm for allocating and measuring pause duration
  • FIG. 9 is a flowchart for estimating the duration of syllabic segments
  • FIG. 10 is a graphical interface of the conversion form of audio materials
  • FIG. 11 is a graphical interface of a conversion result form.
  • the device (Fig. 1) for re-sounding audio materials contains a control unit 1, an audio material selection unit 2, an acoustic base 3 of the original audio materials, an acoustic base 4 of a target speaker, a training unit 5, a phrase reproducing unit 6, a phrase recording unit 7, an acoustic training base 8, a unit 9 conversions, base 10 conversion functions, acoustic base 1 1 of converted audio materials, block 12 for displaying conversion results, monitor 13, keyboard 14, manipulator 15 (“mouse”), microphone 16, sound reproducing device 17 made from dynamics s 18 and / or a headphone output 19.
  • the keyboard 14 is connected to the first input of the control unit 1, to the first input audio content selection unit 2 and to the first input unit 12, the display conversion results.
  • the output of the manipulator 15 is connected to the second input of the block 1 control, to the second input of block 2 of the selection of audio materials, and to the second input of block 12 display the conversion results.
  • the input of the monitor 13 is connected to the output of the block 2 for selecting audio materials, to the output of the training unit 5, to the first output of the phrase reproducing unit 6, to the output of the phrase recording unit 7, to the output of the conversion unit 9, to the output of the conversion result display unit 12.
  • the input of the sound reproducing device 17 (speakers 18 and / or headphones 19) is connected to the second output of the phrase reproducing unit 6.
  • the microphone output 18 is connected to the input of the phrase recording unit 9.
  • the first input / output of the control unit 1 is connected to the first input / output of the audio selection block 2
  • the second input / output of the control unit 1 is connected to the first input / output of the acoustic base 4 of the target speaker
  • the third input / output of the control unit 1 is connected to the first input / output training unit 5
  • the fourth input / output of the control unit 1 to the first input / output of the conversion unit 9
  • the second input / output of the block 2 for selecting audio materials is connected to the first input / output of the acoustic base 3 of the original audio materials, and the second input / output of the acoustic base 3 of the original audio materials is connected to the fourth input / output of the block 9 of the conversion.
  • the second input / output of the acoustic base 4 of the target speaker is connected to the first input / output of the phrase recording unit 7, and the second input / output of the phrase recording unit 7 is connected to the third input / output of the training unit 5.
  • the second input / output of the training unit 5 is connected to the first input / output of the phrase reproducing unit 6, and the second input / output of the phrase reproducing unit 6 is connected to the input / output of the acoustic training base 8.
  • the fourth input / output of the training unit 5 is connected to the first input / output base 10 conversion functions, the second input / output of base 10 is connected to the second input / output of the conversion unit 9.
  • the third input / output of the conversion unit 9 is connected to the second input / output of the acoustic base 11 of the converted audio materials, and the first input / output of the acoustic base 11 of the converted audio materials is connected to the second input / output of the conversion result display unit 12.
  • the authorization / registration unit 20 and the registered user base 21 can be entered into the device, the keyboard 14 output is connected to the first input of the authorization / registration unit 20, and the output of the manipulator 15 is connected to the second input of the authorization / registration unit 20, the input of the monitor 13 is connected to the output of the unit 20 authorization / registration, the sixth input / output of the control unit 1 is connected to the first input / output of the authorization / registration unit 20, and the second the input / output of the authorization / registration unit 20 is connected to the input / output of the base 21 of registered users.
  • the device can be a remote server (Fig. 1 shows a dash with a dotted line S), on which specialized software (STR) is installed - blocks 1-12, then the user from his computer device (Fig. 1 conditionally shows a dash with a dotted line C), using the monitor 13, the keyboard 14, the manipulator 15 (the “mouse”) it is possible, for example, to connect via the Internet to the site of the remote server S and launch its functions, or the device S via the Internet can be installed directly on The user's personal computer or installed on it using a compact disk or Compact Disc DVD (Digital Versatile Disc), then devices S and C are a single unit.
  • a remote server Fig. 1 shows a dash with a dotted line S
  • STR specialized software
  • the device operates (Fig. 1) as follows.
  • the user Using the keyboard 14 and / or the manipulator 15, the user starts the control unit 1, which from its first input / output transmits a command to start the operation of the device from the first input / output of the audio selection block 2. From the second input / output of block 2, the request for a list of audio materials contained in it is sent to the first input / output of the acoustic base 3 of the original audio materials. Audio materials intended for re-sounding are stored in the acoustic base 3 in the form of parametric audio files, for example, with the extension war, which can be obtained and installed in the acoustic base 3 of the original audio materials using the Internet, CDs, etc.
  • the audio materials are stored in the form of WAV files (wav from the English wave “wave”).
  • the conversion of a WAV audio file into a parametric audio file, for example, with the extension war or vice versa, is carried out in a known manner by the parameterization module (not shown in FIG. 1).
  • a parametric file with the extension war describes the audio signal in the form of speech model parameters.
  • the speech formation model for use in this technical solution consists of the pitch frequency (1st parameter), the instantaneous amplitude vector (2nd parameter), the instantaneous phase vector (3rd parameter) and the noise residue (this is the 4th parameter).
  • Indicated Parameters characterize the acoustic signal (one such set corresponds to 5ms) and is needed to perform the conversion procedure. During the conversion process, these parameters are changed from the parameters corresponding to the source speaker to the parameters corresponding to the target speaker (user), after which an output signal in wav format is formed (synthesized).
  • the differences between the parametric audio file and the wav file are that wav describes the signal as a sequence of time samples, while the parametric audio file describes the signal as a set of speech model parameters that change during the conversion.
  • the main advantage of the parametric file is that the signal in the form of a sequence of time samples cannot be directly processed as required by the conversion task (for example, you cannot evaluate and change its tone).
  • the disadvantages of the parametric file before the wav file are that if it is not necessary to modify the speech, then it requires more disk space and does not fully restore the original signal.
  • the acoustic base of 3 source audio files are stored as parametric files with the extension war (or equivalent), and in the acoustic base 4 of the target speaker, in the acoustic training base 8, in the acoustic the base of 11 converted audio materials - in the form of wav files (or equivalent).
  • the data on the list of audio materials that are sent to the user monitor 13 and displayed on its screen in the graphical interface is transmitted to the second input / output of the block 2 for selecting audio materials.
  • a graphical interface containing a list of audio materials can have a different appearance, shape and tools (in Fig. 2 shows one of the possible options for its implementation).
  • the audio selection form has an audio filtering line 22 with the following tools:
  • “New” - button 24 when pressed, in the form of selecting audio materials, information about N (specified in the device configuration parameters) audio materials installed last (in time) into the acoustic base of 3 source audio materials is displayed;
  • “Popular” - button 25 when pressed, in the form of selecting audio materials, information about N audio materials that are most often voiced by users is displayed;
  • “Age” a drop-down list 26 of a choice of a range of ages.
  • the graphical interface for selecting audio materials displays a list of audio materials calculated (by interest) for the selected age;
  • “Search” - input field 27 for searching for audio materials The search is carried out by the Name of the audio materials (Text string associated with each audio material: each audio material has its own name. The name of the audio material is stored in the acoustic database of 3 source audio materials).
  • search string search criteria
  • the audio selection form displays a list of audio materials that match the entered search criteria. For example, if the value “doctor” is entered in the “Search” field, then the audio materials with the word “doctor” in the name (“Doctor Aibolit”, “Doctor Zhivago”, etc.) will be displayed in the graphical interface for selecting audio materials.
  • Area 28 contains a list of audio materials filtered according to the criteria specified in line 22 of the filtering. Each list entry displays information associated with a particular audio material and stored in the acoustic base of 3 source audio materials. This information includes:
  • the GUI form also contains: Button 32 "Select", when pressed, the block 2 of the choice of audio materials puts the corresponding audio material in the list of audio materials for re-sounding - "basket” (the term “basket” means a list of audio files selected by the user for re-sounding from the acoustic base 3).
  • the “basket” is stored in the random access memory (RAM) of block 2. If necessary, block 1 promptly extracts the “basket” from block 2.
  • control block 1 is functionally a process manager of the device, by analogy with the Windows process manager, block 1 synchronizes the rest blocks 2-12 in accordance with the technological operations performed by them, and the sequence of their operation.
  • Button 33 “Re-sound”, when pressed, the process of re-sounding of audio materials added to the list of audio materials for re-sounding (“basket”) starts. If the "Trash” is empty, the "Replay” button is not available.
  • the user uses the keyboard 14 and / or the manipulator 15, adds to the “basket” when pressing the 32 button “Select” in the list displayed on the monitor screen 13 the audio materials of interest to him.
  • Block 2 selection of audio materials generates a list of user-selected audio materials as follows.
  • the operating system of the device initiates the event of pressing the button - the material for re-sounding is selected.
  • Information about the implementation of this event (command) is transferred to block 2 of the choice of audio materials, which moves the selected audio materials to the "basket” - a list containing information about the user selected audio materials and stored in the RAM unit 2).
  • the user using the keyboard 14 and / or the manipulator 15, sends a command to start the process of re-sounding of the audio materials in the “basket” using the “Re-play” button 33 to the audio selection block 2.
  • a command is sent to the first input / output of block 1 of the control to complete the formation of the “basket”, i.e. user selection of at least one audio material for re-sounding.
  • the control unit 1 on the chain - the sixth input / output of the unit 1 - the first input / output of the unit 4 authorization / registration activates the authorization function of the user of unit 20.
  • Unit 20 initiates the authorization form / registration of a graphical interface, which from its output goes to the input of the monitor 13 to display it to the user.
  • the authorization / registration form (Fig. 3) has the fields:
  • the authorization / registration form also contains tools (buttons):
  • the authorization / registration unit 20 checks for the presence in the database of 21 registered users of user information with the entered credentials (email and password);
  • the authorization / registration unit 20 initiates the user registration process in the database of 21 registered users.
  • Block 20 from its second input / output passes to the input / output of the base 21 registered users request information on the availability of 21 registered users in the database with the entered credentials.
  • an authorization error message is received, for example, “The user with the credentials entered is not registered. To continue, you must enter the correct credentials or register. ”
  • the user through the keyboard 14 and the manipulator 15 enters his email (login) in the field 34 of the authorization / registration form and presses the button 37 "Registration”.
  • the authorization / registration unit 20 generates a password and a unique user identifier (ID) for the user.
  • Block 20 displays the generated password to the user on the monitor screen 13 (necessary for the user during subsequent authorizations in the device).
  • the user data (user-entered email, the generated password and ID) is received from the second input / output of block 20 to the input / output of the database 21 of registered users for storage in database 21.
  • the database 21 of registered users transfers a unique user ID from their input / output to the second input / output of the block 20.
  • the authorization / registration unit 20 stores the user ID. If necessary, block 1 quickly extracts the ID from block 20.
  • the list of audio files (the “basket”) and user ID are the values stored in global variables (in the case of a remote server of the CloneBook web application), throughout the entire session of the user using the device, these global variables are available to all other blocks of the computer device.
  • control unit 1 sends its first input / output request to the first input / output of the acoustic base 4 of the target speaker to check if it contains records of user phrases with this ID (in order to find out if the user trained the previously declared device according to the sample of his voice) .
  • Block 1 quickly extracts the user ID from the memory of block 20 along the chain: the sixth input / output of block 1 — the first input / output of block 20. Records of user phrases are stored in acoustic database 21 as audio files in a directory whose name contains only the user ID (in the the user's directories contain records of his phrases).
  • the third the input / output of the control unit 1 to the first input / output of the training unit 5 receives a command for its operation, in accordance with which from the second input of the output of the unit 5 and from its third input / output, respectively, sequentially receive commands to the first input / output of the phrase playback unit 6 (from the training base) and to the second input / output of the block 7 recording phrases (in the database) of the user.
  • block 1 controls block 5 (gives it a command to start work), and block 5, in turn, controls blocks 6 and 7.
  • the phrase reproducing unit 6 is intended for reproducing a phrase from the training base 8 to the user, therefore, its second input / output is connected to the input / output of the acoustic training base 8, and its output to the sound reproducing device 17 (speakers 18 and / or headphones 19).
  • the wav files of the training base 8 are converted by the driver into sound phrases.
  • the user after listening to the phrase, after the signal of the device type “ready for recording”, must repeat it into the microphone 18.
  • Block 9 is used to record the phrase played by the user and its input is connected to the output of the microphone 16. Converting the analog signals of the microphone 16 and the sound reproducing device 17 to Digital is carried out using the drivers of the respective devices. For example, the sound from microphone 16 is converted to digital RAW- ⁇ (audio stream) using the sound card driver.
  • block 7 sets the time ⁇ , during which the user must repeat the phrase played by block 6 (the time ⁇ is determined by the duration of the phrase recorded in the acoustic training base 8).
  • the graphical interface for recording background noise is transmitted to the monitor screen 13 from the output of block 7.
  • the background noise recording GUI (Error! Link source not found.) Contains:
  • Button 38 "Start recording", when pressed, the process of recording background noise starts.
  • the background noise is read using a microphone 16 and transmitted to the input of the block 7 of the phrase recording, which is transmitted in the form of an audio stream from the first input / output of block 7 to the second input / output of the acoustic base 4 of the target speaker, and the audio stream is saved in the form audio file. Audio file with background noise stored in acoustic base 4 in the user directory (the name of which contains the user ID).
  • An audio file with background noise is stored in acoustic base 4 in a directory whose name contains only the user ID. This directory is created (before saving the first phrase recorded by the user) acoustic base 4.
  • the user ID acoustic base 4 requests from the control unit 1 on the chain "first input / output of base 4" - "second input / output of block 1".
  • the control unit 1 promptly extracts the user ID from block 4 along the chain "sixth input / output of block 1" - "first input / output of block 20".
  • An indicator 39 (Fig. 4) of the background noise recording process is formed on the monitor screen 13.
  • the user by means of the manipulator 15 presses the button 38. During the period when the background noise is recorded (indicator cursor 39 moves from 0 to 100%), the user must observe silence.
  • the phrase reproduction unit 6 exits to the monitor 13 for displaying the phrase reproduction interface on the monitor screen 13 (Error! Link source was not found.) -
  • the phrase reproduction unit 6 receives the specific phrase from the acoustic training base 8 as a file and reproduces the user using the device 17 sound reproduction.
  • Acoustic training base 8 contains a certain number of audio files with phrases, the number of which (implemented in practice), for example, is thirty-six. Block 6 sequentially reproduces them. Moreover, the sequence of their reproduction is not important. Information about which phrases block 8 has already played, and which still need to be played back, is stored in block 8 itself.
  • each audio material is associated with a list of phrases from the acoustic training base 8.
  • the comparison is carried out in the form of a list of the form: “audio material-0 l .wav” - “phrases from the base 10: 001.wav, 005.wav, 007.wav ... ".
  • Phrases for the audio material of acoustic base 3 are selected using allophone analysis of the text, for example, in an automated way (National Academy of Sciences of Ecuador, Joint Institute for Informatics. BM Lobanov, LI Tsirulnik. “Computer synthesis and speech cloning ”, Minsk, Zealandian Science, 2008, pp. 198-243) and are stored in an acoustic training base 8.
  • An indicator of the reproduced phrase 40 is displayed, containing:
  • the cursor location is synchronized with the phrase playback. That is, at the beginning of the phrase playback, the cursor is located at the first character of the phrase text, at the end of playback - at the last character.
  • the speed of the cursor takes into account the pace of speech by the speaker of the phrase from the acoustic training base 8. That is, if the speaker of the acoustic phrase “pulls” a letter in a word, the cursor “slows down” the speed of movement on that letter (for example, if the speaker says a word with a delay of the letter "o", that is, "But-o-o-o-o-ozhnitsa", then the cursor on the letter "o” also slows down the movement).
  • the cursor speed parametric file is a set of pairs of correspondence values: “cursor position - msec”.
  • Each phrase (sound file) from the acoustic training base 8 has its own parametric cursor speed file, for example, with the extension of sagas.
  • the training unit 5 generates a command to start the phrase reproduction unit 6 along the chain “second input / output of block 5 - first input / output of block 6”; The command is to play the next phrase from the acoustic training base 8.
  • the sequence is set by block 6).
  • block 6 reproduced the phrase - and returned to block 5 the result of the work (the result is the number of the phrase played, for example, “001.wav”)
  • block 5 creates a command to start block 7 of phrase recording (along the “third block input / output chain” 5 - second input / output unit 7 ").
  • Block 7 records the user phrase and returns the result to block 5 (along the same chain.
  • the result is number of 4 phrases recorded in the database. For example, “002.wav”). This cycle is repeated for each phrase from the training acoustic base 8.
  • the phrase recording unit 7 displays on the monitor screen 13 to the user the following possible graphic interface for recording the phrase (Error! Link source was not found.).
  • the graphical phrase recording interface has an indicator 41 of the recorded phrase containing:
  • the audio stream from the output of the microphone 16 goes to the phrase recording unit 7, which, through its first input / output, goes to the second input / output of the acoustic base 4 of the target speaker and is stored in the base 4 in the form of an audio file.
  • the audio file is stored in acoustic base 4 in a directory whose name contains only the user ID. This directory is created (before saving the first user-recorded phrase) by the acoustic base 4.
  • the user ID of the acoustic base 4 requests the control unit 1 via the circuit “first input / output of the acoustic base 4” - “second input / output of block 1”.
  • the control unit 1 promptly extracts the user ID from the block 20 along the chain “sixth input / output of block 1” - “first input / output of block 20”.
  • the phrase recording unit 7 performs (Fig. 7) control of the user's speech speed. If a user teaching a computer device speaks too fast or too slowly (disrupts the speech rate), the speech speed control unit 7 (A) (from the composition of the phrase recording unit 9 displays a warning message about the violation of the speech rate on the monitor screen 13: For example, “You are talking too quickly, speak slower "(if the user speaks fast), or” You speak too slowly, speak faster "(if the user speaks slowly). The text of the warning messages is contained in the program of block 7 (A). Block 7 (A) control the speed of speech (is a proprietary) determines the speed (pace) of speech as follows.
  • the determination of the rate of speech is based on the use of two algorithms: determining the duration of pauses and highlighting, as well as evaluating the duration of syllable segments in a speech signal.
  • Pauses are localized by digital filtering in two spectral ranges corresponding to the localization of energy maxima for voiced and noisy (unvoiced) sounds, fourth-order Lerner filters, “weighting” of the short-term energy of a speech signal in two frequency ranges using a rectangular window lasting 20 ms.
  • Determining the duration of syllabic segments is based on a refined auditory model that takes into account the spectral distribution of vowels, filtering in two mutually correlated spectral ranges.
  • the decision on whether a speech segment belongs to a syllable containing a vowel sound, and localization of the vowel sound is carried out by a software-implemented combinational logic circuit.
  • speech speed is made on the basis of analysis by both algorithms on the interval of information accumulation: the entire file for Offline mode, or by reading the stream (file) with the output every 15 seconds.
  • the algorithm for determining the rate of speech consists of the following steps:
  • the normalization of the input speech signal is carried out in order to exclude the dependence of the measurement results on the amplitude (volume) of the recorded or input signal. Rationing is performed as follows:
  • the conversion factor is determined by the formula equal to the ratio of the maximum possible value of the amplitude to the found average value.
  • the method is based on measuring instantaneous energy in two frequency ranges corresponding to the maximum concentration of energy voiced (frequency range 150 - 1000 Hz) and unvoiced (frequency range 1500 - 3,500 Hz) sounds.
  • Block 42 performs second-order filtering (Lerner filter) of the input speech signal (reproducible user phrase) into the output speech signal.
  • the input speech signal is a digital RAW- ⁇ (English raw - raw) - audio stream - the signal value from 0 to 32768, is a dimensionless quantity.
  • ⁇ ( ⁇ ) (2 ⁇ ⁇ 1 - XI) ⁇ ⁇ - ⁇ 2 ⁇ ⁇ 2 + X (n);
  • K1 K X COS (2TT ⁇ );
  • X ( ⁇ ) is the current value of the input signal
  • ⁇ ( ⁇ ) is the current value of the output signal
  • Po1 850 Hz for the first and 2000 Hz for the second band-pass filters;
  • Fd is the sampling frequency in Hz.
  • Fd 8 000 Hz;
  • a fourth-order filter is implemented by cascading sequentially connecting two second-order links of the indicated type.
  • the calculation of the instantaneous energy of the speech signal is performed by block 43.
  • Sn is the value of the instantaneous energy in the nth window (SnB is for the range of 1500–3500 Hz and SnH is for the range of 150–10 Hz);
  • Yn is the output filter value
  • M is a scale factor limiting overflow. It was experimentally established that the value of M for the conversion tasks can be taken 160.
  • Instantaneous energy is calculated in two frequency ranges corresponding to bandpass filters (see clause 2.1).
  • Y (n) is the current output value of the low-pass filter
  • Sn is the current input value of the low-pass filter (instantaneous energy value);
  • k is a coefficient that determines the time constant or cutoff frequency of the low-pass filter.
  • the threshold device (block 44) compares the current value of the smoothed average energy value in a given band with a threshold value (determined experimentally), a value of 50 mV can be taken as the initial level. For a pause, the energy value is less than the threshold level in both spectral ranges. From this moment, the pause duration starts.
  • the average duration of a pause in the processed file or in the analyzed section (block 45) is defined as the sum of the lengths of all pauses divided by their number
  • Shh the average duration of a pause in the processed file or in the analyzed area
  • N Ni - number of pauses in the processed file or in the analyzed area
  • Block 47 makes a decision on the correspondence of the speed (pace) of speech.
  • the conclusion about the pace of speech is taken on the basis of the following provisions:
  • the standard file is a wav file with recording parameters of 16 bits of 8000 Hz, obtained experimentally. It is stored in block 7 (A) for controlling the speed of speech.
  • U / uft is the energy envelope in the A1 frequency band
  • U A 2 is the energy envelope in the A2 band.
  • the frequency range of the first band-pass filter equal to 250 - 540 Hz, was chosen due to the fact that it lacks the energy of high-energy fricative sounds like / w / and / h /. which create erroneous syllabic kernels, and also a significant part of the energy of all sonorous sounds, including vowels, is concentrated.
  • the energy of sonor sounds like / l /, / m /, / n / is comparable to the energy of vowels, which is why the definition of syllable segments only taking into account the envelope of the speech signal in this range is accompanied by errors. Therefore, the frequency range of the second band-pass filter is selected in the range of 800 - 2500 Hz, in which the energy of vowels is at least twice the energy of sonor sounds.
  • the curve sections Due to the operation of multiplying the envelopes UA / (and ⁇ ) in the resulting time function, the curve sections are amplified in the field of vowels due to the correlation of their energies in both ranges.
  • erroneous energy maxima predetermined by the presence in the range of 800-2500 Hz of a significant part of the energy of fricative sounds, are eliminated by multiplying them by almost zero value of the amplitude of fricative sounds in the range of 250 - 540 Hz.
  • Normalization of the reproduced phrase is performed by block 48.
  • the normalization of the speech signal ensures the alignment of weak (quiet) signals in order to exclude the dependence of the measurement results on the volume of the input speech signal.
  • the normalization of the reproduced phrase is carried out in order to exclude the dependence of the measurement results on the amplitude (volume) of the recorded or input signal.
  • Rationing is performed as follows:
  • the conversion factor is determined by the formula equal to the ratio of the maximum possible value of the amplitude to the found average value.
  • Each value of the input signal is multiplied by a conversion factor.
  • the decision on the speed is based on the calculation of the duration of pauses and syllable segments. In this case, the following combinational logic is implemented:
  • short is the deviation of the duration from the reference by 30%
  • syllable analysis is a priority, with a warning about long pauses.
  • Block 7 recording phrases controls the volume of the user's speech. If the user speaks too loud or too quiet, the speech volume control unit 7 (B) of the phrase recording unit 7 displays a warning message on the monitor 13 about the violation of the volume of the phrase being played, for example: “You speak too loudly, speak quieter” ( if the user speaks loudly) or "You speak too quietly, speak louder” (if the user speaks quietly). The text of the warning messages is contained in the text of the program block 7 recording phrases.
  • Block 7 (B) controls the volume of speech controls the volume of the speaker’s speech as follows: it checks whether the current value of the speaker’s signal level is in the acceptable range of signal levels. The range of signal levels is specified in the program text of block 7 (B) as constant values. When using WAV files, the volume level signal has no units. The value changes from 0 (no sound) to 32768
  • the upper limit of the range is equal to 28 LLC
  • a warning message “too loud” is transmitted to the monitor screen 13. If the current signal level value is less than the lower limit of the range, a warning “too quiet” is generated.
  • phrase recording block 7 After recording a phrase that matches and satisfies the given parameters of blocks 7 (A) and 7 (B), the phrase recording block 7 processes the stored audio file (with the user’s phrase) in the following sequence:
  • - Trimming consists in removing pauses from the recorded phrase (recording sections in which speech has been absent for more than 500 ms).
  • the trimming is performed by the trimming unit 7 (D) (from the composition of the phrase recording unit 7), the sound files to the input of the unit 7 (D) are supplied as WAV files.
  • Noise reduction implemented as a standard algorithm for eliminating noise from a useful signal based on the spectral subtraction method. Noise reduction is performed by block 7 (G) noise reduction (from the composition of block 7 recording phrases);
  • the phrase recording unit 7 starts the process of rewriting the given phrase: playing the phrase to the user (Fig. 5), recording the user's phrase (Fig. 6).
  • the learning unit 5 is similarly sequentially:
  • the result is a set of audio files with user phrases recorded in the acoustic base 4 of the target speaker.
  • the training unit 5 generates a file of the conversion function for the recorded phrases that does not have an extension (the conversion function is necessary for converting the voice of the original speaker to the voice of the corresponding user).
  • the training unit 5 estimates the value of the “approximate” time for obtaining the conversion function taking into account the conversion time of the audio materials.
  • the received time the training unit 5 displays to the user on the screen of the monitor 13 in the form of the text: “Wait. It remains 01:20:45. " The displayed time is updated on the monitor screen 13 with the frequency specified by the settings of the training unit 5.
  • the “approximate” time is calculated by the training unit 5 on the basis of statistical data accumulated in its internal memory.
  • Statistical data includes the following information about the tasks already completed to obtain the conversion function and the conversion itself: the volume of recorded audio files with user phrases, the actual time to receive the conversion function and the conversion itself, the number of conversion tasks executed in parallel with this one (several users can use the device at once, therefore a situation is possible when conversions of different users overlap in time, i.e. conversion tasks can be performed in parallel).
  • the training unit 5 determines the closest value from the statistical data according to the following criteria: the volume of audio materials, the number of conversion tasks performed. Created file conversion functions, the training unit 5 stores in the base 10 conversion functions under the ID of the corresponding user.
  • the training unit 7 evaluates the conversion function by successive approximations.
  • the input parameters are the amplitude spectral envelopes of the speech signals of the source and target speakers (user).
  • the sequence of amplitude spectral envelopes of the source speaker (stored in wav files) is converted using the current conversion function and the distance of the obtained sequence from the target is calculated.
  • the error is normalized, i.e. divided by the number of envelopes in the sequence.
  • the conversion error in this terminology is the Euclidean norm of the amplitude spectral envelopes of the speech signals of the source and target speakers, in other words, the rms value of the conversion error of the timbral component, which is determined by the envelope of the spectrum. It can be obtained only after determining the conversion function and performing the conversion procedure itself.
  • block 7 additionally calculates the value of the "root mean square value of the conversion error of the timbral component". The resulting value is compared with the thresholds:
  • the learning unit 5 displays on the monitor screen 13 a message about the need to rewrite the phrases.
  • Learning block 5 overwrites phrases: from the second input / output of block 5 and from its third input / output, respectively, commands are sent sequentially to the first input / output of the phrase reproduction unit 6 from the acoustic training base 8 and to the second input / output of the phrase recording unit 7 into the acoustic base 4 of the target speaker (user).
  • the conversion of the audio materials is performed by the conversion unit 9, which, through the chain “first input / output of the conversion unit 9 - the fifth input / output of the control unit 1”, requests and receives data from the “basket” audio materials from the control unit 1. 00404
  • Block 1 promptly extracts these audio materials from the memory of block 2 for selecting audio materials through the chain “first input / output of block 1” to “first input / output of block 2” and converts the audio materials contained in the “basket” using the received conversion function file from the base of 10 conversion functions .
  • Block 9 converts the parametric file of block 2 and converts it into a wav file for storing 11 converted audio materials in the acoustic base.
  • the conversion unit 9 displays through the output connected to the input of the monitor 13 on its screen a graphical interface for the conversion of audio materials (Error! Link source was not found.).
  • the indicator 58 of the conversion process (0% - the beginning of the conversion; 100% - conversion completed).
  • Conversion unit 9 transmits from its third input / output audio materials re-sounded by the user's voice to the second input / output of the acoustic base 9 of converted audio materials to save them as audio files.
  • the re-sounding process is complete.
  • the user can listen to the re-sounded audio materials from the sound reproducing device 17 (speakers 18 and / or headphones 19), as well as dub audio files with re-sounded audio materials to removable media.
  • the control unit 1 Upon completion of re-sounding, the control unit 1 from its fifth input / output transmits to the first input / output of the conversion result display unit 12 a command to start the unit 12.
  • the command parameter is the user ID whose audio materials have been converted by the device.
  • data is transferred to the second input / output of block 12 about the list of converted audio materials, which from the output of block 12 are sent to the user monitor 13 and displayed on its screen in the graphical interface of the results of the conversion of audio materials (Error! Link source not found.).
  • a graphical interface containing a list of converted audio materials can have a different appearance, shape and tools (on Error! Link source not found, one of the possible options for its execution is shown).
  • the graphical interface of audio conversion results has:
  • - Button 62 playback of the converted audio material through the device 17 sound reproduction; - Button 63 to delete the audio file of the converted audio material from the acoustic base of 11 converted audio materials;
  • the device When the tool is pressed - the Play button 62, the device’s operating system generates an event - play the selected converted audio material using device 17. Information about the implementation of this event (command) is transmitted to the converted audio material display unit 12, which requests a specific converted audio material from the acoustic base 13 ( along the circuit "second input block output 14 - the first input / output of the acoustic base 13") in the form of a file and reproduces to the user using the device 17 sound sound.
  • the device implements the following method of re-sounding audio materials:
  • the acoustic base of the source audio materials including parametric files
  • the acoustic training base including wav files of the speaker’s training phrases and the corresponding acoustic base of the source audio materials are formed
  • the claimed method and device can improve the quality of the training phase, improve the degree of coincidence of the user's voice (target speaker) in the converted speech signal by improving the accuracy, intelligibility and recognition of the voice of the user directly, provide the possibility of a one-time training phase for a specific audio material, and using this learning phase data to re-sound other audio material.

Abstract

Способ и устройство позволяют повысить качество проведения фазы обучения, улучшить степень совпадения голоса пользователя (целевого диктора) в конвертированном речевом сигнале, обеспечить возможность одноразового проведения фазы обучения для различных аудиоматериалов. Указанный технический результат достигается тем, что в программно управляемом электронном устройстве обработки информации (ПУЭУОИ) формируют акустическую базу исходных аудиоматериалов (АБИА) и акустическую обучающую базу (АОБ). Передают данные из АБИА для отображения списка исходных аудиоматериалов на экране монитора. При выборе из списка АБИА по меньшей мере одного аудиоматериала, данные о нем передают для сохранения в ОЗУ ПУЭУОИ. Осуществляют выбор из АОБ обучающих фраз диктора файлы, которые преобразуют в звуковые фразы и передают их пользователю на устройство воспроизведения звука. Пользователь посредством микрофона воспроизводит звуковые фразы, в процессе воспроизведения которых на экране монитора отображают текст воспроизводимой фразы и курсор, перемещающийся по тексту фразы в соответствии с тем, как пользователь должен ее воспроизвести. Создают файлы в соответствии с воспроизводимыми фразами, которые сохраняют по порядку воспроизведения фраз в формируемой акустической базе целевого диктора (АБЦД). ПУЭУОИ производит контроль скорости воспроизводимой фразы и ее громкости. Формируют файл функции конверсии. Файлы АБИА, используя файл функции конверсии, конвертируют для сохранения в формируемой акустической базе конвертированных аудиоматериалов (АБКА) и предоставления пользователю данных о конвертированных аудиоматериалах на экране монитора. Устройство содержит соответствующие функциональные блоки, реализующие способ.

Description

СПОСОБ ПЕРЕОЗВУЧИВАНИЯ АУДИОМАТЕРИАЛОВ И
УСТРОЙСТВО ДЛЯ ЕГО ОСУЩЕСТВЛЕНИЯ
Изобретение относится к электронной технике, преимущественно с использованием программно управляемых электронных устройств обработки информации, и может быть использовано в синтезе речи.
Известно устройство для определения и коррекции акцента, включающее в себя: (а) средства для ввода нежелательных речевых образов, в которых упомянутые выше речевые образы оцифровываются, анализируются и сохраняются в цифровой памяти в виде библиотеки нежелательных речевых образов; (Ь) средства для ввода правильных речевых образов, соответствующих упомянутым выше нежелательным речевым образам, в которых упомянутые выше правильные речевые образы оцифровываются, анализируются и сохраняются в цифровой памяти в виде библиотеки правильных речевых образов; (с) средства для активного распознавания поступающих речевых образов, сравнения упомянутых выше распознанных речевых образов с нежелательными речевыми образами, сохраненными в цифровой памяти в виде библиотеки нежелательных речевых образов, и удаления и постановки в очередь замены нежелательных речевых образов, выявленных в упомянутых выше поступающих речевых образах; (d) средства для анализа упомянутых выше нежелательных речевых образов, выявленных в поступающих речевых образах, и определения однозначно соответствующих им правильных речевых образов; и (е) средства для замены упомянутых вьппе нежелательных речевых образов, выявленных в поступающих речевых образах, упомянутыми выше правильными речевыми образами, которые признаны однозначно соответствующими упомянутым выше нежелательным речевым образам, с получением в результате выходных речевых образов, в которых упомянутые вьппе нежелательные речевые образы удалены и заменены упомянутыми выше правильными речевыми образами. (Заявка на патент США No 20070038455, G10L 13/00, опубл. 15.02.2007).
В этом устройстве входной аудиосигнал анализируется на наличие предварительно заданных нежелательных речевых образов, т. е. фонем или фонемных групп, которые нуждаются в исправлении, например, представляющих собой иностранный акцент. Эти нежелательные образы затем изменяются или полностью заменяются предварительно сохраненными звуковыми образами, скорректированными на тональность голоса пользователя. Уровень коррекции речи, т. е. набор подлежащих изменению фонем может задаваться нужным образом. Устройство работает в двух режимах: первый - режим обучения, т. е. сохранение нежелательных фонем и звуковых образов для их замены, а второй - режим исправления, т. е. в котором осуществляется изменение фонем на основе сохраненной информации. Для осуществления этого изобретения используется программное обеспечение и оборудование на базе компьютера. Оборудование, принцип действия которого основан на параллельной обработке сигналов, позволяет корректировать акцент в реальном времени с различными уровнями сложности, вплоть до сверхсложных систем коррекции различных акцентов у нескольких пользователей, базирующихся на многоконтурной архитектуре, состоящей из нескольких микросхем и плат.
Ограничением этого устройства является возможность только коррекции нежелательных фонем и невозможность регулирования других речевых характеристик, например, изменения тембра голоса.
Известно устройство обработки речевой информации для модуляции входного голосового сигнала путем его преобразования его в выходной голосовой сигнал, содержащее устройство ввода, выполненное с возможностью введения звукового сигнала, представляющего собой входной голосовой сигнал с характерным частотным спектром, устройство обработки звукового сигнала, выполненное с процессором, обеспечивающим изменение частотного спектра входного голосового сигнала, базу данных параметров, в которой сохраняется несколько наборов параметров, каждый из которых индивидуально характеризует изменение частотного спектра процессором, устройство управления, которое выбирает из базы данных параметров нужный набор параметров и настраивает процессор с помощью выбранного набора параметров, и устройство воспроизведения, выполненное с возможностью вывода звукового сигнала, обработанного процессором и представляющим собой голосовой сигнал с выходными характеристиками частотного спектра, соответствующими выбранному набору параметров (Патент США N° 5847303, G10H 1/36, опубл.08.12.1998).
В этом устройстве осуществляется конвертация частотного диапазона, которая позволяет мужчинам петь караоке женским голосом и наоборот. Кроме того, устройство позволяет петь песню караоке голосом выбранного профессионального певца/певицы за счет изменения частотного спектра. Таким образом, устройство позволяет изменять речевые характеристики в соответствии с набором заранее заданных параметров, хранящихся в базе данных вычислительного устройства, например, компьютера. Ограничениями устройства являются: звуковой сигнал можно преобразовать только в заранее заданный звуковой сигнал, характеризующийся заранее сохраненными параметрами в базе данных; невозможность воспроизведения измененного звукового сигнала в другой точке пространства, т.к. устройство предназначено только для использования в караоке, данное устройство в режиме реального времени может использовать только один пользователь.
Известно устройство для конвертации входящего голосового сигнала в выходящий голосовой сигнал в соответствии с целевым голосовым сигналом, содержащее источник входящего звукового сигнала, запоминающее устройство, которое временно хранит исходные данные, которые соотносятся и берутся из целевого голоса, анализирующее устройство, которое анализирует входящий голосовой сигнал и извлекает из него ряд фреймов входящих данных, представляющих входящий голосовой сигнал, производящее устройство, которое производит ряд фреймов целевых данных, представляющих собой целевой голосовой сигнал, основанный на исходных данных, корректируя фреймы целевых данных относительно фреймов входящих данных, и синтезирующее устройство, которое синтезирует выходящий голосовой сигнал в соответствии с фреймами целевых данных и фреймами входящих данных, при этом производящее устройство выполнено на базе характеристического анализатора, который выполнен обеспечивающим извлечение из входящего голосового сигнала характеристического вектора, являющегося характеристикой выходного голосового сигнала, и на базе корректирующего процессора, при этом запоминающее устройство сохраняет данные характеристических векторов для использования при распознавании их, содержащихся во входящем голосовом сигнале, и сохраняет данные функции преобразования, которые являются частью исходных данных и представляют собой характеристику целевого поведения голосового сигнала, причем корректирующий процессор определяет данные распознавания характеристических векторов и данные функции преобразования в отношении данных выходной корректировки, соответствующей информации о тоне данных функции преобразования, информации об амплитуде данных целевого поведения и информации о форме огибающего спектра характеристического вектора, при этом анализирующее устройство, характеристический анализатор, корректирующий процессор и синтезирующее устройство соединены последовательно, выход данных характеристических векторов запоминающего устройства подсоединен к входу данных характеристического анализатора, а выход данных функции преобразования запоминающего устройства подсоединен к входу данных корректирующего процессора, при этом в устройство введены переключатель режима обучения/эксплуатации и анализатор входного сигнала, источник входящего звукового сигнала подсоединен к входу переключателя режима обучения/эксплуатации, запоминающее устройство снабжено блоком фонограмм, обеспечивающим хранение данных базы фонограмм профессиональных исполнителей, вход/выход переключателя режима обучения/эксплуатации подсоединен к входу/выходу анализатора входного сигнала, а его выход - к входу блока фонограмм запоминающего устройства, первый выход данных блока фонограмм подсоединен к входу анализатора входного сигнала, а второй выход данных блока фонограмм - к входу анализирующего устройства, анализатор входного сигнала выполнен обеспечивающим разложение входящего голосового сигнала, поступающего на его вход/выход через переключатель режима обучения/эксплуатации от источника входящего звукового сигнала, на синусоидальные компоненты сигнала, шумовые компоненты сигнала и остаточные компоненты сигнала и выполнен с возможностью формирования наборов характеристических векторов и функций преобразования для каждой упомянутой компоненты по отдельности и передачи их в запоминающее устройство, анализирующее устройство выполнено обеспечивающим разложение входящего голосового сигнала с блока фонограмм на синусоидальные компоненты сигнала, шумовые компоненты сигнала и остаточные компоненты сигнала, а характеристический анализатор и корректирующий процессор выполнены с возможностью обработки упомянутых компонент по отдельности. (Патент РФ N° 2393548, G10L13/00, опубл. 27.06.2010).
Устройство позволяет обеспечить в караоке исполнения песни голосом пользователя, но в манере и с качественным уровнем исполнения профессионального певца (например, не хуже уровня исполнения известного исполнителя данной песни), при этом минимизируются ошибки, допускаемые пользователем при исполнении.
Ограничением устройства являются невозможность контроля режима обучения для получения наиболее высокого качества воспроизведения в режиме эксплуатации.
Известен способ конверсии голоса, включающий фазу обучения, заключающуюся в динамическом выравнивании речевых сигналов текстов целевого и исходного дикторов, в формировании соответствующих кодовых книг отображения и функции конверсии речевых сигналов, а также фазу конверсии, заключающуюся в определении параметров речевого сигнала исходного диктора, в конверсии параметров речевого сигнала исходного диктора в параметры речевого сигнала целевого диктора и в синтезе конвертированного речевого сигнала, причем в фазе обучения в речевом сигнале целевого и исходного дикторов в фрейме анализа выделяют гармоники основного тона, шумовую компоненту и переходную компоненту, при этом вокализованный фрейм речевого сигнала представляют в виде гармоник основного тона и шумовой компоненты, а переходная компонента состоит из невокализованных фреймов речевого сигнала, обрабатывают фрейм речевого сигнала исходного диктора и определяют его вокализованность, если фрейм речевого сигнала вокализован, то определяют его частоту основного тона, если основной тон не выявлен, то фрейм является переходным, а если фрейм не вокализован и не является переходным, то обрабатываемый фрейм представляют как паузу речевого сигнала, далее переходный фрейм формируют с помощью линейного предсказателя с возбуждением по его кодовой книге, определяют коэффициенты фильтра линейного предсказателя и параметры долговременного фильтра линейного предсказателя, которые затем на основании соответствующих кодовых книг отображения конвертируют в параметры целевого диктора и синтезируют переходный фрейм целевого диктора, в фазе конверсии, если фрейм речевого сигнала исходного диктора вокализован, то определяют частоту основного тона речевого сигнала и временной контур ее изменения и с помощью дискретного преобразования Фурье, согласованного с частотой основного тона, далее производят разделение фрейма речевого сигнала исходного диктора на компоненты - на гармоники частоты основного тона и на шумовую компоненту, равную остаточному шуму от разности фрейма исходного диктора и ресинтезированного фрейма по гармоникам основного тона, эти упомянутые компоненты на основании кодовых книг отображения конвертируют в параметры целевого диктора, при этом дополнительно учитывают конверсию частоты основного тона для исходного диктора, синтезируют компоненту гармоник основного тона и шумовую компоненту целевого диктора, которые суммируют с синтезированной переходной компонентой и паузой речевого сигнала. Патент РФ М> 2427044, G10L21/00, опубл.20.08.2011).
Способ позволяет повысить степень совпадения голоса целевого диктора в конвертированном речевом сигнале за счет улучшения разборчивости и узнаваемости голоса непосредственно целевого диктора.
Ограничением известного технического решения является то, что он является полностью текстозависимым и невозможно контролировать процесс (фазу) обучения б для наиболее качественного воспроизведения речевого сигнала до и после его конвертирования.
В процессе проведения патентного поиска с точки зрения достигаемого технического результата аналогов заявленному техническому решению не выявлено.
Решаемая изобретением задача - повышение качества и технико- эксплуатационных характеристик.
Технический результат, который может быть получен при осуществлении заявленных способа и устройства,— повышение качества фазы обучения и темпа ее проведения, улучшение степени совпадения голоса пользователя (целевого диктора) в конвертированном речевом сигнале за счет улучшения точности, разборчивости и узнаваемости голоса непосредственно пользователя, обеспечение возможности одноразового проведения фазы обучения для конкретного аудиоматериала, и использования этих данных фазы обучения для переозвучивания других аудиоматериалов.
В заявленном техническом решении в фазе обучения могут применяться следующие базы:
- Универсальная. Предназначена для переозвучивания голосом пользователя любых аудиоматериалов (аудиокниг). То есть пользователь единожды обучает программно управляемое электронное устройство обработки информации по данной базе и далее имеет возможность переозвучивать любые аудиокниги без дообучения устройства. Таким образом, при последующем воспроизведении аудиоматериалов получают текстонезависимость.
Специализированная. Подготавливается программно управляемым электронным устройством обработки информации под конкретную совокупность аудиоматериалов (то есть для одной группы аудиокниг нужна одна база, для другой группы - другая база. Текстозависимость).
Для решения поставленной задачи с достижением указанного технического результата способ переозвучивания аудиоматериалов заключается в том, что в программно управляемом электронном устройстве обработки информации формируют акустическую базу исходных аудиоматериалов, включающую параметрические файлы, и акустическую обучающую базу, включающую av файлы обучающих фраз диктора и соответствующую акустической базе исходных аудиоматериалов, транспортируют данные из акустической базы исходных аудиоматериалов для отображения списка исходных аудиоматериалов на экране RU2013/000404
7 монитора, при выборе пользователем из списка акустической базы исходных аудиоматериалов по меньшей мере одного аудиоматериала, данные о нем передают для сохранения в оперативное запоминающее устройство программно управляемого электронного устройства обработки информации, и осуществляют выбор из акустической обучающей базы соответствующих wav файлов обучающих фраз диктора выбранному аудиоматериалу, которые преобразуют в звуковые фразы и передают их пользователю на устройство воспроизведения звука, пользователь посредством микрофона воспроизводит звуковые фразы, в процессе воспроизведения которых на экране монитора отображают текст воспроизводимой фразы и курсор, перемещающийся по тексту фразы в соответствии с тем, как пользователь должен ее воспроизвести, в соответствии с воспроизводимыми фразами создают wav файлы, которые сохраняют по порядку воспроизведения фраз в формируемой акустической базе целевого диктора, при этом программно управляемое электронное устройство обработки информации производит контроль скорости воспроизводимой фразы и ее громкости, по wav файлам сохраненным в акустической базе целевого диктора и wav файлам акустической обучающей базы формируют файл функции конверсии, затем параметрические файлы акустической базы исходных аудиоматериалов, используя файл функции конверсии, конвертируют и преобразуют в wav файл для сохранения в формируемой акустической базе конвертированных аудиоматериалов и предоставления пользователю конвертированных аудиоматериалов на экране монитора.
Возможны дополнительные варианты осуществления способа, в которых целесообразно, чтобы:
- при использовании в качестве управляемого электронного устройства обработки информации удаленного сервера или компьютера, функционирующего в многопользовательском режиме, дополнительно производили регистрацию пользователя;
- перед воспроизводением пользователем посредством микрофона звуковых фраз, производили запись фонового шума, которую сохраняют в виде wav файла в акустической базе целевого диктора, а программно управляемое электронное устройство обработки информации осуществляет шумоподавление фонового шума;
- при контроле скорости воспроизводимой фразы программно управляемое электронное устройство обработки информации осуществляет фильтрацию цифрового RAW-потока, соответствующего воспроизводимой фразе, рассчитьшают мгновенную энергию и сглаживают результаты расчета мгновенной энергии, сравнивают значение сглаженного значения средней энергии с заданным пороговым значением, подсчитывают среднюю продолжительность пауз в wav файле, и программно управляемое электронное устройство обработки информации принимает решение о соответствии скорости речи эталонной;
- при контроле скорости воспроизводимой фразы программно управляемое электронное устройство обработки информации осуществляет оценку длительности слоговых сегментов, для этого производят нормирование речевого сигнала воспроизводимой фразы, фильтрацию, детектирование, перемножение огибающих сигналов воспроизводимой фразы, дифференцирование, сравнение полученного сигнала воспроизводимой фразы с пороговыми напряжениями и выделение логического сигнала, соответствующего наличию слогового сегмента, рассчитывают длительность слогового сегмента, после чего программно управляемое электронное устройство обработки информации принимает решение о соответствии скорости речи эталонной;
- при контроле громкости воспроизводимой фразы задают нижнюю границу диапазона громкости и верхнюю границу диапазона громкости, сравнивают громкость воспроизводимой фразы с границами диапазона громкости, при громкости воспроизводимой фразы вне упомянутых границ диапазона программно управляемое электронное устройство обработки информации отображает на экране монитора сообщение о нарушении громкости воспроизводимой фразы;
- после сохранения wav файлов в акустической базе целевого диктора и wav файлов в акустической обучающей базе программно управляемое электронное устройство обработки информации производит нормализацию wav файлов, их обрезку, шумоподавление и контроль соответствия воспроизведенного и отображенного текста воспроизводимой фразы.
Для решения поставленной задачи с достижением указанного технического результата устройство переозвучивания аудиоматериалов содержит блок управления, блок выбора аудиоматериалов, акустическую базу исходных аудиоматериалов, акустическую базу целевого диктора, блок обучения, блок воспроизведения фраз, блок записи фраз, акустическую обучающую базу, блок конверсии, базу функции конверсии, акустическую базу конвертированных аудиоматериалов, блок отображения результатов конверсии, монитор, клавиатуру, манипулятор, микрофон, устройство воспроизведения звука, при этом выход клавиатуры подсоединен к первому входу блока управления, к первому входу блока выбора аудиоматериалов, и к первому входу блока отображения результатов конверсии, выход манипулятора подсоединен к второму входу блока управления, к второму входу блока выбора аудиоматериалов, и к второму входу блока отображения результатов конверсии, вход монитора подсоединен к выходу блока выбора аудиоматериалов, к выходу блока обучения, к первому выходу блока воспроизведения фраз, к выходу блока записи фраз, к выходу блока конверсии, к выходу блока отображения результатов конверсии, вход устройства воспроизведения звука подсоединен к второму выходу блока воспроизведения фраз, выход микрофона подсоединен к входу блока записи фраз, первый вход/выход блока управления подсоединен к первому входу/выходу блока выбора аудиоматериалов, второй вход/выход блока управления — к первому входу/выходу акустической базы целевого диктора, третий вход/выход блока управления - к первому входу/выходу блока обучения, четвертый вход/выход блока управления - к первому входу/выходу блока конверсии, пятый вход/выход блока управления - к первому входу/выходу блока отображения результатов конверсии, второй вход/выход блока выбора аудиоматериалов подсоединен к первому входу/выходу акустической базы исходных аудиоматериалов, а второй вход/выход акустической базы исходных аудиоматериалов подсоединен к четвертому входу/выходу блока конверсии, второй вход/выход акустической базы целевого диктора подсоединен к первому входу/выходу блока записи фраз, а второй вход/выход блока записи фраз - к третьему входу/выходу блока обучения, второй вход/выход блока обучения подсоединен к первому входу/выходу блока воспроизведения фраз, а второй вход/выход блока воспроизведения фраз - к входу/выходу акустической обучающей базы, четвертый вход/выход блока обучения подсоединен к первому входу/выходу базы функций конверсии, второй вход/выход базы подсоединен к второму входу/выходу блока конверсии, третий вход/выход блока конверсии подсоединен к второму входу/выходу акустической базы конвертированных аудиоматериалов, а первый вход/выход акустической базы конвертированных аудиоматериалов подсоединен к второму входу/выходу блока отображения результатов конверсии.
Возможен дополнительный вариант выполнения устройства, в котором целесообразно, чтобы в устройство были введены блок авторизации/регистрации и база зарегистрированных пользователей, выход клавиатуры подсоединен к первому входу блока авторизации/регистрации, а выход манипулятора подсоединен к второму входу блока авторизации/регистрации, вход монитора подсоединен к выходу блока авторизации/регистрации, шестой вход/выход блока управления подсоединен к первому входу /выходу блока авторизации регистрации, а второй вход/выход блока 20 авторизации/регистрации подсоединен к входу/выходу базы зарегистрированных пользователей.
Указанные преимущества заявленного технического решения, а также его особенности поясняются с помощью лучшего варианта вьшолнения со ссылками на прилагаемые фигуры.
Фиг. 1 изображает функциональную схему заявленного устройства;
Фиг. 2— графический интерфейс формы выбора аудиоматериалов;
Фиг. 3 - графический интерфейс формы авторизации/регистрации;
Фиг. 4 - графический интерфейс формы записи фонового шума;
Фиг. 5 - графический интерфейс формы воспроизведения фразы;
Фиг. 6 - графический интерфейс формы воспроизведения (записи) прослушанной фразы;
Фиг. 7— подблоки блока записи фраз на фиг. 1 ;
Фиг. 8 - блок-схему алгоритма выделения и измерения длительности пауз;
Фиг. 9 - блок-схему алгоритма оценки длительности слоговых сегментов;
Фиг. 10 - графический интерфейс формы конверсии аудиоматериалов;
Фиг. 11 - графический интерфейс формы результатов конверсии.
Поскольку способ переозвучивания материалов детально раскрывается при описании работы устройства, то первоначально приводится описание самого устройства.
Устройство (фиг. 1) переозвучивания аудиоматериалов содержит блок 1 управления, блок 2 выбора аудиоматериалов, акустическую базу 3 исходных аудиоматериалов, акустическую базу 4 целевого диктора, блок 5 обучения, блок 6 воспроизведения фраз, блок 7 записи фраз, акустическую обучающую базу 8, блок 9 конверсии, базу 10 функции конверсии, акустическую базу 1 1 конвертированных аудиоматериалов, блок 12 отображения результатов конверсии, монитор 13, клавиатуру 14, манипулятор 15 («мышь»), микрофон 16, устройство 17 воспроизведения звука, выполненное из динамиков 18 и/или наушников 19. Выход клавиатуры 14 подсоединен к первому входу блока 1 управления, к первому входу блока 2 выбора аудиоматериалов, и к первому входу блока 12 отображения результатов конверсии. Выход манипулятора 15 подсоединен ко второму входу блока 1 управления, к второму входу блока 2 выбора аудиоматериалов, и к второму входу блока 12 отображения результатов конверсии. Вход монитора 13 подсоединен к выходу блока 2 выбора аудиоматериалов, к выходу блока 5 обучения, к первому выходу блока 6 воспроизведения фраз, к выходу блока 7 записи фраз, к выходу блока 9 конверсии, к выходу блока 12 отображения результатов конверсии. Вход устройства 17 воспроизведения звука (динамиков 18 и/или наушников 19) подсоединен ко второму выходу блока 6 воспроизведения фраз. Выход микрофона 18 подсоединен к входу блока 9 записи фраз. Первый вход/выход блока 1 управления подсоединен к первому входу/выходу блока 2 выбора аудиоматериалов, второй вход/выход блока 1 управления - к первому входу/выходу акустической базы 4 целевого диктора, третий вход/выход блока 1 управления - к первому входу/выходу блока 5 обучения, четвертый вход/выход блока 1 управления - к первому входу/выходу блока 9 конверсии, пятый вход/выход блока 1 управления - к первому входу/выходу блока 12 отображения результатов конверсии. Второй вход/выход блока 2 выбора аудиоматериалов подсоединен к первому входу/выходу акустической базы 3 исходных аудиоматериалов, а второй вход/выход акустической базы 3 исходных аудиоматериалов подсоединен к четвертому входу/выходу блока 9 конверсии. Второй вход/выход акустической базы 4 целевого диктора подсоединен к первому входу/выходу блока 7 записи фраз, а второй вход/выход блока 7 записи фраз - к третьему входу/выходу блока 5 обучения. Второй вход/выход блока 5 обучения подсоединен к первому входу/выходу блока 6 воспроизведения фраз, а второй вход/выход блока 6 воспроизведения фраз - к входу/выходу акустической обучающей базы 8. Четвертый вход/выход блока 5 обучения подсоединен к первому входу/выходу базы 10 функций конверсии, второй вход/выход базы 10 подсоединен к второму входу/выходу блока 9 конверсии. Третий вход/выход блока 9 конверсии подсоединен к второму входу/выходу акустической базы 1 1 конвертированных аудиоматериалов, а первый вход/выход акустической базы 11 конвертированных аудиоматериалов подсоединен к второму входу /выходу блока 12 отображения результатов конверсии.
В устройство могут быть введены блок 20 авторизации/регистрации и база 21 зарегистрированных пользователей, выход клавиатуры 14 подсоединен к первому входу блока 20 авторизации/регистрации, а выход манипулятора 15 подсоединен к второму входу блока 20 авторизации/регистрации, вход монитора 13 подсоединен к выходу блока 20 авторизации/регистрации, шестой вход/выход блока 1 управления подсоединен к первому входу/выходу блока 20 авторизации/регистрации, а второй вход/выход блока 20 авторизации/регистрации подсоединен к входу/выходу базы 21 зарегистрированных пользователей.
Устройство может представлять собой удаленный сервер (на фиг. 1 показано штрих пунктиром S), на котором установлено специализированное программное обеспечение (СПО) - блоки 1-12, тогда пользователь со своего компьютерного устройства (на фиг. 1 условно показано штрих пунктиром С), при помощи монитора 13, клавиатуры 14, манипулятора 15 («мышь») имеет возможность, например, через сеть Интернет связаться с сайтом удаленного сервера S и осуществить запуск его функций, или устройство S посредством сети Интернет может быть установлено непосредственно на персональном компьютере пользователя или установлено на нем при помощи компакт диска (Compact Disc) или DVD диска (Digital Versatile Disc), тогда устройства S и С являются единым целым.
Работает устройство (фиг. 1) следующим образом.
С помощью клавиатуры 14 и/или манипулятора 15 пользователь осуществляет запуск блока 1 управления, который с его первого входа/выхода передает на первый вход/выход блока 2 выбора аудиоматериалов команду на начало функционирования устройства. С второго входа/выхода блока 2 на первый вход/выход акустической базы 3 исходных аудиоматериалов направляется запрос на получение списка аудиоматериалов, содержащегося в ней. Аудиоматериалы, предназначенные для переозвучивания, хранятся в акустической базе 3 в виде параметрических аудиофайлов, например, с расширением war, которые могут быть получены и установлены в акустической базе 3 исходных аудиоматериалов при помощи сети Интернет, компакт дисков и т.п.
В акустической базе 11 конвертированных аудиоматериалов, в акустической обучающей базе 8 и в акустической базе 4 целевого диктора аудиоматериалы хранятся в виде WAV файлов (wav от англ. wave «волна»).
Преобразование WAV-аудиофайла в параметрический аудиофайл, например, с расширением war или наоборот осуществляется известным образом модулем параметризации (на фиг. 1 не показан).
Параметрический файл с расширением war описывает аудиосигнал виде параметров модели речеобразования. Модель речеобразования для использования в данном техническом решении состоит из частоты основного тона (1-ый параметр), вектора мгновенных амплитуд (2-ой параметр), вектора мгновенных фаз (3-ий параметр) и шумового остатка (это 4-ый параметр). Указанные параметры характеризуют акустический сигнал (один такой набор соответствует 5мс) и нужны для выполнения процедуры конверсии. В процессе конверсии данные параметры изменяются с параметров, соответствующих исходному диктору, на параметры, соответствующие целевому диктору (пользователю), после чего из них формируется (синтезируется) выходной сигнал в формате wav.
Отличия параметрического аудиофайла от файла в формате wav заключаются в том, что wav описывает сигнал в виде последовательности временных отсчетов, в то время как параметрический аудиофайл описывает сигнал в виде набора параметров модели речеобразования, которые изменяются в процессе конверсии. Основное преимущество параметрического файла заключается в том, что сигнал в виде последовательности временных отсчетов не может быть непосредственно обработан так, как этого требует задача конверсии (например, нельзя оценить и изменить его тембр). Недостатки параметрического файла перед файлом в формате wav заключаются в том, что если не требуется модифицировать речь, то он требует больше дискового пространства и не обеспечивает полного восстановления исходного сигнала.
Принципиально важным поэтому с точки зрения быстродействия и осуществления конверсии является то, что в акустической базе 3 исходных аудиоматериалов файлы хранятся в виде параметрических фалов с расширением war (или эквивалентным), а в акустической базе 4 целевого диктора, в акустической обучающей базе 8, в акустической базе 11 конвертированных аудиоматериалов - в виде wav файлов (или эквивалентных).
После обработки запроса с первого входа выхода акустической базы 3 передается на второй вход/выход блока 2 выбора аудиоматериалов данные о списке аудиоматериалов, которые с выхода блока 2 поступают на монитор 13 пользователя и отображаются на его экране в графическом интерфейсе (фиг. 2).
Графический интерфейс, содержащий список аудиоматериалов, может иметь различный внешний вид, форму и инструменты (на фиг. 2 показан один из возможных вариантов его выполнения). Например, форма выбора аудиоматериалов имеет строку 22 фильтрации аудиоматериалов со следующими инструментами:
«Все» - кнопка 23, при нажатии которой с помощью манипулятора 15 в форме выбора аудиоматериалов отображается полный перечень аудиоматериалов из акустической базы 3 исходных аудиоматериалов;
«Новые» - кнопка 24, при нажатии которой в форме выбора аудиоматериалов отображается информация об N ( задается в параметрах конфигурации устройства) аудиоматериалах, установленных последними (по времени) в акустическую базу 3 исходных аудиоматериалов;
«Популярные» - кнопка 25, при нажатии которой в форме выбора аудиоматериалов отображается информация об N аудиоматериалах, наиболее часто переозвучиваемых пользователями;
«Возраст» - выпадающий список 26 выбора диапазона возрастов. После выбора значения возраста в выпадающем списке 26 «Возраст», графический интерфейс выбора аудиоматериалов отображает перечень аудиоматериалов, рассчитанных (по интересу) для выбранного возраста;
«Поиск» - поле 27 ввода строки поиска аудиоматериалов. Поиск осуществляется по Наименованию аудиоматериалов (Текстовая строка, ассоциированная с каждым аудиоматериалом: каждому аудиоматериалу соответствует свое наименование. Наименование аудиоматериала храниться в акустической базе 3 исходных аудиоматериалов). После ввода поисковой строки (критерия поиска) в поле «Поиск» форма выбора аудиоматериалов отображает перечень аудиоматериалов, соответствующих введенному критерию поиска. Например, если в поле «Поиск» введено значение «доктор», то в графическом интерфейсе выбора аудиоматериалов отобразятся аудиоматериалы, у которых в названии содержится слово «доктор» («Доктор Айболит», «Доктор Живаго» и т.д.).
Область 28 содержит список аудиоматериалов, отфильтрованных согласно указанных в строке 22 фильтрации критериям. Каждая запись списка отображает информацию, ассоциированную с конкретным аудиоматериалом и хранящуюся в акустической базе 3 исходных аудиоматериалов. Данная информация включает:
Наименование 29 аудиоматериала;
Графическое изображение 30;
Краткое описание 31 содержимого аудиоматериала.
Форма графического интерфейса также содержит: Кнопку 32 «Выбрать», при нажатии которой блок 2 выбора аудиоматериалов помещает соответствующий аудиоматериал в список аудиоматериалов на переозвучивание - «корзину» (термин «корзина» означает список аудиофайлов, выбранных пользователем для перозвучивания из акустической базы 3). «Корзина» храниться в оперативном запоминающем устройстве (ОЗУ) блока 2. При необходимости блок 1 оперативно извлекает «корзину» из блока 2. По существу блок 1 управления функционально является диспетчером процессов устройства, по аналогии с диспетчером процессов Windows, блок 1 синхронизирует работу остальных блоков 2-12 в соответствии с технологическими операциями, выполняемых ими, и последовательности их функционирования.
Кнопку 33 «Переозвучить», при нажатии которой запускается процесс переозвучивания аудиоматериалов, добавленных в список аудиоматериалов на переозвучивание («корзину»). Если «Корзина» пуста, кнопка «Переозвучить» недоступна.
Пользователь, с помощью клавиатуры 14 и/или манипулятора 15, добавляет в «корзину» при нажатии кнопки 32 «Выбрать» в отображенном на экране монитора 13 списке интересующие его аудиоматериалы.
Блок 2 выбора аудиоматериалов формирует список выбранных пользователем аудиоматериалов следующим образом.
При нажатии инструмента - кнопки 32 «Выбрать» операционная система устройства инициирует событие нажатия кнопки - выбран материал для переозвучивания. Сведения об осуществлении этого события (команда) передаются в блок 2 выбора аудиоматериалов, который перемещает выбранные аудиоматериалы в «корзину» - список, содержащий сведения о выбранных пользователем аудиоматериалах и хранящийся в ОЗУ блока 2).
Точно так же, как описано выше пользователь с помощью клавиатуры 14 и/или манипулятора 15, подает посредством кнопки 33 «Переозвучить» блоку 2 выбора аудиоматериалов команду запуска процесса переозвучивания аудиоматериалов в «корзине».
С первого входа/выхода блока 2 выбора аудиоматериалов передается на первый вход/выход блока 1 управления команда о завершении формирования «корзины», т.е. выбора пользователем, по меньшей мере, одного аудиоматериала для переозвучивания. Возможно несколько вариантов исполнения устройства переозвучивания аудиоматериалов :
- в виде СПО, установленного на компьютере и функционирующего в однопользовательском режиме. В этом случае авторизация/регистрация не требуется и блок 20 авторизации регистрации, а также база 21 зарегистрированных пользователей - не нужны;
- в виде СПО, установленного на компьютере и функционирующего в многопользовательском режиме (например, семья - мать, отец, дети пользуются данной программой). В данном случае авторизация/регистрация требуется;
- если устройство реализовано на базе удаленного сервера в виде web- приложения, авторизация/регистрация необходима.
Например, в случае использования удаленного сервера S после заполнения «корзины» блок 1 управления по цепи - шестой вход/выход блока 1 -первый вход/выход блока 4 авторизац ии/регистрации ак тивизирует ф ункцию авторизации пользователя блока 20. Блок 20 инициирует форму авторизации/регистрации графического интерфейса, которая с его выхода поступает на вход монитора 13 для ее отображения пользователю.
Форма авторизации/регистрации (фиг. 3) имеет поля:
34 - «Email», предназначенное для ввода адреса электронной почты пользователя;
35 - «Пароль», предназначенное для ввода пароля пользователя.
Форма авторизации/регистрации также содержит инструменты (кнопки):
36 - «Войти», при нажатии кнопки 36 блок 20 авторизации/регистрации по его второму входу /выходу осуществляет проверку наличия в базе 21 зарегистрированных пользователей информации о пользователе с введенными учетными данными (email и пароль);
37 - «Регистрация», при нажатии кнопки 37 блок 20 авторизации/регистрации инициирует процесс регистрации пользователя в базе 21 зарегистрированных пользователей.
Пользователь посредством манипулятора 15 и клавиатуры 14 заполняет отображенную форму (Ошибка! Источник ссылки не найден.) - вводит свои учетные данные (email и пароль) и подает блоку 20 авторизации/регистрации команду авторизации. Блок 20 со своего второго входа/выхода передает на вход/выход базы 21 зарегистрированных пользователей запрос информации о наличии в базе 21 зарегистрированного пользователя с введенными учетными данными.
Если пользователь с введенными учетными данными отсутствует в базе 21, с выхода блока 20 на экран монитора 13 поступает сообщение об ошибке авторизации, например, «Пользователь с введенными учетными данными не зарегистрирован. Для продолжения работы необходимо ввести корректные учетные данные или зарегистрироваться». Пользователь посредством клавиатуры 14 и манипулятора 15 вводит свой email (логин) в поле 34 форм ы авторизации/регистрации и нажимает кнопку 37 «Регистрация». Блок 20 авторизации/регистрации генерирует пользователю пароль и уникальный идентификатор пользователя (ID). Сгенерированный пароль блок 20 отображает пользователю на экране монитора 13 (необходим пользователю при последующих авторизациях в устройстве). Данные о пользователе (введенный пользователем email, сгенерированные пароль и ID) поступают со второго входа/выхода блока 20 на вход/выход базы 21 зарегистрированных пользователей для сохранения в базе 21.
Если пользователь с введенными учетными данными уже был зарегистрирован в базе 21 , то база 21 зарегистрированных пользователей передает со своего входа/выхода на второй вход/выход блока 20 уникальный ID пользователя. Блок 20 авторизации/регистрации хранит ID пользователя. При необходимости блок 1 оперативно извлекает ID из блока 20.
Список аудиофайлов («корзина») и ID пользователя - это значения, хранящиеся в глобальных переменных (в случае удаленного сервера web-приложения CloneBook), на протяжении всей сессии работы пользователя с устройством данные глобальные переменные доступны всем другим блокам компьютерного устройства.
Далее блок 1 управления с о своего второго входа/выхода направляет запрос на первый вход/выход акустической базы 4 целевого диктора для проверки наличия в ней записей фраз пользователя с данным ID (с целью выяснения, обучал ли пользователь ранее заявленное устройство по образцу своего голоса). ID пользователя блок 1 оперативно извлекает из памяти блока 20 по цепи: шестой вход/выход блока 1 - первый вход/выход блока 20. Записи фраз пользователя сохраняются в акустической базе 21 в виде аудиофайлов в директории, наименование которой содержит только ID пользователя (в самой же директории пользователя хранятся записи его фраз).
Если ID этого пользователя не обнаружено в акустической базе 21 (пользователь не обучал устройство по образцу своего голоса), то по третьему входу/выходу блока 1 управления на первый вход/выход блока 5 обучения поступает команда на его функционирование, в соответствии с которой со второго входа выхода блока 5 и с третьего его входа/выхода соответственно последовательно поступают команды на первый вход/выход блока 6 воспроизведения фраз (из обучающей базы) и на второй вход/выход блока 7 записи фраз (в базу) пользователя. Таким образом, блок 1 управляет блоком 5 (дает ему команду на начало работы), а блок 5, в свою очередь, управляет блоками 6 и 7.
Блок 6 воспроизведения фраз предназначен для воспроизведения пользователю фразы из обучающей базы 8, поэтому его второй вход/выход подсоединен к входу /выходу акустической обучающей базы 8, а его выход к устройству 17 воспроизведения звука (динамикам 18 и/или наушникам 19). Wav файлы обучающей базы 8 преобразуют драйвером в звуковые фразы. Пользователь, прослушав фразу, после сигнала устройства типа «готов к записи», должен повторить ее в микрофон 18. Блок 9 предназначен для записи воспроизведенной пользователем фразы и его вход подсоединен к выходу микрофона 16. Преобразование аналоговых сигналов микрофона 16 и устройства 17 воспроизведения звука в цифровые осуществляется с помощью драйверов соответствующих устройств. Например, звук от микрофона 16 преобразуется в цифровой RAW-ποτοκ (аудиопоток) с помощью драйвера звуковой карты.
Для записи фразы пользователем блоком 7 задается время ΔΤ, в течении которого пользователь должен повторить фразу, воспроизведенную блоком 6 (время ΔΤ определяется продолжительностью фразы, записанной в акустической обучающей базе 8).
Перед воспроизведением фраз пользователем и записи их в акустическую базу 4, с выхода блока 7 передается на экран монитора 13 графический интерфейс записи фонового шума.
Графический интерфейс записи фонового шума (Ошибка! Источник ссылки не найден.) содержит:
Кнопку 38 «Начать запись», при нажатии которой запускается процесс записи фонового шума. Фоновый шум считывается при помощи микрофона 16 и передается на вход б лока 7 запи си фраз, который в виде аудио-потока передается с первого входа/выхода блока 7 на второй вход/выход акустической базы 4 целевого диктора, и аудио-поток сохраняется в форме аудиофайла. Аудиофайл с фоновым шумом сохраняется в акустической базе 4 в директории пользователя (наименование которой содержит ID пользователя).
Аудиофайл с фоновым шумом сохраняется в акустической базе 4 в директории, наименование которой содержит только ID пользователя. Данную директорию создает (перед сохранением первой записанной пользователем фразы) акустическая база 4. ID пользователя акустическая база 4 запрашивает у блока 1 управления по цепи «первый вход/выход базы 4» - «второй вход/выход блока 1». Блок 1 управления оперативно извлекает ID пользователя из блока 4 по цепи «шестой вход/выход блока 1» - «первый вход/выход блока 20».
На экране монитора 13 формируется индикатор 39 (фиг. 4) процесса записи фонового шума.
Пользователь посредством манипулятора 15 нажимает кнопку 38. В период, когда осуществляется запись фонового шума (курсор индикатора 39 перемещается от 0 до 100%), пользователь должен соблюдать тишину.
После завершения записи фонового шума блок 6 воспроизведения фраз с его выхода передает на экран монитора 13 для отображения графический интерфейс воспроизведения фразы (Ошибка! Источник ссылки не найден.)- Конкретную фразу блок 6 воспроизведения фраз получает из акустической обучающей базы 8 в виде файла и воспроизводит пользователю с помощью устройства 17 воспроизведения звука.
Акустическая обучающая база 8 содержит определенное количество аудиофайлов с фразами, количество которых (реализованных на практике), например, составляет тридцать шесть. Блок 6 последовательно их воспроизводит. Причем последовательность их воспроизведения не важна. Информация о том, какие фразы блок 8 уже воспроизвел, а какие еще нужно воспроизвести, храниться в самом блоке 8.
Выбор обучающих фраз для конкретного аудиоматериала осуществляется следующим образом.
В акустической базе 3 исходных аудиоматериалов каждому аудиоматериалу сопоставляется перечень фраз из акустической обучающей базы 8. Сопоставление осуществляется в виде перечня вида: «аудиоматериал-0 l .wav» - «фразы из базы 10: 001.wav, 005.wav, 007.wav...». Фразы для аудиоматериала акустической базы 3 подбираются с помощью аллофонного анализа текста, например, автоматизированным способом (Национальная Академия Наук Белоруссии, Объединенный институт проблем информатики. Б.М. Лобанов, Л.И. Цирульник. «Компьютерный синтез и клонирование речи», Минск, Белорусская наука, 2008 г., стр. 198-243) и сохраняются в акустической обучающей базе 8.
На графическом интерфейсе воспроизведения фразы (Ошибка! Источник ссылки не найден.) отображают индикатор 40 воспроизводимой фразы, содержащий:
- Текст воспроизводимой фразы (для примера на фиг. 5 это текст— «Идет холодная зима»). Данный текст сопоставлен с конкретной фразой и хранится вместе с ней в акустической обучающей базе 8 в текстовом файле. Блок 6 воспроизведения фраз загружает этот текст вместе с воспроизводимым аудиофайлом и отображает в графическом интерфейсе воспроизведения фразы в индикаторе 40;
- Курсор, перемещающийся по тексту фразы по мере его воспроизведения.
В процессе воспроизведения фразы местоположение курсора синхронизировано с воспроизведением фразы. То есть в начале воспроизведения фразы курсор располагается у первого символа текста фразы, в конце воспроизведения - у последнего символа. Скорость движения курсора учитывает темп речи диктором фразы из акустической обучающей базы 8. То есть, если диктор акустической фразы «тянет» букву в слове, курсор «снижает» скорость перемещения на данной букве (например, если слово «Ножницы» диктор произносит с задержкой на букве «о», то есть «Но-о-о-о-ожницы», то курсор на букве «о» также замедляет перемещение).
Информация о местоположении курсора (скорости его движения по тексту) содержится в параметрическом файле скорости курсора. Параметрический файл скорости курсора представляет собой набор пар значений-соответствий: «положение курсора - м.сек». Каждой фразе (звуковому файлу) из акустической обучающей базы 8 соответствует свой параметрический файл скорости курсора, например, с расширением саг.
Блок 5 обучения формирует команду на запуск блока 6 воспроизведения фраз по цепи «второй вход/выход блока 5 - первый вход/выход блока 6»; Команда - воспроизвести очередную фразу из акустической обучающей базы 8. Очередность устанавливает блок 6). После того, как блок 6 воспроизвел фразу - и вернул блоку 5 результат работы (результатом является номер воспроизведенной фразы, например, «001.wav»), блок 5 создает команду на запуск блока 7 записи фраз (по цепи «третий вход/выход блока 5 - второй вход/выход блока 7»). Блок 7 записывает фразу пользователя и возвращает результат блоку 5 (по той же цепи. Результатом является номер записанной в базе 4 фразы. Напр., «002.wav»). Этот цикл повторяется по каждой фразе из обучающей акустической базы 8.
После прослушивания фразы пользователем происходит запись этой же фразы пользователем. Пользователь должен произнести прослушанную фразу в том же темпе. Блок 7 записи фраз отображает на экране монитора 13 пользователю следующий возможный графический интерфейс записи фразы (Ошибка! Источник ссылки не найден.).
Графический интерфейс записи фразы имеет индикатор 41 записываемой фразы, содержащий:
- Текст воспроизводимой фразы (для примера на Ошибка! Источник ссылки не найден, это текст «Идет холодная зима»);
- Курсор, перемещающийся по тексту фразы в соответствии с тем, как пользователь должен ее воспроизвести. Скорость воспроизведения фразы по тексту содержится в параметрическом файле скорости курсора (описан выше).
Пользователь произносит прослушанную фразу в микрофон 16. Аудио-поток от выхода микрофона 16 поступает на блок 7 записи фраз, который посредством его первого входа/выхода, поступает на второй вход/выход акустической базы 4 целевого диктора и сохраняется в базе 4 в форме аудиофайла. Аудиофайл сохраняется в акустической базе 4 в директории, наименование которой содержит только ID пользователя. Данную директорию создает (перед сохранением первой записанной пользователем фразы) акустическая база 4. ID пользователя акустическая база 4 запрашивает у блока 1 управления по цепи «первый вход/выход акустической базы 4» - «второй вход/выход блока 1». Блок 1 управления оперативно извлекает ID пользователя из блока 20 по цепи «шестой вход/выход блока 1 » - «первый вход/выход блока 20».
В процессе записи фразы блок 7 записи фраз осуществляет (фиг. 7) контроль скорости речи пользователя. Если обучающий компьютерное устройство пользователь говорит слишком быстро или слишком медленно (нарушает темп речи), блок 7 (А) контроля скорости речи (из состава блока 9 записи фраз отображает на экране монитора 13 предупреждающее сообщение о нарушении темпа речи: Например, «Вы говорите слишком быстро, говорите медленнее» (если пользователь говорит быстро), или «Вы говорите слишком медленно, говорите быстрее» (если пользователь говорит медленно). Текст предупреждающих сообщений содержится в программе блока 7 (А). Блок 7 (А) контроля скорости речи (является собственной разработкой) определяет скорость (темп) речи следующим образом.
Определение темпа речи основано на использовании двух алгоритмов: определения длительности пауз и выделении, а также оценке длительности слоговых сегментов в речевом сигнале. Локализация пауз проводится методом цифровой фильтрации в двух спектральных диапазонах, соответствующих локализации максимумов энергии для вокализованных и шумных (невокализованных) звуков, фильтрами Лернера четвертого порядка, «взвешивания» кратковременной энергии речевого сигнала в двух частотных диапазонах с использованием прямоугольного окна длительностью 20 мс.
Определение длительности слоговых сегментов основано на уточненной слуховой модели, учитывающей спектральное распределение гласных звуков, фильтрации в двух взаимно коррелированных спектральных диапазонах. Принятие решения о принадлежности сегмента речи к слогу, содержащему гласный звук, и локализация гласного звука проводится программно реализованной комбинационной логической схемой.
Заключение о скорости речи говорящего (темпе речи) производится на основании анализа обоими алгоритмами на интервале накопления информации: всего файла для режима ОффЛайн, или чтением потока (файла) с выводом результатов каждые 15 с.
В общем случае алгоритм определения темпа речи состоит из следующих этапов:
• Нормирование речевого сигнала. Обеспечивает выравнивание слабых (тихих) сигналов с целью исключения зависимости результатов измерения от громкости входного речевого сигнала.
• Выделение и измерение длительности пауз. Формирование первичных признаков темпа. (Алгоритм 1)
• Оценка длительности слоговых сегментов. Формирование главных признаков (Алгоритм 2)
• Принятие решения о скорости воспроизводимой фразы.
1. Нормирование входного речевого сигнала воспроизводимой фразы
Нормирование входного речевого сигнала проводится с целью исключения зависимости результатов измерений от амплитуды (громкости) записанного или вводимого сигнала. Нормирование производится следующим образом:
- на интервалах длительностью 1 с производится поиск максимального абсолютного значения амплитуды.
- находится среднее значение в полученном массиве.
- определяется коэффициент пересчета по формуле, равный отношению максимально возможного значения амплитуды к найденному среднему значению.
- каждое значение входного сигнала умножается на коэффициент пересчета. 2. Выделение и измерение длительности пауз (Алгоритм 1)
Метод основан на измерении мгновенной энергии в двух частотных диапазонах, соответствующих максимальному сосредоточению энергии вокализованных (диапазон частот 150 - 1000 Гц) и невокализованных (диапазон частот 1500 - 3 500 Гц) звуков.
Блок-схема Алгоритма 1 представлена на Ошибка! Источник ссылки не найден..
2.1. Фильтрация
Блок 42 осуществляет фильтрацию второго порядка (фильтром Лернера) входного речевого сигнала (воспроизводимой фразы пользователя) в выходной речевой сигнал.
Входной речевой сигнал представляет собой цифровой RAW-ποτοκ (англ. raw — сырой) - аудиопоток - значение сигнала от 0 до 32768, является безразмерной величиной.
Формула типового звена фильтрации второго порядка (фильтра Лернера) эквивалентна разностному уравнению во временной области вида:
Υ(η) = (2χΥ1 - XI) χΚΙ - Υ2χΚ2 + X(n); где
K1 = K X COS(2TT ^) ;
Fd
Κ = 1.0 - ^1 ;
Fd
K2 = xK;
X (η)- текущее значение входного сигнала;
Υ(η) - текущее значение выходного сигнала;
Y1 - значение выходного сигнала, задержанное на один период дискретизации ; Υ2 - значение выходного сигнала, задержанное на два периода дискретизации; Pol - полоса пропускания в Гц;
Ро1=850 Гц для первого и 2000 Гц для второго полосовых фильтров; Fd - частота дискретизации в Гц. Fd = 8 ООО Гц;
Frq - средняя частота полосы фильтра в Гц, Frq = 575 Гц для первого и 2500 Гц для второго полосовых фильтров;
К, К1, К2 - коэффициенты фильтрации.
Фильтр 4-го порядка реализуется путем каскадного последовательного соединения двух звеньев второго порядка указанного типа.
2.2. Расчет мгновенной энергии речевого сигнала
Расчет мгновенной энергии речевого сигнала производится блоком 43.
Расчет мгновенной энергии производится на интервалах (в окне) длительностью 20 мс), что соответствует для частоты дискретизации Fd=8 000 Гц 160 отсчетам входного речевого сигнала.
Последовательность действий при вычислении мгновенной энергии следующая:
- Вычисляется модуль Упв =Abs (Y(n)) - выпрямление выходного сигнала фильтра;
- затем вычисляется значение мгновенной величины энергии в окне 20мс (160
Figure imgf000026_0001
Sn - значение мгновенной энергии в п -ом окне (SnB - для диапозона 1500- 3500Гц и SnH - для диапозона 150-ЮООГц) ;
Yn - выходное значение фильтра;
ΥΠΒ - выпрямленное выходное значение;
М - масштабный коэффициент, ограничивающий переполнение. Экспериментально было установлено, что величина М для выполнения задач конверсии может быть принята 160.
Мгновенная энергия рассчитывается в двух частотных диапазонах, соответствующих полосовым фильтрам (см. п. 2.1).
2.3. Расчет ФНЧ
Сглаживание (усреднение) результатов расчета мгновенной энергии производится блоком 44, для чего используется фильтр нижних частот (ФНЧ) первого порядка, соответствующий разностному уравнению вида Y(n) =(l-k)Yl-l+Sn,
Y(n) - текущее выходное значение ФНЧ;
Sn - текущее входное значение ФНЧ ( значение мгновенной энергии);
Y1 - задержанное на период дискретизации значение выходного сигнала; к - коэффициент, определяющий постоянную времени или частоту среза ФНЧ.
2.4. Пороговое устройство
Пороговое устройство (блок 44) сравнивает текущее значение сглаженного значения средней энергии в заданной полосе с пороговым значением (определяется экспериментально), за начальный уровень может быть принято значение 50 мВ. За паузу принимается значение энергии меньше уровня порогов в обоих спектральных диапазонах. С этого момента начинается отсчет длительности паузы.
2.5. Счетчик средней продолжительности пауз в файле
Средняя продолжительность паузы в обрабатываемом файле или на анализируемом участке (блок 45) определяется как сумма длин всех пауз, деленная на их количество
Tcc = l /N(£^ 77) Где:
Тсс - средняя продолжительность паузы в обрабатываемом файле или на анализируемом участке;
77 - i-я пауза в обрабатываемом файле или на анализируемом участке;
N, Ni - кол-во пауз в обрабатываемом файле или на анализируемом участке;
2.6. Блок принятия решения
Блок 47 осуществляет принятие решения о соответствии скорости (темпа) речи. Заключение о темпе речи принимается исходя из следующих положений:
- При превышении средней длины паузы Тсс эталона или значения 600 мс темп считается медленным. За эталон принимается файл в формате wav с параметрами записи 16 бит 8000Гц, полученный экспериментальным путем. Хранится в блоке 7 (А) контроля скорости речи.
- При значении Тсс, меньшем средней длины паузы эталона или значения 300 мс, темп считается быстрым
- В противном случае - соответствующим эталону
3. Оценка длительности слоговых сегментов (Алгоритм 2)
Метод выделения признаков слоговых сегментов воспроизводимой фразы основан на формировании первичных параметров, использующих огибающие сигналов в частотных диапазонах А1 = 800 - 2500 Гц и А2 = 250 - 540 Гц. Результирующий параметр, который в дальнейшем используется для выделения признаков слогов, получается корреляционным методом и определяется так: Uc(t) = UAI(t) UA2(t), (2)
где U/uft - огибающая энергии в полосе частот А1, a UA2( - огибающая энергии в полосе А2.
Диапазон частот первого полосового фильтра, равный 250 - 540 Гц, выбран в виду того, что в нем отсутствует энергия высокоэнергетических фрикативных звуков типа /ш/ и /ч/. которые создают ошибочные слоговые ядра, а также сосредоточена значительная часть энергии всех звонких звуков, в том числе и гласных. Однако в этом диапазоне энергия сонорных звуков типа /л/, /м/, /н/ сравнима с энергией гласных, из-за чего определение слоговых сегментов только с учетом огибающей речевого сигнала в этом диапазоне сопровождается ошибками. Поэтому диапазон частот второго полосового фильтра, выбран в пределах 800 - 2500 Гц, в котором энергия гласных звуков минимум в два раза превышает энергию сонорных звуков.
Благодаря операции умножения огибающих UA/( и ΙΙΑΣ ) в результирующей временной функции происходит усиление участков кривой в области гласных звуков из-за корреляции их энергий в обоих диапазонах. Кроме того, ошибочные максимумы энергии, предопределенные наличием в диапазоне 800 -2500 Гц значительной части энергии фрикативных звуков, устраняются путем их умножения на практически нулевое значение амплитуды фрикативных звуков в диапазоне 250 - 540 Гц.
Последовательность операций при работе алгоритма 2 следующая (фиг. 9):
• Нормирование воспроизводимой фразы (сигнала) производится блоком 48. Нормирование речевого сигнала обеспечивает выравнивание слабых (тихих) сигналов с целью исключения зависимости результатов измерения от громкости входного речевого сигнала.
Нормирование воспроизводимой фразы (входного речевого сигнала) проводится с целью исключения зависимости результатов измерений от амплитуды (громкости) записанного или вводимого сигнала.
Нормирование производится следующим образом:
- на интервалах длительностью 1 с производится поиск максимального абсолютного значения амплитуды.
- находится среднее значение в полученном массиве.
- определяется коэффициент пересчета по формуле, равный отношению максимально возможного значения амплитуды к найденному среднему значению.
- каждое значение входного сигнала умножается на коэффициент пересчета.
• Фильтрация воспроизводимой фразы (сигнала) двумя полосовыми фильтрами Лернера четвертого порядка в диапазонах 250 - 540 Гц и 800 - 2500Ги соответственно (блок 49);
• Детектирование выходных сигналов фильтров для получения огибающих (блок
50);
• Перемножение огибающих выходных сигналов фильтров (блок 51);
• Дифференцирование результирующего сигнала (блок 52);
• Сравнение полученного сигнала с пороговыми напряжениями и выделение логического сигнала, соответствующего наличию слогового сегмента (блок 53).
• Расчет длительности слогового сегмента (блок 54).
4. Механизм принятия решения о скорости речи
Принятие решения о скорости (темпе речи) основывается на результате расчета длительности пауз и слоговых сегментов. При этом реализуется следующая комбинационная логика:
- паузы длинные, слоги длинные - темп медленный. Критерием «длинные» является отклонение длительности от эталонных на 30%. Эталонный файл в формате wav с параметрами записи 16 бит 8000Гц, получен экспериментальным путем. Хранится в блоке 7 (А) контроля скорости речи.
- паузы короткие или отсутствуют, слоги короткие - темп быстрый. Критерием «короткие» является отклонение длительности от эталонных на 30%
- паузы длинные, слоги короткие - темп быстрый, т.е. приоритетным является анализ слогов, при этом выводится предупреждение о длинных паузах.
- паузы короткие или отсутствуют, слоги длинные - темп медленный.
Блок 7 записи фраз (фиг. 7) осуществляет контроль громкости речи пользователя. Если пользователь говорит слишком громко или слишком тихо, блок 7 (Б) контроля громкости речи (из состава блока 7 записи фраз) отображает на экране монитора 13 предупреждающее сообщение о нарушении громкости воспроизводимой фразы, например: «Вы говорите слишком громко, говорите тише» (если пользователь говорит громко) или «Вы говорите слишком тихо, говорите громче» (если пользователь говорит тихо). Текст предупреждающих сообщений содержится в тексте программы блока 7 записи фраз. Блок 7 (Б) контроля громкости речи контролирует громкость речи говорящего следующим образом: осуществляется проверка нахождения текущего значения уровня сигнала говорящего в допустимом диапазоне уровней сигналов. Диапазон уровней сигналов задан в тексте программы блока 7 (Б) в виде постоянных значений. При использовании WAV файлов уровень громкости сигнала не имеет единиц измерения. Значение изменяется от 0 (нет звука) до 32768
~ (iviAXTpOMKOCTF)
Например, пусть задано:
- «нижняя граница диапазона» равна 8 ООО;
- «верхняя граница диапазона» равна 28 ООО;
Если текущее значение уровня сигнала превышает верхнюю границу диапазона, на экран монитора 13 передается предупреждающее сообщение «слишком громко». Если текущее значение уровня сигнала меньше нижней границы диапазона, формируется предупреждение «слишком тихо».
После записи фразы, соответствующей и удовлетворяющей заданным параметрам блоков 7 (А) и 7 (Б) блок 7 записи фраз обрабатывает сохраненный аудиофайл (с фразой пользователя) в следующей последовательности:
- Нормализация, осуществляется Блоком нормализации 7 (В) (из состава блока 9 записи фраз) следующим образом: в записанной фразе выделяется наибольшее значение уровня сигнала Ьф. Далее вычисляется коэффициент к, равный отношению предельного значения уровня сигнала (Lmax = 32 ООО) к наибольшему значению уровня сигнала в записанной фразе: к = Ьшах/Ьф. Далее уровни сигнала в записанной фразе увеличиваются на значение коэффициента к. Нормализация производится для приведения громкости сигнала к максимуму.
- Обрезка, заключается в удалении из записанной фразы пауз (участков записи, на которых речь отсутствует более 500 мс). Обрезку выполняет блок 7 (Д) обрезки (из состава блока 7 записи фраз), звуковые файлы на вход блока 7 (Д) подаются в виде WAV файлов.
- Шумоподавление, реализовано в виде стандартного алгоритма устранения шумов из полезного сигнала на основе метода спектрального вычитания. Шумоподавление выполняет блок 7 (Г) шумоподавления (из состава блока 7 записи фраз);
- Контроль соответствия произнесенного и заданного текста фразы. То есть производится преобразование речи пользователя в текст (технология STT -speech-to- text) и сравнение полученного текста с текстом, который он должен был произнести. Алгоритм преобразования речи в текст реализован в блоке 7 (Е) контроля соответствия (из состава блока 7 записи фраз. Записанная фраза (та, которую надиктовал пользователь) «переводится» в текст. Полученный текст сравнивается с тем текстом, который должен быть прочитан (содержится в акустической обучающей базе 8). Если есть несоответствие произнесенного и заданного текста, блок 7 (Е) "Контроля~соответствйЯ~отобрйжает^
необходимости перезаписать соответствующую фразу. В данном случае блок 7 записи фраз запускает процесс перезаписи данной фразы: воспроизведение фразы пользователю (Фиг. 5), запись фразы пользователя (Фиг.6).
Для всех содержащихся в акустической обучающей базе 8 фразам блок 5 обучения аналогичным образом последовательно:
- воспроизводит фразы пользователю (Фиг.5);
- записывает фразы пользователя (Фиг.6).
Результатом является набор аудиофайлов с фразами пользователя, записанных в акустической базе 4 целевого диктора.
Далее блок 5 обучения формирует файл функции конверсии по записанным фразам, не имеющий расширения, (функция конверсии необходима для конверсии голоса исходного диктора в голос соответствующего пользователя). При этом блок 5 обучения оценивает величину «примерного» времени получения функции конверсии с учетом времени конверсии аудиоматериалов. Полученное время блок обучения 5 отображает пользователю на экране монитора 13 в виде текста: «Подождите. Осталось 01 :20:45». Отображаемое время обновляется на экране монитора 13 с периодичностью, заданной настройками блока 5 обучения. «Примерное» время вычисляется блоком 5 обучения на основе статистических данных, накопленных в его внутренней памяти. Статистические данные включают следующие сведения о уже выполненных задачах получения функции конверсии и самой конверсии: объем записанных аудиофайлов с фразами пользователя, фактическое время получения функции конверсии и самой конверсии, количество задач конверсии, исполняемых параллельно с данной (одновременно устройством могут пользоваться сразу несколько пользователей, поэтому возможна ситуация, когда конверсии разных пользователей пересекаются по времени, т.е. задачи конверсии могут выполняться параллельно).
При подсчёте примерного времени конверсии блок 5 обучения определяет наиболее близкое значение из статистических данных по следующим критериям: объем аудиоматериалов, количество выполняемых задач конверсии. Созданный файл функции конверсии блок 5 обучения сохраняет в базе 10 функций конверсии под ID соответствующего пользователя.
Далее блок 7 обучения производит оценку функции конверсии путем последовательных приближений. В качестве входных параметров выступают амплитудные спектральные огибающие речевых сигналов исходного и целевого дикторов (пользователя). Для вычисления определения ошибки конверсии последовательность амплитудных спектральных огибающих исходного диктора (сохраненные в wav файлах) преобразовывается при помощи текущей функции конверсии и рассчитывается расстояние полученной последовательности от целевой. Ошибка нормируется, т.е. делиться на число огибающих в последовательности.
Ошибка конверсии в данной терминологии - Евклидова норма амплитудных спектральных огибающих речевых сигналов исходного и целевого дикторов, другими словами, среднеквадратическое значение ошибки конверсии тембральной составляющей, которая определяется огибающей спектра. Она может быть получена только после определения функции конверсии и выполнения самой процедуры конверсии.
То есть блок 7 дополнительно вычисляет значение "среднеквадратическое значение ошибки конверсии тембральной составляющей". Полученное значение сравнивается с порогами:
- от dii до di2: хорошая конверсия;
- от d21 до d22: удовлетворительная конверсия
- от d31 до d32: плохая конверсия - фразы нужно перезаписать.
dn, di2; d21, d22; d3i, d32 - нижнее и верхнее значение «среднеквадратической ошибки конверсии» соответственно для «хорошей», «удовлетворительной» и «плохой» конверсии (выбираются экспериментальным путем).
Если фразы нужно перезаписать, блок 5 обучения отображает на экране монитора 13 сообщение о необходимости перезаписать фразы. Блок 5 обучения перезаписывает фразы: со второго входа/выхода блока 5 и с третьего его входа/выхода соответственно последовательно поступают команды на первый вход/выход блока 6 воспроизведения фраз из акустической обучающей базы 8 и на второй вход/выход блока 7 записи фраз в акустическую базу 4 целевого диктора (пользователя).
Конверсию аудиоматериалов выполняет блок 9 конверсии, который по цепи «первый вход/выход блока 9 конверсии - пятый вход/выход блока 1 управления» запрашивает и принимает от блока 1 управления данные аудиоматериалов «корзины». 00404
31
Блок 1 оперативно извлекает эти аудиоматериалы из памяти блока 2 выбора аудиоматериалов по цепи «первый вход/выход блока 1 » - «первый вход/выход блока 2» и конвертирует содержащиеся в «корзине» аудиоматериалы, используя полученный файл функции конверсии из базы 10 функций конверсии. Блок 9 конвертирует параметрический файл блока 2 и преобразует его в wav файл для сохранения в акустической базе 11 конвертированных аудиоматериалов.
Блок 9 конверсии отображает посредством выхода, подсоединенного к входу монитора 13 на его экране графический интерфейс конверсии аудиоматериалов (Ошибка! Источник ссылки не найден.).
Графический интерфейс конверсии аудиоматериалов (Ошибка! Источник ссылки не найден.) имеет:
Графическое изображение 55, ассоциированное с конвертируемым аудиоматериалом (см. выше);
- Наименование 56 конвертируемого аудиоматериала;
- Поле 56 примерного времени конверсии аудиоматериала, вычисленное блоком 9 конверсии на основе статистических данных, накопленных в его внутренней памяти;
Индикатор 58 процесса конверсии (0% - начало осуществления конверсии; 100% - конверсия выполнена).
Блок конверсии 9 передает с его третьего входа/выхода переозвученные голосом пользователя аудиоматериалы на второй вход/выход акустической базы 9 конвертированных аудиоматериалов для их сохранения в виде аудиофайлов.
По цепи «шестой вход/выход блока 1 управления» - «первый вход/выход акустической базы 1 1 » осуществляется:
- запрос и получения блоком 1 информации от блока 11 о конвертированном материале для ее отображения на экране монитора 13 в графическом интерфейсе результатов конверсии аудиоматериалов;
- управления акустической базой 1 1 (осуществляется по команде пользователя через блок 1 управления):
- удаление аудиофайла конвертированного аудиоматериала из акустической базы 1 1 конвертированных аудиоматериалов
- воспроизведения конвертированного аудиоматериала пользователю через устройство 17 воспроизведения звука; перезаписи аудиофайла конвертированного аудиоматериала из акустической базы 11 конвертированных аудиоматериалов на съемный носитель пользователя.
Процесс переозвучивания завершен. Пользователь может прослушать переозвученные аудиоматериалы с устройства 17 воспроизведения звука (динамиков 18 и/или наушников 19), а также перезаписать аудиофайлы с переозвученными аудиоматериалами на съемный носитель.
По завершении переозвучивания блок 1 управления со своего пятого входа/выхода передает на первый вход/выход блока 12 отображения результатов конверсии команду на запуск блока 12. Параметром команды является ID пользователя, аудиоматериалы которого были переконвертированы устройством. Со второго входа/выхода блока 12 на первый вход/выход акустической базы 1 1 конвертированных аудиоматериалов направляется запрос на получение списка конвертированных аудиоматериалов пользователя с заданным ID. Конвертированные аудиоматериалы хранятся в акустической базе 11 в виде аудиофайлов в директории, наименование которой содержит только ID пользователя. После обработки запроса с первого входа/выхода акустической базы 1 1 передается на второй вход/выход блока 12 данные о списке конвертированных аудиоматериалов, которые с выхода блока 12 поступают на монитор 13 пользователя и отображаются на его экране в графическом интерфейсе результатов конверсии аудиоматериалов (Ошибка! Источник ссылки не найден.).
Графический интерфейс, содержащий список конвертированных аудиоматериалов, может иметь различный внешний вид, форму и инструменты (на Ошибка! Источник ссылки не найден, показан один из возможных вариантов его выполнения).
Например, графический интерфейс результатов конверсии аудиоматериалов имеет:
- Графическое изображение 59, ассоциированное с конвертируемым аудиоматериалом;
- Наименование 60 конвертируемого аудиоматериала;
- Поле 61 продолжительности записи в формате чч.мм.сс;
- Кнопку 62 воспроизведения конвертированного аудиоматериала через устройство 17 воспроизведения звука; - Кнопку 63 удаления аудиофайла конвертированного аудиоматериала из акустической базы 11 конвертированных аудиоматериалов;
- Кнопку 64 перезаписи аудиофайла конвертированного аудиоматериала из акустической базы 11 конвертированных аудиоматериалов на съемный носитель пользователя.
При нажатии инструмента - кнопки 62 «Воспроизвести» операционная система устройства генерирует событие - воспроизвести выбранный конвертированный аудоматериал с помощью устройства 17. Сведения об осуществлении этого события (команда) передаются в блок 12 отображения конвертированных аудиоматериалов, который запрашивает конкретный конвертированный аудиоматериал из акустической базы 13 (по цепи «второй вход выход блока 14 - первый вход/выход акустической базы 13») в виде файла и воспроизводит пользователю с помощью устройства 17 воспроизведения звука.
Таким образом устройство реализует следующий способ переоозвучивания аудиоматериалов :
- в программно управляемом электронном устройстве обработки информации формируют акустическую базу исходных аудиоматериалов, включающую параметрические файлы, и акустическую обучающую базу, включающую wav файлы обучающих фраз диктора и соответствующую акустической базе исходных аудиоматериалов;
- транспортируют данные из акустической базы исходных аудиоматериалов для отображения списка исходных аудиоматериалов на экране монитора;
- при выборе пользователем из списка акустической базы исходных аудиоматериалов по меньшей мере одного аудиоматериала, данные о нем передают для сохранения в оперативное запоминающее устройство программно управляемого электронного устройства обработки информации;
- осуществляют выбор из акустической обучающей базы соответствующих wav файлов обучающих фраз диктора выбранному аудиоматериалу, которые преобразуют в звуковые фразы и передают их пользователю на устройство воспроизведения звука;
- пользователь посредством микрофона воспроизводит звуковые фразы, в процессе воспроизведения которых на экране монитора отображают текст воспроизводимой фразы и курсор, перемещающийся по тексту фразы в соответствии с тем, как пользователь должен ее воспроизвести; - в соответствии с воспроизводимыми фразами создают wav файлы, которые сохраняют по порядку воспроизведения фраз в формируемой акустической базе целевого диктора;
- программно управляемое электронное устройство обработки информации производит контроль скорости воспроизводимой фразы и ее громкости;
- по wav файлам сохраненным в акустической базе целевого диктора и wav файлам акустической обучающей базы формируют файл функции конверсии;
- параметрические файлы акустической базы исходных аудиоматериалов, используя файл функции конверсии, конвертируют и преобразуют в wav файл для сохранения в формируемой акустической базе конвертированных аудиоматериалов и предоставления пользователю данных о конвертированных аудиоматериалах на экране монитора.
Таким образом, заявленные способ и устройство позволяют повысить качество проведения фазы обучения, улучшить степень совпадения голоса пользователя (целевого диктора) в конвертированном речевом сигнале за счет улучшения точности, разборчивости и узнаваемости голоса непосредственно пользователя, обеспечить возможность одноразового проведения фазы обучения для конкретного аудиоматериала, и использования этих данных фазы обучения для переозвучивания других аудиоматериалов.
Наиболее успешно заявленные способ переозвучивания аудиоматериалов и реализующее его устройство промышленно применимы в программно управляемых электронных устройствах обработки информации при синтезе речи.

Claims

ФОРМУЛА ИЗОБРЕТЕНИЯ
1. Способ переозвучивания аудиоматериалов, заключающийся в том, что в программно управляемом электронном устройстве обработки информации формируют акустическую базу исходных аудиоматериалов и акустическую обучающую базу, включающую аудиофайлы обучающих фраз диктора и соответствующую акустической базе исходных аудиоматериалов, транспортируют данные из акустической базы исходных аудиоматериалов для отображения списка исходных аудиоматериалов на экране монитора, при выборе пользователем из списка акустической базы исходных аудиоматериалов по меньшей мере одного аудиоматериала, данные о нем передают для сохранения в оперативное запоминающее устройство программно управляемого электронного устройства обработки информации, и осуществляют выбор из акустической обучающей базы соответствующих аудиофайлов обучающих фраз диктора выбранному аудиоматериалу, которые преобразуют в звуковые фразы для отображения пользователю, пользователь посредством микрофона воспроизводит звуковые фразы, в соответствии с воспроизводимыми фразами создают аудиофайлы, которые сохраняют по порядку воспроизведения фраз в формируемой акустической базе целевого диктора, формируют файл функции конверсии, затем файлы акустической базы исходных аудиоматериалов, используя файл функции конверсии, конвертируют и преобразуют в аудиофайл для сохранения в формируемой акустической базе конвертированных аудиоматериалов и предоставления пользователю данных о конвертированных аудиоматериалах на экране монитора.
2. Способ по п. 1, отличающийся тем, что при использовании в качестве управляемого электронно го устройства обраб отки информации удаленного сервера или компьютера, функционирующего в многопользовательском режиме, дополнительно производят регистрацию пользователя.
3. Способ по п. 1, отличающийся тем, что перед воспроизведением пользователем посредством микрофона звуковых фраз, производят запись фонового шума, которую сохраняют в виде аудиофайла в акустической базе целевого диктора, а программно управляемое электронное устройство обработки информации осуществляет шумоподавление фонового шума.
4. Способ по п. 1, отличающийся тем, что при формировании акустической базы целевого диктора программно управляемое электронное устройство обработки информации производит контроль скорости воспроизводимой пользователем фразы и ее громкости.
5. Способ по п. 1, отличающийся тем, что при контроле скорости воспроизводимой фразы программно управляемое электронное устройство обработки информации осуществляет фильтрацию цифрового RAW-потока, соответствующего воспроизводимой фразе, рассчитывают мгновенную энергию и сглаживают результаты расчета мгновенной энергии, сравнивают значение сглаженного значения средней энергии с заданным пороговым значением, подсчитывают среднюю продолжительность пауз в аудиофайле, и программно управляемое электронное устройство обработки информации принимает решение о соответствии скорости речи эталонной.
6. Способ по п. 1, отличающийся тем, что при контроле скорости воспроизводимой фразы программно управляемое электронное устройство обработки информации осуществляет оценку длительности слоговых сегментов, для этого производят нормирование речевого сигнала воспроизводимой фразы, фильтрацию, детектирование, перемножение огибающих сигналов воспроизводимой фразы, дифференцирование, сравнение полученного сигнала воспроизводимой фразы с пороговыми напряжениями и выделение логического сигнала, соответствующего наличию слогового сегмента, рассчитывают длительность слогового сегмента, после чего программно управляемое электронное устройство обработки информации принимает решение о соответствии скорости речи эталонной.
7. Способ по п. 1, отличающийся тем, что при контроле громкости воспроизводимой фразы задают нижнюю границу диапазона громкости и верхнюю границу диапазона громкости, сравнивают громкость воспроизводимой фразы с границами диапазона громкости, при громкости воспроизводимой фразы вне упомянутых границ диапазона программно управляемое электронное устройство обработки информации отображает на экране монитора сообщение о нарушении громкости воспроизводимой фразы.
8. Способ по п. 1, отличающийся тем, что при формировании акустической базы исходных аудиоматериалов используют параметрические файлы, а акустической обучающей базы - wav файлы. Кроме параметрических файлов могут быть использованы любые файлы, содержащие аудиопоток.
9. Способ по п. 1, отличающийся тем, что звуковые фразы для отображения пользователю передают на устройство воспроизведения звука.
10. Способ по п. 1, отличающийся тем, что в процессе воспроизведения звуковых фраз пользователем на экране монитора отображают текст воспроизводимой фразы и курсор, перемещающийся по тексту фразы в соответствии с тем, как пользователь должен ее воспроизвести.
11. Способ по п. 1 , отличающийся тем, что после сохранения аудиофайлов в акустической базе целевого диктора и аудиофайлов в акустической обучающей базе программно управляемое электронное устройство обработки информации производит нормализацию аудиофайлов, их обрезку, шумоподавление и контроль соответствия воспроизведенного и отображенного текста воспроизводимой фразы.
12. Устройство переозвучивания аудиоматериалов, содержащее блок управления, блок выбора аудиоматериалов, акустическую базу исходных аудиоматериалов, акустическую базу целевого диктора, блок обучения, блок воспроизведения фраз, блок записи фраз, акустическую обучающую базу, блок конверсии, базу функций конверсии, акустическую базу конвертированных аудиоматериалов, блок отображения результатов конверсии, монитор, клавиатуру, манипулятор, микрофон, устройство воспроизведения звука, при этом выход клавиатуры подсоединен к первому входу блока управления, к первому входу блока выбора аудиоматериалов, и к первому входу блока отображения результатов конверсии, выход манипулятора подсоединен к второму входу блока управления, к второму входу блока выбора аудиоматериалов, и к второму входу блока отображения результатов конверсии, вход монитора подсоединен к выходу блока выбора аудиоматериалов, к выходу блока обучения, к первому выходу блока воспроизведения фраз, к выходу блока записи фраз, к выходу блока конверсии, к выходу блока отображения результатов конверсии, вход устройства воспроизведения звука подсоединен к второму выходу блока воспроизведения фраз, выход микрофона подсоединен к входу блока записи фраз, первый вход выход блока управления подсоединен к первому входу/выходу блока выбора аудиоматериалов, второй вход/выход блока управления - к первому входу/выходу акустической базы целевого диктора, третий вход/выход блока управления - к первому входу/выходу блока обучения, четвертый вход/выход блока управления - к первому входу/выходу блока конверсии, пятый вход/выход блока управления - к первому входу/выходу блока отображения результатов конверсии, второй вход/выход блока выбора аудиоматериалов подсоединен к первому входу/выходу акустической базы исходных аудиоматериалов, а второй вход/выход акустической базы исходных аудиоматериалов подсоединен к четвертому входу/выходу блока конверсии, второй вход/выход акустической базы целевого диктора подсоединен к первому входу/выходу блока записи фраз, а второй вход/выход блока записи фраз - к третьему входу/выходу блока обучения, второй вход/выход блока обучения подсоединен к первому входу/выходу блока воспроизведения фраз, а второй вход/выход блока вЪспроизведения фраз - к входу/выходу акустической обучающей базы, четвертый вход выход блока обучения подсоединен к первому входу/выходу базы функций конверсии, второй вход/выход базы подсоединен к второму входу/выходу блока конверсии, третий вход выход блока конверсии подсоединен к второму входу/выходу акустической базы конвертированных аудиоматериалов, а первый вход/выход акустической базы конвертированных аудиоматериалов подсоединен к второму входу/выходу блока отображения результатов конверсии.
13. Устройство по п. 12, отличающееся тем, что введены блок авторизации/регистрации и база зарегистрированных пользователей, выход клавиатуры подсоединен к первому входу блока авторизации/регистрации, а выход манипулятора подсоединен к второму входу блока авторизации/регистрации, вход монитора подсоединен к выходу блока авторизации/регистрации, шестой вход/выход блока управления подсоединен к первому входу/выходу блока авторизации/регистрации, а второй вход/выход блока авторизации/регистрации подсоединен к входу/выходу базы зарегистрированных пользователей.
PCT/RU2013/000404 2012-05-18 2013-05-16 Способ переозвучивания аудиоматериалов и устройство для его осуществления WO2013180600A2 (ru)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US14/402,084 US20150112687A1 (en) 2012-05-18 2013-05-16 Method for rerecording audio materials and device for implementation thereof

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
RU2012120562/08A RU2510954C2 (ru) 2012-05-18 2012-05-18 Способ переозвучивания аудиоматериалов и устройство для его осуществления
RU2012120562 2012-05-18

Publications (2)

Publication Number Publication Date
WO2013180600A2 true WO2013180600A2 (ru) 2013-12-05
WO2013180600A3 WO2013180600A3 (ru) 2014-02-20

Family

ID=49624902

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/RU2013/000404 WO2013180600A2 (ru) 2012-05-18 2013-05-16 Способ переозвучивания аудиоматериалов и устройство для его осуществления

Country Status (3)

Country Link
US (1) US20150112687A1 (ru)
RU (1) RU2510954C2 (ru)
WO (1) WO2013180600A2 (ru)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10008198B2 (en) * 2013-03-28 2018-06-26 Korea Advanced Institute Of Science And Technology Nested segmentation method for speech recognition based on sound processing of brain
US9302393B1 (en) * 2014-04-15 2016-04-05 Alan Rosen Intelligent auditory humanoid robot and computerized verbalization system programmed to perform auditory and verbal artificial intelligence processes
US11069334B2 (en) * 2018-08-13 2021-07-20 Carnegie Mellon University System and method for acoustic activity recognition
US11361760B2 (en) * 2018-12-13 2022-06-14 Learning Squared, Inc. Variable-speed phonetic pronunciation machine

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5847303A (en) * 1997-03-25 1998-12-08 Yamaha Corporation Voice processor with adaptive configuration by parameter setting
US20070038455A1 (en) * 2005-08-09 2007-02-15 Murzina Marina V Accent detection and correction system
RU2393548C1 (ru) * 2008-11-28 2010-06-27 Общество с ограниченной ответственностью "Конвент Люкс" Устройство для изменения входящего голосового сигнала в выходящий голосовой сигнал в соответствии с целевым голосовым сигналом
RU2427044C1 (ru) * 2010-05-14 2011-08-20 Закрытое акционерное общество "Ай-Ти Мобайл" Текстозависимый способ конверсии голоса

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6006187A (en) * 1996-10-01 1999-12-21 Lucent Technologies Inc. Computer prosody user interface
ATE277405T1 (de) * 1997-01-27 2004-10-15 Microsoft Corp Stimmumwandlung
JP4267101B2 (ja) * 1997-11-17 2009-05-27 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声識別装置、発音矯正装置およびこれらの方法
US7292980B1 (en) * 1999-04-30 2007-11-06 Lucent Technologies Inc. Graphical user interface and method for modifying pronunciations in text-to-speech and speech recognition systems
US6836761B1 (en) * 1999-10-21 2004-12-28 Yamaha Corporation Voice converter for assimilation by frame synthesis with temporal alignment
DE102004012208A1 (de) * 2004-03-12 2005-09-29 Siemens Ag Individualisierung von Sprachausgabe durch Anpassen einer Synthesestimme an eine Zielstimme
JP4829477B2 (ja) * 2004-03-18 2011-12-07 日本電気株式会社 声質変換装置および声質変換方法ならびに声質変換プログラム
JP4093252B2 (ja) * 2005-05-12 2008-06-04 セイコーエプソン株式会社 話者音質変換方法および話者音質変換装置
RU66103U1 (ru) * 2007-05-21 2007-08-27 Общество с ограниченной ответственностью "ТЕЛЕКОНТЕНТ" Устройство обработки речевой информации для модуляции входного голосового сигнала путем его преобразования в выходной голосовой сигнал
US8751239B2 (en) * 2007-10-04 2014-06-10 Core Wireless Licensing, S.a.r.l. Method, apparatus and computer program product for providing text independent voice conversion
US8996376B2 (en) * 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
WO2010031437A1 (en) * 2008-09-19 2010-03-25 Asociacion Centro De Tecnologias De Interaccion Visual Y Comunicaciones Vicomtech Method and system of voice conversion
RU2421827C2 (ru) * 2009-08-07 2011-06-20 Общество с ограниченной ответственностью "Центр речевых технологий" Способ синтеза речи
US20110208508A1 (en) * 2010-02-25 2011-08-25 Shane Allan Criddle Interactive Language Training System
US9679496B2 (en) * 2011-12-01 2017-06-13 Arkady Zilberman Reverse language resonance systems and methods for foreign language acquisition
US9275633B2 (en) * 2012-01-09 2016-03-01 Microsoft Technology Licensing, Llc Crowd-sourcing pronunciation corrections in text-to-speech engines
US20140258858A1 (en) * 2012-05-07 2014-09-11 Douglas Hwang Content customization
US9075760B2 (en) * 2012-05-07 2015-07-07 Audible, Inc. Narration settings distribution for content customization

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5847303A (en) * 1997-03-25 1998-12-08 Yamaha Corporation Voice processor with adaptive configuration by parameter setting
US20070038455A1 (en) * 2005-08-09 2007-02-15 Murzina Marina V Accent detection and correction system
RU2393548C1 (ru) * 2008-11-28 2010-06-27 Общество с ограниченной ответственностью "Конвент Люкс" Устройство для изменения входящего голосового сигнала в выходящий голосовой сигнал в соответствии с целевым голосовым сигналом
RU2427044C1 (ru) * 2010-05-14 2011-08-20 Закрытое акционерное общество "Ай-Ти Мобайл" Текстозависимый способ конверсии голоса

Also Published As

Publication number Publication date
RU2510954C2 (ru) 2014-04-10
RU2012120562A (ru) 2013-11-27
WO2013180600A3 (ru) 2014-02-20
US20150112687A1 (en) 2015-04-23

Similar Documents

Publication Publication Date Title
US10789290B2 (en) Audio data processing method and apparatus, and computer storage medium
CN104080024B (zh) 音量校平器控制器和控制方法以及音频分类器
CN104079247B (zh) 均衡器控制器和控制方法以及音频再现设备
JP4876207B2 (ja) 認知機能障害危険度算出装置、認知機能障害危険度算出システム、及びプログラム
US5828994A (en) Non-uniform time scale modification of recorded audio
JP5143569B2 (ja) 音響的特徴の同期化された修正のための方法及び装置
CN104078050A (zh) 用于音频分类和音频处理的设备和方法
KR101925217B1 (ko) 가창 표현 이식 시스템
Grofit et al. Time-scale modification of audio signals using enhanced WSOLA with management of transients
RU2510954C2 (ru) Способ переозвучивания аудиоматериалов и устройство для его осуществления
Eringis et al. Improving speech recognition rate through analysis parameters
Hu et al. Whispered and Lombard neural speech synthesis
Hansen et al. Speech variability: A cross-language study on acoustic variations of speaking versus untrained singing
US20230186782A1 (en) Electronic device, method and computer program
JP2019008120A (ja) 声質変換システム、声質変換方法、及び声質変換プログラム
JP2002091472A (ja) 音声言語の韻律表示装置、再生装置、類似度判定装置、音声言語処理装置、および記録媒体
JP4799333B2 (ja) 楽曲分類方法、楽曲分類装置及びコンピュータプログラム
US11640831B2 (en) Evaluation apparatus, training apparatus, methods and programs for the same
WO2019208193A1 (ja) 発音変換装置、ピッチマーク時刻抽出装置、それらの方法、およびプログラム
Omar et al. Feature fusion techniques based training MLP for speaker identification system
JPH11259066A (ja) 音楽音響信号分離方法、その装置およびそのプログラム記録媒体
Jacewicz et al. Amplitude variations in coarticulated vowels
JP2004341340A (ja) 話者認識装置
Kain et al. Spectral control in concatenative speech synthesis
JP2005524118A (ja) 合成音声

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 13797556

Country of ref document: EP

Kind code of ref document: A2

WWE Wipo information: entry into national phase

Ref document number: 14402084

Country of ref document: US

122 Ep: pct application non-entry in european phase

Ref document number: 13797556

Country of ref document: EP

Kind code of ref document: A2