WO2015005679A1 - 음성 인식 방법, 장치 및 시스템 - Google Patents

음성 인식 방법, 장치 및 시스템 Download PDF

Info

Publication number
WO2015005679A1
WO2015005679A1 PCT/KR2014/006168 KR2014006168W WO2015005679A1 WO 2015005679 A1 WO2015005679 A1 WO 2015005679A1 KR 2014006168 W KR2014006168 W KR 2014006168W WO 2015005679 A1 WO2015005679 A1 WO 2015005679A1
Authority
WO
WIPO (PCT)
Prior art keywords
user
speech recognition
personal information
information
server
Prior art date
Application number
PCT/KR2014/006168
Other languages
English (en)
French (fr)
Inventor
김사무엘
오현오
송명석
Original Assignee
주식회사 윌러스표준기술연구소
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 윌러스표준기술연구소 filed Critical 주식회사 윌러스표준기술연구소
Priority to KR1020167000254A priority Critical patent/KR20160030168A/ko
Publication of WO2015005679A1 publication Critical patent/WO2015005679A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/227Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology

Definitions

  • the present invention relates to a speech recognition apparatus, a system and a method, and more particularly, to a speech recognition apparatus, a system and a method for improving speech recognition performance using personal information of a user.
  • Speech recognition technology is one of the key technologies that can facilitate the interaction between the user and the terminal.
  • the voice recognition technology enables the terminal to listen to the user's voice, understand the voice, and provide an appropriate service to the user based on the understood content.
  • speech recognition technology uses a speech recognition model produced by extracting statistical features from a large amount of speech data and language data.
  • the speech recognition apparatus infers the information included in the user's voice by analyzing the user's voice and measuring the similarity with the already created speech recognition model.
  • the present invention has been made to solve the above problems, by collecting the user's information, by using the acoustic model and language model used in the speech recognition process to personalize the user It is to provide a speech recognition system that can improve the performance.
  • an object of the present invention is to provide a security recognition robust system that does not leak collected personal information of a user without the user's consent.
  • a terminal for receiving a voice signal from a user and collecting the user's personal information
  • a private server that receives the voice signal and the personal information from the terminal, classifies and stores the personal information into a preset category, and transmits the voice signal and the stored at least some personal information to a voice recognition server
  • a speech recognition server configured to perform speech recognition based on the speech signal and the personal information transmitted from the private server and to generate a speech recognition result;
  • Including, Personal information transmitted from the private server to the speech recognition server is the personal information set by the user, the speech recognition server, at least one of the phonemes, syllables and words corresponding to the speech signal is selected
  • a sound model unit, a language model unit for forming a string with reference to a sentence structure of the language, and the sound model unit and the language model unit include an environment controller for selecting an acoustic model and a language model to be used in a speech recognition process.
  • a voice recognition system can be provided.
  • the environment controller selects at least one acoustic model and at least one language model with reference to the personal information transmitted to the speech recognition server.
  • the personal information may include user behavior information collected from a record of user behavior and a result of measuring user behavior, personal information of a user, and user state information indicating a user's situation.
  • the user behavior information may include: User online record that collects user's online activities and internet usage records, user location information that indicates the user's actual location, user connection information that identifies the user's communication, and user device collected during the interaction between user and device
  • the user state information includes user personal information and user attribute information representing a personality, a body and an emotional state, and environment attribute information representing a characteristic of a surrounding environment in which the user is located.
  • the terminal receives the user state information directly from the user or infers from at least one of the voice signal and the user behavior information.
  • the private server directly receives the user state information from the user, or infers the user state information from at least one of the voice signal and the user behavior information.
  • the voice recognition server extracts a plurality of voice recognition results and transmits the result to the private server, but also transmits the type information of the acoustic model and the language model used in the voice recognition process.
  • the private server selects at least one of a plurality of speech recognition results transmitted from the speech recognition server, using the public personal information and private personal information.
  • the private server may select at least one of a plurality of speech recognition results transmitted from the speech recognition server, and assign a weight based on the published personal information and private personal information to each probability value of the plurality of speech recognition results.
  • the voice recognition result having the highest probability value is selected as a result.
  • the first terminal receives a voice signal from the first user and collects the personal information of the first user;
  • a private server that receives the voice signal and the personal information from the first terminal, classifies and stores the personal information into a predetermined category, and transmits the voice signal and the stored at least some personal information to a voice recognition server;
  • a voice recognition server configured to generate a voice recognition result by performing voice recognition based on the voice signal and the personal information transmitted from the private server, and transmit the voice recognition result to a second terminal; And a second terminal receiving the voice recognition result and outputting the result to a second user.
  • Personal information transmitted from the private server to the speech recognition server is a personal information set by the first user to the public,
  • the speech recognition server at least one of the phoneme, syllables and words corresponding to the speech signal
  • a sound model unit for selecting a language a language model unit for forming a string with reference to a sentence structure of the language, and an environment controller for selecting the sound model and the language model to be used in the speech recognition process.
  • a voice recognition system may be provided.
  • the environment controller selects at least one acoustic model and at least one language model with reference to the personal information of the first user transmitted to the speech recognition server.
  • the first terminal receives the user state information directly from the user or infers from at least one of the voice signal and the user behavior information.
  • the private server directly receives the user state information from the user, or infers the user state information from at least one of the voice signal and the user behavior information.
  • the voice recognition server extracts a plurality of voice recognition results and transmits the result to the private server, but also transmits the type information of the acoustic model and the language model used in the voice recognition process.
  • the private server selects at least one of a plurality of speech recognition results transmitted from the speech recognition server, using the public personal information and private personal information.
  • the private server selects at least one of a plurality of speech recognition results transmitted from the speech recognition server, and weights based on the published personal information and private personal information to respective probability values of the plurality of speech recognition results.
  • the voice recognition result having the highest probability value is selected as a result.
  • the second terminal outputs the voice recognition result as voice.
  • the second terminal receives personal information of the first user from the private server, and forms a voice by referring to the personal information of the first user when the second terminal converts the voice recognition result into a voice. do.
  • the second terminal converts the speech recognition result into speech
  • the second terminal forms a speech by referring to at least one of a characteristic and an environmental characteristic of the separately stored speech.
  • the second terminal may further include a translation unit for translating a language, and the translation unit translates the voice recognition result into a language selected by the second user.
  • a terminal for receiving a voice signal from a user, collecting personal information of the user, and transmitting the voice signal and at least some personal information to a voice recognition server; And a voice recognition server configured to generate a voice recognition result by performing voice recognition based on the voice signal transmitted from the terminal and the personal information.
  • Personal information transmitted from the terminal to the voice recognition server is a personal information set by the user, the voice recognition server, Selecting at least one of the phoneme, syllables and words corresponding to the voice signal
  • a sound model unit, a language model unit for forming a character string with reference to a sentence structure of a language, and the sound model unit and the language model unit include an environment controller for selecting a sound model and a language model to be used in a speech recognition process
  • a voice recognition system can be provided.
  • the environment controller selects at least one of an acoustic model and a language model with reference to the personal information transmitted to the speech recognition server.
  • the terminal receives the user state information directly from the user or infers from at least one of the voice signal and the user behavior information.
  • the voice recognition server directly receives the user state information from the user, or infers the user state information from at least one of the voice signal and the user behavior information.
  • the speech recognition server extracts a plurality of speech recognition results and transmits them to the terminal, but also transmits the type information of the acoustic model and language model used in the speech recognition process.
  • the terminal selects at least one of a plurality of speech recognition results transmitted from the speech recognition server, using the published personal information and private personal information.
  • the terminal selects at least one of a plurality of speech recognition results delivered from the speech recognition server, and adds a weight based on the published personal information and private personal information to each probability value of the plurality of speech recognition results. As a result, the voice recognition result having the highest probability value is selected.
  • the voice recognition server derives a plurality of voice recognition results and selects at least one of the plurality of voice recognition results, using the disclosed personal information.
  • the speech recognition server derives a plurality of speech recognition results, adds a weight based on the published personal information to the probability values of the speech recognition results, and has the highest probability value among the weighted probability values. Select the speech recognition output.
  • the generating of a speech recognition result from the speech signal based on the speech signal and the personal information may include: selecting an acoustic model and a language model with reference to the personal information set by the user;
  • a voice recognition method may be provided further comprising a.
  • the collecting of the personal information of the user may include obtaining personal information directly input by the user; Inferring user state information from at least one of a voice signal and user behavior information; It further includes.
  • the generating of the voice recognition result from the voice signal based on the voice signal and the personal information may be used when generating a plurality of voice recognition results and performing voice recognition on each of the plurality of voice recognition results.
  • the type information of the acoustic model and the language model is generated together.
  • the final speech recognition result is selected using the public personal information and the private personal information.
  • the selecting of the final speech recognition result may include adding a weight based on the published personal information and private personal information to each probability of the plurality of speech recognition results, and as a result, a speech recognition result having the highest probability value. Select.
  • personal information of a user may be collected, and a sound model and a language model personalized to the user may be selected using the collected personal information.
  • a sound model and a language model personalized to the user may be selected using the collected personal information.
  • the success rate of speech recognition may be increased.
  • the user's personal information is stored only in a private space such as a user's terminal or a private server, and only the public personal information is transmitted to the voice recognition server where the voice recognition is performed. Can be strongly protected.
  • a user may transmit a voice recognition result to another person, through which the voice recognition result may be exchanged with the other person in real time.
  • a voice recognition system that can freely arrange the components according to the capabilities of the terminal, the private server and the voice recognition server.
  • FIG. 1 is a diagram illustrating a speech recognition apparatus according to an embodiment of the present invention.
  • FIG. 2 is a diagram illustrating a speech recognition system according to an embodiment of the present invention.
  • FIG. 3 is a diagram illustrating a speech recognition system according to another embodiment of the present invention.
  • FIG. 4 is a diagram illustrating a speech recognition system according to another embodiment of the present invention.
  • FIG. 5 is a diagram illustrating an embodiment of a speech recognition system including a private server.
  • FIG. 6 is a view showing another embodiment of a speech recognition system including a private server.
  • FIG. 7 is a diagram illustrating still another embodiment of a speech recognition system including a terminal and a speech recognition server.
  • FIG. 8 is a diagram illustrating an embodiment of a voice recognition system for transmitting a voice recognition result of a first user to a second user.
  • FIG. 9 is a diagram illustrating a voice recognition method according to an embodiment of the present invention.
  • the present invention relates to a voice recognition device system and method for improving voice recognition performance and protecting a user's personal information by using a user's personal information, which will be described in detail with reference to the accompanying drawings.
  • FIG. 1 is a diagram illustrating a speech recognition apparatus 100 according to an embodiment of the present invention.
  • the speech recognition apparatus 100 may include an input unit 112, a feature extractor 130, an acoustic model unit 152, a language model unit 140, and an output unit 114.
  • the solid line indicates the flow of the speech signal and the speech recognition result
  • the dotted line indicates the flow of additional information required for speech recognition.
  • the acoustic model unit 152 may include a plurality of acoustic models
  • the language model unit 154 may also include a plurality of language models. Details related to this will be described when describing the acoustic model unit 152 and the language model unit 154.
  • the speech recognition apparatus 100 is expressed as a 'device' for convenience of description, but may exist in the form of software, or may exist in at least one of a form of hardware and a form in which software and hardware are fused. have.
  • the speech recognition apparatus 100 may exist in the form of a PC installed in a specific place, or may exist in the form of a terminal that can be easily carried, such as a smartphone, a notebook, or a wearable device.
  • the input unit 112 is a component that collects a voice of the user 800 and converts it into an electrical signal, but a representative device such as a microphone may be used, but is not limited thereto.
  • the input unit 112 may collect not only an audio signal but also an image signal, and capture a face shape of the user 800 using an image signal input device such as a camera.
  • an image signal input device such as a camera.
  • the feature extractor 130 may generate basic information necessary for speech recognition from the collected speech signal.
  • the voice signal collected through the input unit 112 is divided into specific frames to extract information such as energy distribution for each frequency band of the voice.
  • the frequency band-specific information may be vector digitized, and the vector digitized information may be used as a voice feature.
  • the acoustic model unit 152 may determine a basic unit of a language corresponding to the voice feature extracted by the feature extractor 130.
  • the basic unit of the language may be a phoneme, a syllable, a word, or the like.
  • the acoustic model unit 152 analyzes which sound a user pronounces 'dog' in English actually corresponds to / d /, / o /, / g /, which are phonemes of the word 'dog'. Recognize the user's voice signal as each phoneme.
  • the acoustic model unit 152 may communicate with the speech database 372 storing the large amount of speech data.
  • the acoustic model unit 152 may generate a statistical acoustic model for determining a basic unit of a language corresponding to each speech feature by referring to a large amount of speech data stored in the speech database 372 in a training phase. .
  • the acoustic model unit 152 may select a phoneme having the highest similarity by measuring the similarity between the voice feature corresponding to each phoneme in the generated acoustic model and the voice feature transmitted from the feature extractor 130.
  • the acoustic model unit 152 may generate a word by combining the selected phonemes.
  • the acoustic model unit 152 may select at least one or more as a result when determining a basic unit of a language such as a phoneme, a syllable, or a word corresponding to the acoustic model. Meanwhile, in the process of generating an acoustic model in the acoustic model unit 152, a Hidden Markov Model (HMM) or a neural network analysis may be used, but is not limited thereto.
  • HMM Hidden Markov Model
  • the language model unit 154 may form a string by referring to a sentence structure of the language. In every language, words in sentences are listed according to certain rules. The language model unit 154 refers to the sentence structure of the language to determine the relationship between the characters, and when a specific character is recognized, predicts a character that can be placed after the character. Assuming that the user 800 uttered according to the grammar or rules of the language, the language model unit 154 may recognize characters that do not conform to the structure of such a string as being recognized as wrong and drop out of the candidate characters. The process can increase the success rate of string recognition.
  • the language model unit 154 may go through a separate training step to correctly recognize these various sentence structures, and may form a statistical language model through this training step. In order for the language model unit 154 to form a language model, it is necessary to communicate with the language database 374 that stores a large amount of sentence structure, as in the case of the acoustic model unit 152 described above.
  • the language model unit 154 may generate at least one string as a result of string recognition.
  • the language model unit 154 is a result of string recognition, and displays words included in at least one string as nodes, connects characters, and displays a branch indicating a probability for each connection.
  • a plurality of types of characters that may be positioned after one character in a sentence may be selected.
  • the probability of a linkage combination between the first letter and the next letter can be determined differently depending on the type of language model. Even when one language model is used in the speech recognition process, a plurality of character strings may be formed according to the order of each character, and accordingly, a probability of forming each character string may be calculated differently.
  • the speech recognition apparatus 100 may refer to a plurality of acoustic models in a speech recognition process, and may refer to a plurality of language models, thereby generating a plurality of speech recognition results.
  • the speech recognition apparatus 100 may select a string having the highest probability as a final speech recognition result and transmit it to the output unit 114 by referring to the probability included in each string. Even when a single acoustic model and a language model are used, a plurality of strings may be generated. In this case, the speech recognition server 300 may select the string having the highest probability as the final speech recognition result.
  • the output unit 114 outputs a speech recognition result of the speech recognition apparatus 100.
  • the speech recognition result may include at least one of a basic unit of a language recognized by the acoustic model unit 152 and a character string recognized by the language model unit 154.
  • the speech recognition result may be configured in the form of a plurality of strings, or may be composed of the string set in the grid form described above.
  • the input unit 112 and the output unit 114 are illustrated as being included in the voice recognition apparatus 100, but the present disclosure is not limited thereto.
  • the input unit 112 and the output unit 114 may be different from the voice recognition apparatus 100. It may be provided as a separate component.
  • the speech recognition apparatus 100 is provided with a smartphone, the user may collect a voice by attaching a high performance microphone to the smartphone for accurate speech recognition.
  • a user may output a speech recognition result in various ways by connecting a large monitor, a beam projector, or a multi-channel speaker to the smart phone.
  • the acoustic database 372 and the language database 374 described above may be provided separately from the speech recognition apparatus 100, but are not limited thereto.
  • two databases 372 and 374 may be included in the speech recognition apparatus 100.
  • FIG. 2 is a diagram illustrating a voice recognition system 1000A according to an exemplary embodiment of the present invention.
  • the voice recognition system 1000A may include a terminal 200 and a voice recognition server 300.
  • the terminal 200 may include an input unit 212, a feature extractor 230, and an output unit 214.
  • the speech recognition server 300 may include an acoustic model unit 352, a language model unit 354, an acoustic database 372, and a language database 374.
  • the feature extractor 230 may be included in the speech recognition server 300 according to the computing capability of the terminal 200, and the sound database 372 and the language database 374 of the speech recognition server 300 may be included in the speech recognition server ( 300) It is also possible to configure the configuration existing outside.
  • the input unit 212, the feature extractor 230, the output unit 214, the acoustic model unit 352, the language model unit 354, the acoustic database 372, and the language database 374 of FIG. 2 are illustrated in FIG. 1. Since the input unit 112, the feature extractor 130, the output unit 114, the acoustic model unit 152, the language model unit 154, the acoustic database 372, and the language database 374 are common components. Detailed description will be omitted.
  • the voice recognition system 1000A including the terminal 200 and the voice recognition server 300 of FIG. 2 are as follows.
  • the terminal 200 performs only minimal input / output and basic voice signal processing for speech recognition, the burden on the terminal 200 having a relatively low computing power is small. Instead, most operations are performed at high speed in the speech recognition server 300, which has relatively good processing and storage capabilities, and the terminal 200 only needs to receive the results. Since the wired / wireless communication environment such as the Internet has made much progress in the past, communication between the terminal 200 and the voice recognition server 300 may be freely made.
  • terminals 200 having different computing capabilities are developed in various ways and distributed in the market. It may be inefficient to provide a different voice recognition process for each terminal 200. As shown in FIG.
  • the voice recognition server 300 performs most of operations, and thus, a system independent of the terminal 200 may be implemented regardless of the type of the terminal 200.
  • the entire voice recognition system 1000A may be implemented by freely distributing the voice recognition processing steps between the terminal 200 and the voice recognition server 300 with reference to the processing capability of the specific terminal 200.
  • the speech recognition server 300 may be provided in plural, and the speech recognition server 300 provided in plural may perform Cloud-based Distributed Speech Recognition (DSR).
  • DSR Cloud-based Distributed Speech Recognition
  • Distributed speech recognition refers to a technology that converts and transmits a feature of a speech signal into digital data and distributes it by a speech recognition server to improve speech recognition performance in a wireless communication environment.
  • Distributed speech recognition can maximize the processing speed of speech recognition operations and the use of memory.
  • the terminal 200 receives the voice recognition result from the voice recognition server 300 and outputs the result of the voice recognition through the output unit.
  • the terminal 200 is not limited thereto, and other devices or output devices other than the terminal 200 of FIG.
  • the speech recognition result may be transmitted.
  • FIG. 3 is a diagram illustrating a voice recognition system 1000B according to another embodiment of the present invention.
  • the voice recognition system 1000B may include a terminal 200 and a voice recognition server 300.
  • the terminal 200 may include an input unit 212, a feature extractor 230, and an output unit 214.
  • the speech recognition server 300 may include an acoustic model unit 352, a language model unit 354, an acoustic database 372, a language database 374, and a configuration controller 380.
  • the feature extractor 130 may be included in the speech recognition server 300 according to the computing capability of the terminal 200, and the sound database 372 and the language database 374 exist outside the speech recognition server 300. It is also possible.
  • the configuration controller 380 selects an acoustic model and a language model to be used by the acoustic model unit 352 and the language model unit 354 in the speech recognition process.
  • the acoustic model unit 352 and the language model unit 354 may refer to a plurality of acoustic models and language models in the speech recognition process.
  • the voice feature of the acoustic model may appear differently, and the voice feature may change depending on the background noise, reverberation, etc. of the place where the voice is spoken.
  • the speech recognition server 300 may increase the success rate of speech recognition by using a plurality of the above-described sound models and language models in the speech recognition process.
  • each speech recognition server 300 performs a speech recognition process using a different acoustic model and a speech model, and combines the speech recognition results generated through various models into one. It may transmit to the terminal 200 again.
  • the speech recognition server 300 may increase the processing speed of speech recognition by using the same acoustic model and language model, but performing parallel processing on each speech recognition process.
  • FIG. 4 is a diagram illustrating a voice recognition system 1000C according to another embodiment of the present invention.
  • the voice recognition system 1000C may include a terminal 200 and a voice recognition server 300.
  • the terminal 200 may include an input unit 212, a personal information collecting unit 220, a feature extracting unit 230, a personal information analyzing unit 240, and an output unit 214.
  • the speech recognition server 300 may include an acoustic model unit 352, a language model unit 354, an acoustic database 372, a language database 374, and a configuration controller 380.
  • At least one of the feature extractor 230 and the personal information analyzer 240 may be included in the speech recognition server 300 according to the computing capability of the terminal 200, and the sound database 372 of the speech recognition server 300 may be included. And the language database 374 may be configured to exist outside the speech recognition server 300.
  • FIGS. 4 and 3 Detailed descriptions of the components common to FIGS. 4 and 3 will be omitted since they will overlap.
  • the personal information may include user behavior information collected from the recording of the user behavior and the result of measuring the user behavior.
  • the personal information may include user's own personal information and user status information indicating the user's situation.
  • User behavior information may include user online records, user location information, user connection information and user device utilization information.
  • the user online record is information collected by the user's 800 online activity and internet usage record.
  • the user's online record may include text, photos, music, videos, etc. posted by the user 800 on Social Network Service (SNS), an emotion icon displayed on the SNS, or a bad-bad, consent-disagreement, etc. It may include a succinct display of acts, a list of neighbors and Internet browser searches and visits, and a list of favorite sites.
  • SNS Social Network Service
  • the user location information is information representing the actual location of the user 800.
  • the user's location information is referred to when the user 800 is connected online through a wired / wireless communication network, his or her own location information obtained by using a positioning system such as GPS, a location information displayed through a smartphone application that provides location-based services, and the like. Connection location information, and the like.
  • the user connection information is communication identification information of the user 800 and may include a telephone number, an e-mail address, actual address information, and the like of the user 800.
  • the user device utilization information refers to information collected during an interaction process between the user 800 and the terminal 200.
  • User device utilization information is the type of device used by the user 800, the use time and frequency of each device, the type of applications that the user 800 runs through a PC or smartphone, the use time and frequency of each application It may include a list of installed applications, a list of applications downloaded online, and the like.
  • the user state information may include user attribute information and environment attribute information.
  • the user attribute information is information indicating user's personal information and personality, body, and emotional state.
  • the user's age, gender, ethnic origin, dialect, occupation, income, education level, health condition, emotional state, personality, etc. of the user 800 may be used. It may include.
  • the environmental property information is information representing characteristics of the surrounding environment in which the user is located, and may include background noise, reverberation, and season, time, weather, and climate information, which are acoustic characteristics of the space in which the user is located.
  • the personal information of the users 800 listed above may be collected by the personal information collecting unit 220.
  • the personal information collecting unit 220 may automatically collect personal information of the user 800 when the user 800 operates the terminal 200.
  • the personal information collecting unit 220 may collect at least one of the user behavior information and the user state information. It can also be input directly from (800).
  • the personal information collecting unit 220 is included in the terminal 200 of FIG. 4 for performing voice recognition or an external terminal and a server in which the authentication of the user 800 or the consent for collecting personal information is performed, and the user 800. Personal information can be collected.
  • the personal information analyzer 240 analyzes the collected personal information.
  • the personal information analyzer 240 may infer user state information from at least one of the personal behavior information and the voice signal collected through the input unit 212.
  • the personal information analyzer 240 may identify whether the user 800 is a male or a female by identifying a frequency band in which energy is mainly distributed in a voice signal.
  • the personal information analyzer 240 may analyze the waveform of the vowel portion of the voice signal to determine the vocal cord state of the user 800, and may infer the age and health state of the user 800.
  • the user 800 frequently searches for information on cosmetics discount information, clothing sites, luxury goods, entertainment issues, Internet child care cafe, etc.
  • the personal information analysis unit 240 is the user It can be seen that (800) is likely to be female.
  • the personal information analyzer 240 may infer the background noise level and the degree of reverberation of the concert hall when the current location of the user 800 identified through the GPS is inside the concert hall.
  • personal state information may be inferred by the personal information analyzer 240. However, as described above, the personal state information may be directly input through the personal information collecting unit 220.
  • the personal information analyzer 240 may calculate a probability value for each item of the user attribute information and the environment attribute information. For example, the personal information analyzer 240 may analyze the energy distribution for each frequency of the voice signal of the user 800 to determine an 80% probability that the user 800 is a male. As another example, when the user 800 directly inputs his age as 75 years old through the personal information collecting unit 220, the personal information analyzing unit 240 100% of the probability that the user 800 is an elderly person. It can be set to. As another example, the personal information analyzing unit 240 may refer to the Internet search history of the user 800 and has a 70% probability that the user 800 is a female, a 90% probability that a student is a student, and a probability that the user resides in Seoul. It can be seen that 60%.
  • the personal information analyzer 240 may continuously perform the personal information analysis. Since personal information of the user is continuously collected by the personal information collecting unit 220, the amount of personal information may increase in proportion to time. The personal information analyzer 240 may perform personal information analysis again whenever the amount of personal information changes. Alternatively, the personal information analyzer 240 may re-analyze the personal information at regular intervals according to a preset method. The personal information analyzer 240 may infer personal state information more accurately as the amount of personal information increases and the types thereof vary. In this way, the personal information analyzer 240 may increase the accuracy of the probability value for each item of the personal information.
  • the personal information analyzer 240 may infer the behavior pattern of the user 800 from the collected personal information. For example, it may be assumed that the user 800 is a student who shuttles between home and school at a predetermined time. The personal information analyzer 240 may infer the space where the user 800 for each time zone may be located by referring to the place information transmitted from the personal information collector 220 such as time information and GPS. In the above case, the personal information analyzer 240 may spend time at the 'school' by the user 800 and collect or infer environmental property information called 'school' during that time.
  • the personal information analyzer 240 may preferably analyze personal information of the user 800 that is already collected or is being collected through a big data technique, but is not limited thereto.
  • the personal information collecting unit 220 and the personal information analyzing unit 240 are included in the terminal 200.
  • the terminal 200 may directly receive the personal information of the user 800 through the personal information collecting unit 220 and the personal information analyzing unit 240, or the personal state from the collected personal behavior information.
  • the voice recognition system 1000C according to the present invention is not limited to the configuration of FIG. 4, and the personal government analyzer 240 may be included in the voice recognition server 300. Since the speech recognition server 300 has superior computational processing capability and storage capability compared to the terminal 200, when the speech recognition server 300 includes the personal information analyzer 240, the speech recognition server 300 is smoother than the terminal 200. Personal information can be inferred.
  • the user 800 may classify the collected personal information according to a preset category.
  • the classification of the personal information may be performed on all devices in which the personal information of the user 800 is stored.
  • the user 800 may classify the personal information into public personal information and private personal information according to whether the personal information is disclosed.
  • the personal information inferred through the personal information analyzer 240 or input through the personal government collector 220 may be transmitted to the configuration controller 380 of the voice recognition server 300.
  • the personal information transmitted at this time may be configured only by the user permitting the disclosure.
  • the probability of each item of personal information identified through the personal information analyzer 240 may also be transmitted to the speech recognition server 300.
  • the preference controller 380 may select at least one of an acoustic model and a language model with reference to the transmitted personal information.
  • the configuration controller 380 may select at least one acoustic model and at least one language model with reference to the transmitted personal information. For example, when the preference controller 380 receives public personal information of "children", it may select an acoustic model associated with the "children.”
  • the configuration controller 380 may select a language model associated with a 'child', when both the acoustic model unit 354 and the language model unit 354 have an acoustic model and a language model associated with the 'child'. It is also possible to select both models.
  • the preference controller 380 may use pattern information of the user inferred by the personal information analyzer 240. As in the above example, when the user 800 is a student, the personal information analyzer 240 may infer that the user 800 sends his / her routine to the school at a specific time. The preference controller 380 may select a sound model and a language model corresponding to “school” when the voice of the user 800 is recognized during the specific time domain with reference to the pattern information and the time information.
  • the configuration controller 380 may select all available acoustic models and language models. Even when there is no acoustic model and language model associated with the received user's personal information, the preference controller 380 may select all available acoustic models and language models. When no acoustic model and language model are directly associated with the received personal information of the user, the preference controller 380 may select an acoustic model and a language model that approximate the received personal information.
  • the configuration controller 380 recognizes the speech.
  • the 'youth' language model held by the server 300 may be selected.
  • the configuration controller 380 may personalize the acoustic model and the language model to suit the voice of the user 800.
  • the speech recognition system 1000C may increase the accuracy when performing the speech recognition.
  • the speech recognition server 300 may refer to a plurality of acoustic models and language models in the process of performing speech recognition.
  • the speech recognition server 300 may generate a plurality of character strings as a speech recognition result.
  • the speech recognition server 300 may refer to a probability value for each item transmitted from the personal information analyzer 240 to determine a weight based on this. Applicable to each string.
  • the speech recognition server 300 may select a string having the highest probability value among the probabilities to which the weight is applied as the final speech recognition result.
  • the speech recognition system 1000C may be usefully used in a training step for forming an acoustic model and a language model.
  • a large amount of randomly recorded voice signals are input to the terminal 200 through the input unit 212, the features of each voice signal are extracted and transmitted to the voice recognition server 300, and the analyzed personal information is also transmitted.
  • the speech recognition server 300 may form various acoustic models and language models by performing a training step with reference to the transmitted voice features and personal information. In particular, only a voice signal corresponding to a specific personal information item is selected and used in a training step, so that an acoustic model and a language model specific to the specific item can be formed.
  • the voice recognition system 1000C may separately select the voices of the elderly men through the personal information analyzer 240, the acoustic models and the language specialized for the elderly men may be selected by using only the voices of the elderly men.
  • a model can be formed and used later to analyze speech signals classified as 'elderly' or 'male' in speech recognition.
  • a plurality of voice recognition servers 300 may be provided, and a distributed voice recognition process may be performed.
  • FIG. 5 is a diagram illustrating an embodiment of a voice recognition system 1000D including a private server 400.
  • the voice recognition system 1000D may include a terminal 200, a voice recognition server 300, and a private server 400.
  • the terminal 200 may include an input unit 212, a personal information collecting unit 220, a personal information analyzing unit 240, and an output unit 214.
  • the speech recognition server 300 may include an acoustic model unit 352, a language model unit 354, an acoustic database 372, a language database 374, and a configuration controller 380.
  • the private server 400 may include a feature extractor 430 and a personal information storage unit 460.
  • the feature extractor 430 included in the private server 400 may be the same as the feature extractor 230 included in the terminal 200 of FIG. 4.
  • the feature extractor 430 may be included in the terminal according to the computing capability of the terminal 200, and at least one of the personal information collector 220 and the personal information analyzer 240 may be included in the private server 400. have.
  • the feature extractor 430 may be included in the voice recognition server 300.
  • a configuration in which the acoustic database 372 and the language database 374 of the speech recognition server 300 exist outside the speech recognition server 300 is also possible.
  • FIGS. 5 and 4 Detailed descriptions of the components common to FIGS. 5 and 4 will be omitted since they will overlap.
  • the private server 400 may receive a voice signal and personal information from the terminal 200, classify the personal information into a preset category, and store the personal information. In addition, the private server 400 may transmit a voice signal and at least some stored personal information to the voice recognition server 300.
  • the feature extractor 430 of the private server 400 may extract a feature from the voice signal transmitted from the terminal 200 and transmit the feature to the voice recognition server 300.
  • the private server 400 may encrypt and transmit the voice feature.
  • the feature extractor 430 is included in the voice recognition server 300, the private server 400 may transmit the encrypted voice signal to the voice recognition server 200.
  • the private server 400 may encrypt the voice feature or the voice signal, thereby preventing the leakage of personal information that may be inferred from the unencrypted voice.
  • the personal information storage unit 460 of the private server 400 stores the personal information transmitted from the terminal 200.
  • the personal information storage unit 460 may store personal information directly input by the user 800, personal information inferred from the voice signal of the user 800, and other personal information inferred from the personal information of the user 800.
  • the personal information may be transmitted from the personal information analyzer 240.
  • the personal information analyzer 240 may calculate a probability value for each item of personal information, and this probability value may also be stored in the personal information storage unit 460.
  • the user 800 may classify personal information into a preset category, and the classification process may be performed by the private server 400.
  • the user 800 may classify the personal information stored in the terminal 200 and the private server 400 according to an arbitrary category or a preset category of the user 800 through the operation of the terminal 200, and classify the classified personal information.
  • the personal information storage unit 460 of the private server 400 may be stored.
  • the private server 400 may classify and store personal information of the user 800 into publicly available personal information and private personal information, but is not limited thereto.
  • the private server 400 may store personal information of the user 800 and perform various encryption techniques for securing personal information.
  • the private server 400 contracts with the user 800 or stores the user's personal information under a user authentication and consent to collect personal information.
  • the private server 400 may be provided separately from the voice recognition server 300 to prevent leakage of user information from the voice recognition server 300 that processes a large amount of voice recognition in an open area.
  • Personal information of the user 800 is freely transmitted and received between the terminal 200 and the private server 400.
  • the private server 400 may prevent personal information that the user does not want to disclose from leaking by transmitting only the personal information set by the user 800 to the voice recognition server 300.
  • the advantages obtained when the private server 400 exists between the terminal 200 and the voice recognition server 300 are as follows.
  • the user 800 wants to receive a voice recognition service, but is concerned about the leakage of personal information due to voice recognition, such as the leakage of a voice signal.
  • the user 800 may transmit personal information and a voice signal to a highly reliable private server 400 operator, and the private server 400 operator may allow the user to disclose at least one of an encrypted voice signal and an encrypted voice feature. Only one personal information may be transmitted to the server 200 that provides a voice recognition service.
  • the voice recognition service provider 200 may extract only a string by using the voice signal and the personal information allowed to be disclosed, and may not identify who the voice signal is actually and who the user has. Can be protected.
  • an intermediate step of the private server 400 is further formed between the terminal 200 and the speech recognition server 300, thereby distributing and disposing each process of speech recognition to each component, thereby providing the terminal 200 and the speech recognition server. The load on the 300 side can be reduced.
  • a plurality of speech recognition servers 300 may be provided to perform a distributed speech recognition process.
  • the voice recognition server 300 may select an acoustic model and a language model corresponding to the personal information by referring to the personal information transmitted from the private server 400, thereby increasing the speech recognition success rate.
  • the speech recognition server 300 may receive information from the personal information analyzer 240. A weight based on this may be applied to each character string by referring to the probability of each attribute transmitted. The speech recognition server 300 may select a string having the highest probability value among the probabilities to which the weight is applied as the final speech recognition result.
  • the voice recognition result generated by the voice recognition server 300 is displayed to be transmitted to the terminal 200 after passing through the private server 400, but is not limited thereto. It may be directly transmitted from the 300 to the terminal 200.
  • the voice recognition server 300 may transmit the voice recognition result to a device other than the terminal 200 and the private server 400 described above.
  • FIG. 6 is a diagram illustrating another embodiment 1000E of a speech recognition system including a private server.
  • the voice recognition system 1000E may include a terminal 200, a voice recognition server 300, and a private server 400.
  • the terminal 200 may include an input unit 212, a personal information collecting unit 220, a personal information analyzing unit 240, and an output unit 214.
  • the speech recognition server 300 may include an acoustic model unit 352, a language model unit 354, an acoustic database 372, a language database 374, and a configuration controller 380.
  • the private server 400 may include a feature extractor 430, a personal information storage unit 460, and a result recalculation unit 490.
  • the feature extractor 430 may be included in the terminal according to the computing capability of the terminal 200, and at least one of the personal information collector 220 and the personal information analyzer 240 may be included in the private server 400. have.
  • the feature extractor 430 may be included in the voice recognition server 300.
  • the result recomputation unit 490 is configured to execute the terminal 200 and the voice. It may be included in at least one of the recognition server 300.
  • a configuration in which the acoustic database 372 and the language database 374 of the speech recognition server 300 exist outside the speech recognition server 300 is also possible.
  • the speech recognition server 300 may generate a plurality of speech recognition results.
  • the plurality of speech recognition results may include a string set of a grid structure generated by the language model unit 354.
  • the voice recognition server 300 may transmit the plurality of voice recognition results to the private server 400.
  • the speech recognition server 300 may also transmit the type information of the acoustic model and the language model used in the speech recognition process, and the type information of the acoustic model and the language model may be included in each speech recognition result.
  • the type information may be used to distinguish which acoustic model and language model each speech recognition result comes from.
  • the type information may be transmitted from the configuration controller 380 to the private server 400, but is not limited thereto.
  • the acoustic model unit 352, the language model unit 354, and other voice recognition servers 300 may be used. It may also be transmitted in the component of).
  • the result recalculation unit 490 may select an optimal speech recognition result from the speech recognition result transmitted from the speech recognition server 300.
  • the result recomputation unit 490 may provide the type information of the acoustic model and the language model.
  • the optimal speech recognition result can be selected using.
  • the result recalculation unit 490 may refer to the personal information of the user 800 stored in the personal information storage unit 460.
  • the personal information referred to may include both personal information set by the user 800 as public and personal information not set as public.
  • a concrete example in which the result recomputation unit 490 selects an optimal speech recognition result is as follows.
  • the user 800 speaks English, and the private server 400 holds 'male', which is public information, and also stores private personal information 'elderly' and 'Texas dialect of the United States'. You can assume that The private server 400 may transmit the “person” which is the disclosed personal information to the voice recognition server 300.
  • the configuration controller 380 of the speech recognition server 300 may perform speech recognition using a generalized acoustic model and a language model. However, the configuration controller 380 may select a sound model and a language model corresponding to personal information 'male' for more accurate voice recognition.
  • the configuration controller 380 may select 'New Jersey dialects', 'Boston dialects', etc., which are acoustic models and language models formed from regional dialect utterance data, and may also select various acoustic models and language models for each age group. . If the speech recognition server 300 has a language model corresponding to "Texas dialect" but does not have a sound model associated with it, the configuration controller 380 may select only the "Texas dialect" language model.
  • the configuration controller 380 may select the acoustic model of the local dialect.
  • the configuration controller 380 may select all kinds of sound models and language models possessed by the speech recognition server 300. Even if the speech recognition server 300 does not have an acoustic model and a language model corresponding to the published personal information, the configuration controller 380 may have all kinds of acoustic models and languages possessed by the speech recognition server 300. You can choose a model.
  • the speech recognition server 300 transmits the speech recognition results and each type information to the private server 400.
  • the result recalculation unit 490 of the private server 400 may perform at least one of a voice recognition result corresponding to 'person', which is public information, and a voice recognition result corresponding to 'elderly' and 'Texas dialect', which is private personal information.
  • the final speech recognition result may be selected, and all three speech recognition results may be selected.
  • the result recalculation unit 490 may select a string having the highest probability among all the speech recognition results as the final speech recognition result.
  • a probability value for each item of personal information identified through the personal information analyzer 240 may be stored in the personal information storage unit 460.
  • a probability value for each item of personal information may be stored in the personal information storage unit 460.
  • various types of information generated by the personal information analyzer 240 may be directly transmitted to the result recalculation unit 490 without passing through the personal information storage unit 460.
  • the result recomputation unit 490 may apply weights based on the reference values based on the probability values of each item. have.
  • the result recalculation unit 490 may select a character string having the highest probability value among the probability values to which the weight is applied as the final speech recognition result.
  • the result recalculation unit 490 may form weight 1, weight 2, and weight 3 values based on the probabilities of 'male', 'elderly', and 'Texas dialects', respectively, It can be applied to the output of.
  • the result recomputation unit 490 may obtain a final probability by multiplying each probability value of the word strings formed by the acoustic model and the language model corresponding to 'male' with a weighted value of 1, which is equally processed for other results. do.
  • the final probability can be obtained in various ways and is not limited to the above multiplication method.
  • the result recalculation unit 490 may select a word string having the highest final probability among all calculation result values.
  • the user 800 When the user 800 receives a plurality of final speech recognition results, the contents of each speech recognition result are checked, and the result corresponding to the intention of the user 800 is selected among them and transmitted to the speech recognition system 1000E. Can be. Alternatively, the user 800 may evaluate the accuracy of all final speech recognition results and transmit the accuracy evaluation information of each result to the speech recognition system 1000E.
  • the voice recognition system 1000E may generate user feedback information including the final voice recognition result selection information and the accuracy evaluation information of the user 800.
  • the speech recognition system 1000E may assign an accuracy weight to an acoustic model and a language model based on user feedback information, and the accuracy weight information may be used in a subsequent speech recognition process to increase the accuracy of speech recognition. For example, the speech recognition system 1000E may add the accuracy weight to the probability of each word string formed as a speech recognition result and select the word string having the highest probability as the final speech recognition result.
  • FIG. 7 is a diagram illustrating another embodiment 1000F of a speech recognition system including a terminal and a speech recognition server.
  • the voice recognition system 1000F may include a terminal 200 and a voice recognition server 300.
  • the terminal 200 includes an input unit 212, a personal information collecting unit 220, a feature extracting unit 230, a personal information analyzing unit 240, a personal information storing unit 260, a result recomputing unit 290, and an output unit.
  • 214 may include.
  • the speech recognition server 300 may include an acoustic model unit 352, a language model unit 354, an acoustic database 372, a language database 374, and a configuration controller 380.
  • the speech recognition server 300 may include at least one speech signal analyzer 250 including an acoustic model unit 352 and a language model unit 354.
  • the feature extracting unit 230, the personal information storage unit 260, and the result recomputing unit 290 included in the terminal 200 of FIG. 7 are the feature extracting unit 430 included in the private server 400 of FIG. 6,
  • the personal information storage unit 460 and the result recalculation unit 490 may be provided as the same.
  • At least one of the personal information collecting unit 220, the personal information analyzing unit 240, the result recomputing unit 290, the personal information storing unit 260, and the feature extracting unit 230 is selected according to the computing capability of the terminal 200. It may be included in the voice recognition server 300. A configuration in which the acoustic database 372 and the language database 374 of the speech recognition server 300 exist outside the speech recognition server 300 is also possible.
  • the terminal 200 of FIG. 7 includes a feature extractor 430, a personal information storage unit 460, and a result recomputation unit 490 included in the private server 400 of FIG. 6, and the terminal 200. Through this process, personal information analysis and final speech recognition result selection are also performed.
  • the terminal 200 of FIG. 7 is a configuration suitable for a high performance smart phone which is recently distributed in the market, and is a system structure that can be applied to a personal computer used at home.
  • the terminal 200 exchanges only a voice signal, public information, and voice recognition result with the voice recognition server 300.
  • the voice recognition system 1000F of FIG. 7 is provided with a simple structure that does not go through a separate voice recognition step except for the terminal 200 and the voice recognition server 300. This simplicity is an advantage of the configuration of the system structure. .
  • the user need only pay attention to personal information stored in each terminal 200, and does not need to take extra security.
  • the voice recognition system 1000 of FIG. 7 is a form in which the terminal 200 and the private server 400 of FIG. 6 are combined into one, and in particular, has great strength in the process of processing personal information. In the case of FIG.
  • the user 800 may easily manage personal information through the direct terminal 200.
  • the user 800 may easily select a result according to his or her preferences during the result recalculation process.
  • FIG. 8 is a diagram illustrating an embodiment of a voice recognition system 1000G for transmitting a voice recognition result of the first user 800a to the second user 800b.
  • the voice recognition system 1000G may include a first terminal 500, a voice recognition server 300, a private server 400, and a second terminal 600.
  • the first terminal 500 may include an input unit 512, a personal information collecting unit 520, and a personal information analyzing unit 540
  • the second terminal 600 may include a signal receiving unit 610 and a translation unit 620.
  • the voice recognition server 300 and the private server 400 of FIG. 8 are the same as the voice recognition server 300 and the private server 400 of FIG. 6, and the output unit 614 included in the second terminal 600 is It may be provided in the same manner as the output unit 214 included in the terminal 200 of FIG. Similarly to the terminal 200 of FIG. 6, the first terminal 500 may include a separate output unit so that the first user 800a may check his or her voice recognition result.
  • the signal receiver 610 receives a voice recognition result of the first user 800a.
  • the signal receiver 610 may receive a plurality of voice recognition results.
  • the signal receiver 610 may receive personal information of the first user 800a and a voice feature of the first user 800a.
  • the signal receiving unit 610 may receive only public information of the first user 800a published from the private server 400.
  • the voice feature of the first user 800a may be extracted from the voice signal of the first user 800a by the feature extractor 430 and stored in the private server 400.
  • Personal information of the first user 800a may be used when outputting voice from the second terminal 600.
  • the translation unit 620 may match the speech recognition result of the first user 800a to the language of the second user 800b. Translate. In this case, the translation unit 620 may generate a plurality of translation results for the plurality of speech recognition results. In addition, the translation unit 620 may perform a normalization process on the speech recognition result. In this case, the normalization process refers to a process of transforming a speech recognition result into a string conforming to a standard word method. However, the present invention is not limited thereto, and the normalization process may be processed by other components of the voice recognition system 1000G.
  • the result selector 630 selects at least one of a plurality of speech recognition results and a plurality of translation results.
  • the result selection unit 630 may select a result according to the selection input of the second user 800b.
  • the result selection unit 630 may select a result corresponding to the personal information of the second user 800b.
  • the result selection unit 630 may be combined with the translation unit 620 and exist as one component.
  • the output signal selector 640 determines an output format when outputting the selected result.
  • the output signal selector 640 may receive an output format designation input such as "image output” and "audio output” from the second user 800b.
  • the output signal selector 640 may determine an output format according to the configuration of the second terminal 400. For example, when the second terminal 400 does not have a separate video output means and is provided with only audio output means such as a speaker, the output signal selector 640 selects an audio output format.
  • the output signal selector 640 may determine to output the selected result as a voice, and in this case, the output signal selector 640 may transmit the selected result to the voice signal converter 650.
  • the voice signal converter 650 converts the selected result into a voice signal.
  • the voice signal converter 650 may generate an output voice by referring to the personal information and the voice feature information of the first user 800a received by the signal receiver 610. That is, if the first user 800a is a Korean woman and the second user 800b is an American, the second user 800b may hear the first user 800a spoken in Korean in English. At this time, it means that the voice may have the Korean female voice characteristic unique to the first user 800a.
  • the attribute storage unit 652 may store the voice feature and the environment feature.
  • the voice feature may include a voice feature of a celebrity, and the environment feature may include reverberation characteristics and spatial information of various spaces.
  • the voice signal converter 650 may generate a voice by referring to the voice feature and the environment feature stored in the attribute storage unit 652. For example, the voice signal converter 650 may output the selected result as a voice of a celebrity by referring to the information of the property storage unit 652, and generate a voice that adds the characteristics of a concert hall that is severely ringing. It may be.
  • the speech recognition system 1000G having the configuration as shown in FIG. 8 may be used as a real-time interpretation system. That is, the first user 800a and the second user 800b may freely speak each other in their own languages, and may listen to each other's words in their own languages.
  • FIG. 8 only the structure in which the voice recognition result is transmitted from the first user 800a to the second user 800b is illustrated, but the present invention is not limited thereto, and a two-way system capable of simultaneously speaking and listening to two users may be configured. That is, two persons, the first user 800a and the second user 800b each have a private server 400 for use, and correspond to the first terminal 500 and the output means corresponding to the input means of the speech recognition system. If each of the second terminal 600 has a terminal of the combined form can be implemented a two-way interpretation system.
  • the second terminal may be included in the configuration of FIG. 7 to configure a real-time interpretation system without the private server 400.
  • FIG. 9 is a diagram illustrating a voice recognition method according to an embodiment of the present invention.
  • the voice recognition method includes receiving a voice signal from a user (S100), collecting personal information of the user (S200), and recognizing a voice from the voice signal based on the voice signal and the personal information. Generating a result (S300), selecting a final speech recognition result from the speech recognition result (S400), and outputting a final speech recognition result (S500).
  • the step S100 of receiving a voice signal from the user is a step of receiving a voice signal, which is basic information for voice recognition, through a microphone or the like.
  • Collecting personal information of the user is a step of obtaining personal information for increasing the success rate of speech recognition.
  • the personal information may include user behavior information collected from the record of the user behavior and the measurement of the user behavior, personal information of the user, and user state information representing the user's situation.
  • the step of collecting the user's personal information (S200) is to obtain the personal information directly input by the user (S220) and by analyzing at least one of the voice signal and the collected personal behavior information to infer personal state information It may further comprise a step (S240).
  • the step of collecting personal information (S200) may be performed before the step of receiving a voice signal from the user (S100), or may be performed after the step of receiving a voice signal from the user (S100) is completed.
  • Generating a speech recognition result from the speech signal based on the speech signal and the personal information (S300) may further include selecting an acoustic model and a language model with reference to the personal information set by the user (S320). have. Generating the speech recognition result from the speech signal based on the speech signal and the personal information (S300) may generate the speech recognition result with high accuracy by referring to the personalized sound model and the language model.
  • a plurality of speech recognition results may be generated, and each speech recognition result may have a probability value.
  • Generating the speech recognition result from the speech signal based on the speech signal and the personal information (S300) may display the types of the acoustic model and the language model used when generating the speech recognition result.
  • Selecting a final speech recognition result from the speech recognition result is a step of selecting an optimal character string from the plurality of speech recognition results.
  • the speech recognition result may be selected using the public personal information and the private personal information of the user.
  • the final speech recognition result may be selected by adding a weight based on the personal information to each probability of the plurality of speech recognition results, and as a result, selecting a speech recognition result having the highest probability value.
  • the step S500 of outputting the final speech recognition result outputs the speech recognition result using text, an image, sound, and the like.
  • the outputting the final speech recognition result (S500) may display the speech recognition result to another user.
  • the method may further include transmitting a final voice recognition result to another user, translating the final voice recognition result in a language used by another user, and outputting the final voice recognition result to another user through an image or a sound. You may.
  • a personalized acoustic model and a language model may be referred to, thereby increasing the speech recognition success rate.
  • the present invention can be utilized in voice recognition applications of smart phones and PCs, telemarketing, home appliances with voice recognition functions, voice recognition vehicles, voice-based interpreters that operate in real time, and voice recognition systems.

Abstract

본 발명은 사용자의 개인 정보를 이용하여 음성 인식 성능을 높이기 위한 음성 인식 장치, 시스템 및 방법에 관한 것이다. 본 발명의 실시예에 따른 음성 인식 시스템은 음성 신호를 입력 받고 사용자의 개인 정보를 수집하는 단말기, 단말기로부터 음성 신호와 개인 정보를 수신하고, 개인 정보를 기 설정된 카테고리로 분류하여 저장하며, 음성 신호 및 저장된 적어도 일부의 개인 정보를 음성 인식 서버로 전송하는 프라이빗 서버, 프라이빗 서버로부터 전송된 음성 신호와 개인 정보에 기초하여 음성 인식을 수행하고, 음성 인식 결과물을 생성하는 음성 인식 서버를 포함할 수 있다.

Description

음성 인식 방법, 장치 및 시스템
본 발명은 음성 인식 장치, 시스템 및 방법에 관한 것으로, 더욱 상세하게는 사용자의 개인 정보를 이용하여 음성 인식 성능을 높이기 위한 음성 인식 장치, 시스템 및 방법에 관한 것이다.
음성 인식 기술은 사용자와 단말기 간의 상호작용을 쉽게 해줄 수 있는 핵심기술 중 하나이다. 음성 인식 기술을 통해 단말기는 사용자의 음성을 듣고, 이를 이해할 수 있으며, 이해한 내용을 바탕으로 사용자에게 적절한 서비스를 제공할 수도 있다.
일반적으로 음성 인식 기술은 다량의 발화 데이터와 언어 데이터로부터 통계적 특징을 추출하여 제작한 음성 인식 모델을 사용한다. 음성 인식 장치는 사용자의 음성을 분석하여 이미 만들어져 있는 음성 인식 모델과의 유사도를 측정하여 사용자의 음성에 포함된 정보를 유추한다.
하지만, 최근의 괄목할만한 발달에도 불구하고, 음성 인식 기술은 그 넓은 가능성에 비하여 현재 매우 제한된 분야에서만 사용 되고 있다. 이러한 현상은 음성 인식 기술이 갖고 있는 몇 가지 한계점들 때문이다. 그 한계점은 음성 인식 과정에서 사용자 개인의 특성에 맞추어진 것이 아닌, 일반화된 음성 인식 모델을 사용하는 데서 기인한다. 또한, 현재의 음성 인식 단말기가 갖는 연산 능력의 한계성도 큰 장애요소가 되고 있다.
본 발명은 상기와 같은 문제점을 해결하기 위해 안출된 것으로서, 사용자의 정보들을 수집하고, 이를 이용하여 음성 인식 과정에서 사용되는 음향 모델(Acoustic Model)과 언어 모델(Language Model)을 사용자에 맞게 개인화하여 성능을 향상시킬 수 있는 음성 인식 시스템을 제공하는데 있다.
이에 더하여, 본 발명은 수집된 사용자의 개인 정보를 사용자의 동의 없이 유출하지 않는 보안에 강인한 음성 인식 시스템을 제공하고자 하는 목적도 가지고 있다.
상기와 같은 과제를 해결하기 위한 본 발명의 실시예에 따르면, 사용자로부터 음성 신호를 입력 받고 상기 사용자의 개인 정보를 수집하는 단말기; 상기 단말기로부터 상기 음성 신호와 상기 개인 정보를 수신하고, 상기 개인 정보를 기 설정된 카테고리로 분류하여 저장하며, 상기 음성 신호 및 저장된 적어도 일부의 개인 정보를 음성 인식 서버로 전송하는 프라이빗 서버; 상기 프라이빗 서버로부터 전송된 상기 음성 신호와 상기 개인 정보에 기초하여 음성 인식을 수행하고, 음성 인식 결과물을 생성하는 음성 인식 서버; 를 포함하되, 상기 프라이빗 서버에서 상기 음성 인식 서버로 전송되는 개인 정보는 사용자가 공개로 설정한 개인 정보이며, 상기 음성 인식 서버는, 상기 음성 신호에 대응되는 음소, 음절 및 단어 중 적어도 하나를 선별하는 음향 모델부와, 언어의 문장 구조를 참조하여 문자열을 형성하는 언어 모델부와, 상기 음향 모델부와 상기 언어 모델부가 음성 인식 과정에서 사용할 음향 모델과 언어 모델을 선택하는 환경 콘트롤러를 포함하는 것을 특징으로 하는 음성 인식 시스템을 제공할 수 있다.
이때, 상기 환경 콘트롤러는 상기 음성 인식 서버에 전송된 개인 정보를 참조하여 적어도 하나의 음향 모델과 적어도 하나의 언어 모델을 선택한다.
또한, 상기 개인 정보는, 사용자 행위의 기록 및 사용자 행위를 측정한 결과로부터 수집된 사용자 행동 정보와, 사용자 고유의 신상 정보 및 사용자의 상황을 나타내는 사용자 상태 정보를 포함하며, 상기 사용자 행동 정보는, 사용자의 온라인 상의 활동 및 인터넷 활용 기록을 수집한 사용자 온라인 기록, 사용자의 실제 위치를 나타내는 사용자 위치 정보, 사용자의 통신 식별 정보인 사용자 연결 정보 및 사용자와 단말기 사이의 상호 작용 과정에서 수집되는 사용자 기기 활용 정보를 포함하고, 상기 사용자 상태 정보는, 사용자 신상 정보 및 성격, 신체, 감정 상태를 나타내는 사용자 속성 정보 및 사용자가 위치하고 있는 주변 환경의 특징을 나타내는 환경 속성 정보를 포함한다.
또한, 상기 단말기는, 상기 사용자 상태 정보를 상기 사용자로부터 직접 입력 받거나, 상기 음성 신호 및 상기 사용자 행동 정보 중 적어도 하나로부터 유추한다.
또는, 상기 프라이빗 서버는, 상기 사용자 상태 정보를 상기 사용자로부터 직접 입력 받거나, 상기 음성 신호 및 상기 사용자 행동 정보 중 적어도 하나로부터 상기 사용자 상태 정보를 유추한다.
그리고, 상기 음성 인식 서버는, 복수의 음성 인식 결과물들을 도출하여 상기 프라이빗 서버로 전송하되, 음성 인식 과정에서 사용된 음향 모델과 언어 모델의 종류 정보도 함께 전송한다.
이때, 상기 프라이빗 서버는, 상기 음성 인식 서버로부터 전송된 복수의 음성 인식 결과물들 중 적어도 하나를 선택하되, 상기 공개된 개인 정보 및 비공개 개인 정보를 이용하여 선택한다.
또한, 상기 프라이빗 서버는, 상기 음성 인식 서버로부터 전송된 복수의 음성 인식 결과물들 중 적어도 하나를 선택하되, 상기 복수의 음성 인식 결과물들의 각 확률값에 상기 공개된 개인 정보 및 비공개 개인 정보에 기초한 가중치를 부가하고, 그 결과로 가장 높은 확률값을 가지는 음성 인식 결과물을 선택한다.
본 발명의 다른 실시예에 따르면, 제 1 사용자로부터 음성 신호를 입력 받고 상기 제 1 사용자의 개인 정보를 수집하는 제 1 단말기; 상기 제 1 단말기로부터 상기 음성 신호와 상기 개인 정보를 수신하고, 상기 개인 정보를 기 설정된 카테고리로 분류하여 저장하며, 상기 음성 신호 및 저장된 적어도 일부의 개인 정보를 음성 인식 서버로 전송하는 프라이빗 서버; 상기 프라이빗 서버로부터 전송된 상기 음성 신호와 상기 개인 정보에 기초하여 음성 인식을 수행하여 음성 인식 결과물을 생성하고, 상기 음성 인식 결과물을 제 2 단말기에 전송하는 음성 인식 서버; 및 상기 음성 인식 결과물을 수신하여 제 2 사용자에게 출력하는 제 2 단말기; 를 포함하되, 상기 프라이빗 서버에서 상기 음성 인식 서버로 전송되는 개인 정보는 제 1 사용자가 공개로 설정한 개인 정보이며, 상기 음성 인식 서버는, 상기 음성 신호에 대응되는 음소, 음절 및 단어 중 적어도 하나를 선별하는 음향 모델부와, 언어의 문장 구조를 참조하여 문자열을 형성하는 언어 모델부와, 상기 음향 모델부와 상기 언어 모델부가 음성 인식 과정에서 사용할 음향 모델과 언어 모델을 선택하는 환경 콘트롤러를 포함하는 것을 특징으로 하는 음성 인식 시스템이 제공될 수 있다.
이때, 상기 환경 콘트롤러는 상기 음성 인식 서버에 전송된 제 1 사용자의 개인 정보를 참조하여 적어도 하나의 음향 모델과 적어도 하나의 언어 모델을 선택한다.
그리고, 상기 제 1 단말기는, 상기 사용자 상태 정보를 상기 사용자로부터 직접 입력 받거나, 상기 음성 신호 및 상기 사용자 행동 정보 중 적어도 하나로부터 유추한다.
또는, 상기 프라이빗 서버는, 상기 사용자 상태 정보를 상기 사용자로부터 직접 입력 받거나, 상기 음성 신호 및 상기 사용자 행동 정보 중 적어도 하나로부터 상기 사용자 상태 정보를 유추한다.
그리고, 상기 음성 인식 서버는, 복수의 음성 인식 결과물들을 도출하여 상기 프라이빗 서버로 전송하되, 음성 인식 과정에서 사용된 음향 모델과 언어 모델의 종류 정보도 함께 전송한다.
이때, 상기 프라이빗 서버는, 상기 음성 인식 서버로부터 전송된 복수의 음성 인식 결과물들 중 적어도 하나를 선택하되, 상기 공개된 개인 정보 및 비공개 개인 정보를 이용하여 선택한다.
또는, 상기 프라이빗 서버는, 상기 음성 인식 서버로부터 전송된 복수의 음성 인식 결과물들 중 적어도 하나를 선택하되, 상기 복수의 음성 인식 결과물들의 각 확률값에 상기 공개된 개인 정보 및 비공개 개인 정보에 기초한 가중치를 부가하고, 그 결과로 가장 높은 확률값을 가지는 음성 인식 결과물을 선택한다.
그리고, 상기 제 2 단말기는, 상기 음성 인식 결과물을 음성으로 출력한다.
이때, 상기 제 2 단말기는, 상기 프라이빗 서버로부터 제 1 사용자의 개인 정보를 전송 받고, 상기 제 2 단말기가 상기 음성 인식 결과물을 음성으로 변환할 때 상기 제 1 사용자의 개인 정보를 참조하여 음성을 형성한다.
또는, 상기 제 2 단말기는, 상기 음성 인식 결과물을 음성으로 변환할 때 별도로 저장된 음성의 특징 및 환경 특징 중 적어도 하나를 참조하여 음성을 형성한다.
또한, 상기 제 2 단말기는, 언어를 번역하는 번역부를 더 포함하고, 상기 번역부는 상기 음성 인식 결과물을 상기 제 2 사용자가 선택한 언어로 번역한다.
본 발명의 또 다른 실시예에 따르면, 사용자로부터 음성 신호를 입력 받고 상기 사용자의 개인 정보를 수집하며, 상기 음성 신호 및 적어도 일부의 개인 정보를 음성 인식 서버로 전송하는 단말기; 및 상기 단말기로부터 전송된 상기 음성 신호와 상기 개인 정보에 기초하여 음성 인식을 수행하여 음성 인식 결과물을 생성하는 음성 인식 서버; 를 포함하되, 상기 단말기에서 상기 음성 인식 서버로 전송되는 개인 정보는 사용자가 공개로 설정한 개인 정보이며, 상기 음성 인식 서버는, 상기 음성 신호에 대응되는 음소, 음절 및 단어 중 적어도 하나를 선별하는 음향 모델부와, 언어의 문장 구조를 참조하여 문자열을 형성하는 언어 모델부와, 상기 음향 모델부와 상기 언어 모델부가 음성 인식 과정에서 사용할 음향 모델과 언어 모델을 선택하는 환경 콘트롤러를 포함하는 것을 특징으로 하는 음성 인식 시스템이 제공될 수 있다.
이때, 상기 환경 콘트롤러는, 상기 음성 인식 서버에 전송된 개인 정보를 참조하여 음향 모델과 언어 모델 중 적어도 하나를 선택한다.
그리고, 상기 단말기는, 상기 사용자 상태 정보를 상기 사용자로부터 직접 입력 받거나, 상기 음성 신호 및 상기 사용자 행동 정보 중 적어도 하나로부터 유추한다.
또는, 상기 음성 인식 서버는, 상기 사용자 상태 정보를 상기 사용자로부터 직접 입력 받거나, 상기 음성 신호 및 상기 사용자 행동 정보 중 적어도 하나로부터 상기 사용자 상태 정보를 유추한다.
또한, 상기 음성 인식 서버는, 복수의 음성 인식 결과물들을 도출하여 상기 단말기로 전송하되, 음성 인식 과정에서 사용된 음향 모델과 언어 모델의 종류 정보도 함께 전송한다.
그리고, 상기 단말기는, 상기 음성 인식 서버로부터 전송된 복수의 음성 인식 결과물들 중 적어도 하나를 선택하되, 상기 공개된 개인 정보 및 비공개 개인 정보를 이용하여 선택한다.
또는, 상기 단말기는, 상기 음성 인식 서버로부터 전달된 복수의 음성 인식 결과물들 중 적어도 하나를 선택하되, 상기 복수의 음성 인식 결과물들의 각 확률값에 상기 공개된 개인 정보 및 비공개 개인 정보에 기초한 가중치를 부가하고, 그 결과로 가장 높은 확률값을 가지는 음성 인식 결과물을 선택한다.
그리고, 상기 음성 인식 서버는, 복수의 음성 인식 결과물들을 도출하고, 상기 복수의 음성 인식 결과물들 중 적어도 하나를 선택하되, 상기 공개된 개인 정보를 이용하여 선택한다.
또는, 상기 음성 인식 서버는, 복수의 음성 인식 결과물들을 도출하고, 상기 복수의 음성 인식 결과물들의 확률값에 상기 공개된 개인 정보에 기초한 가중치를 부가하여, 상기 가중치가 부가된 확률값 중 가장 높은 확률값을 가지는 음성 인식 결과물을 선택한다.
본 발명의 또 다른 실시예에 따르면, 사용자로부터 음성 신호를 입력 받는 단계; 상기 사용자의 개인 정보를 수집하는 단계; 상기 음성 신호와 상기 개인 정보에 기초하여 상기 음성 신호로부터 음성 인식 결과물을 생성하는 단계; 상기 음성 인식 결과물로부터 최종 음성 인식 결과물을 선택하는 단계; 를 포함하고, 상기 음성 신호와 상기 개인 정보에 기초하여 상기 음성 신호로부터 음성 인식 결과물을 생성하는 단계는, 상기 사용자가 공개로 설정한 개인 정보를 참조하여 음향 모델과 언어 모델을 선택하는 단계; 를 추가적으로 포함하는 것을 특징으로 하는 음성 인식 방법이 제공될 수 있다.
여기서, 상기 사용자의 개인 정보를 수집하는 단계는, 상기 사용자가 직접 입력한 개인 정보를 취득하는 단계; 와 음성 신호 및 사용자 행동 정보 중 적어도 하나로부터 사용자 상태 정보를 유추하는 단계; 를 더 포함한다.
그리고, 상기 음성 신호와 상기 개인 정보에 기초하여 상기 음성 신호로부터 음성 인식 결과물을 생성하는 단계는, 복수의 음성 인식 결과물을 생성하고, 상기 복수의 음성 인식 결과물 각각에 대하여 음성 인식을 수행할 때 사용된 음향 모델 및 언어 모델의 종류 정보를 함께 생성한다.
또한, 상기 최종 음성 인식 결과물을 선택하는 단계는, 공개된 개인 정보 및 비공개 개인 정보를 이용하여 최종 음성 인식 결과물을 선택한다.
그리고, 상기 최종 음성 인식 결과물을 선택하는 단계는, 상기 복수의 음성 인식 결과물들의 각 확률에 상기 공개된 개인 정보 및 비공개 개인 정보에 기초한 가중치를 부가하고, 그 결과로 가장 높은 확률값을 가지는 음성 인식 결과물을 선택한다.
본 발명에 따르면, 사용자의 개인 정보를 수집할 수 있으며, 상기 수집된 개인 정보를 이용하여 사용자에게 개인화된 음향 모델 및 언어 모델을 선택할 수 있다. 그리고, 개인화된 음향 모델 및 언어 모델을 선택하여 음성 인식을 수행함으로써, 음성 인식의 성공률을 높일 수 있다.
또한, 본 발명의 실시예에 따르면, 사용자의 개인 정보는 사용자의 단말기 또는 프라이빗 서버 등의 사적 공간에만 저장되며, 음성 인식이 수행되는 음성 인식 서버에는 공개된 개인 정보만 전송되기 때문에 사용자의 개인 정보를 강력하게 보호할 수 있다.
또한, 본 발명의 실시예에 따르면, 사용자는 타인에게 음성 인식 결과물을 전송할 수 있으며, 이를 통해 상기 타인과 실시간으로 음성 인식 결과물을 주고받을 수 있다.
또한, 본 발명의 실시예에 따르면, 단말기, 프라이빗 서버 및 음성 인식 서버의 성능에 따라 각 구성 요소를 자유롭게 배치할 수 있는 음성 인식 시스템을 제공할 수 있다.
도 1은 본 발명의 일 실시예에 따른 음성 인식 장치를 나타낸 도면이다.
도 2는 본 발명의 실시예에 따른 음성 인식 시스템을 나타낸 도면이다.
도 3은 본 발명의 다른 실시예에 따른 음성 인식 시스템을 나타낸 도면이다.
도 4는 본 발명의 또 다른 실시예에 따른 음성 인식 시스템을 나타낸 도면이다.
도 5는 프라이빗 서버를 포함하는 음성 인식 시스템의 실시예를 나타낸 도면이다.
도 6은 프라이빗 서버를 포함하는 음성 인식 시스템의 또 다른 실시예를 나타낸 도면이다.
도 7은 단말기와 음성 인식 서버를 포함하는 음성 인식 시스템의 또 다른 실시예를 나타낸 도면이다.
도 8은 제 1 사용자의 음성 인식 결과를 제 2 사용자에게 전송하는 음성 인식 시스템의 실시예를 나타낸 도면이다.
도 9는 본 발명의 실시예에 따른 음성 인식 방법을 나타낸 도면이다.
본 발명은 사용자의 개인 정보를 이용하여 음성 인식 성능을 높이고 사용자의 개인 정보를 보호하기 위한 음성 인식 장치 시스템 및 방법에 관한 것으로, 도면을 참조하여 본 발명의 바람직한 실시예를 상세히 설명하기로 한다.
도 1은 본 발명의 일 실시예에 따른 음성 인식 장치(100)를 나타낸 도면이다.
도 1에 따르면 본 발명에 따른 음성 인식 장치(100)는 입력부(112), 특징 추출부(130), 음향 모델부(152), 언어 모델부 (140) 및 출력부(114)를 포함할 수 있다. 도 1에서 실선은 음성 신호 및 음성 인식 결과물의 흐름을 표시한 것이고 점선은 음성 인식에 필요한 부가 정보의 흐름을 표시한 것이다. 도 1에 따르면, 음향 모델부(152)는 복수의 음향 모델을 포함할 수 있으며, 언어 모델부(154)도 복수의 언어 모델을 포함할 수 있다. 이와 관련된 상세한 내용은 음향 모델부(152) 및 언어 모델부(154)를 설명할 때 다루도록 한다.
음성 인식 장치(100)는 설명의 편의를 위해서 ‘장치’라고 표현되고 있지만, 소프트웨어(software)의 형태로 존재할 수 있으며, 하드웨어(hardware)의 형태 및 소프트웨어와 하드웨어가 융합된 형태 중 적어도 하나로 존재할 수도 있다. 음성 인식 장치(100)는 특정 장소에 설치된 PC 형태로 존재할 수 있고, 스마트폰, 노트북, 웨어러블 디바이스(wearable device)와 같이 용이하게 휴대할 수 있는 단말기 형태로 존재할 수도 있다.
입력부(112)는 사용자(800)의 음성을 수집하고 이를 전기적 신호로 변환하는 구성요소로 대표적으로 마이크 등의 장치가 사용될 수 있으나 이에 한정되지 않는다. 입력부(112)는 음성 신호뿐만 아니라 영상 신호도 함께 수집할 수 있으며, 카메라 등의 영상 신호 입력 장치를 이용하여 사용자(800)의 얼굴 형태 등을 촬영할 수 있다. 본 발명에 따른 음성 인식 장치(100)의 입력부(112)에 영상 신호 입력 장치가 사용됨으로써, 사용자(800)의 얼굴이나 입의 모양으로부터 현재 발음하고 있는 소리를 유추하는 구성으로 마련될 수 있다.
특징 추출부(130)는 수집된 음성 신호로부터 음성 인식에 필요한 기본적인 정보들을 생성할 수 있다. 입력부(112)를 통해 수집된 음성 신호를 특정 간격(Frame)으로 분할하여 음성의 각 주파수 대역 별 에너지 분포 등의 정보를 추출한다. 상기 상기 주파수 대역 별 정보들은 벡터 수치화될 수 있으며, 상기 벡터 수치화된 정보는 음성 특징(Feature)으로 사용될 수 있다. 음성 신호의 특징을 추출하는 방법으로 LPC(Linear Predictive Coding) Cepstrum, PLP(Perceptual Linear Prediction) Cepstrum, Mel Frequency Cepstral Coefficient (MFCC), 필터뱅크 에너지 분석(Filter Bank Energy Analysis) 등이 사용될 수 있으나 이에 한정되지는 않는다.
음향 모델부(152)는 상기 특징 추출부(130)에서 추출한 음성 특징에 대응되는 언어의 기본 단위를 판별할 수 있다. 여기서 상기 언어의 기본 단위는 음소, 음절, 단어 등이 될 수 있다. 예를 들어, 음향 모델부(152)는 어떤 사용자가 영어로 ‘dog’라고 발음한 소리가 실제로 단어 ‘dog’의 음소인 /d/, /o/, /g/에 대응되는지 분석하고, 상기 사용자의 음성 신호를 각각의 음소로 인식한다.
음성 신호의 경우, 동일한 단어라도 발음하는 사람에 따라, 그리고 그 단어가 문장 내에서 위치하는 순서 등에 따라서 다른 소리로 표현될 수 있다. 따라서 어떤 음성 특징이 어떠한 언어의 기본 단위에 대응되는지를 판별하기 위해서는 수많은 발화 데이터가 요구된다. 본 발명에 따른 음성 인식 장치(100)의 바람직한 실시예에 따르면, 음향 모델부(152)는 상기 대량의 발화 데이터를 저장하고 있는 음성 데이터베이스(372)와 통신을 수행할 수 있다. 음향 모델부(152)는 훈련 단계(Training Phase)에서, 음성 데이터베이스(372)에 저장된 대량의 발화 데이터를 참조하여 각 음성 특징에 대응하는 언어의 기본 단위를 결정하는 통계적 음향 모델을 생성할 수 있다. 음향 모델부(152)는 생성된 음향 모델 내의 각 음소에 대응하는 음성 특징과 특징 추출부(130)로부터 전송된 음성 특징의 유사도를 측정하여 가장 유사도가 높은 음소를 선택할 수 있다. 그리고 음향 모델부(152)는 선택된 음소들을 조합하여 단어를 생성할 수 있다. 음향 모델부(152)는 음향 모델에 대응되는 음소, 음절, 단어 등의 언어의 기본 단위를 판별할 때, 그 결과물로서 적어도 하나 이상을 선택할 수 있다. 한편, 음향 모델부(152)에서 음향 모델을 생성하는 과정에서 HMM(Hidden Markov Model) 또는 신경망분석(Neural Network)이 사용될 수 있으나 이에 한정되지 않는다.
언어 모델부 (154)는 언어의 문장 구조를 참조하여 문자열을 형성할 수 있다. 모든 언어에서 문장 내의 단어들은 일정한 규칙에 따라 나열된다. 언어 모델부(154)는 이러한 언어의 문장 구조를 참조하여 문자들의 선후 관계를 파악하고, 특정 문자가 인지된 경우, 그 문자 다음에 배치될 수 있는 문자를 예측한다. 사용자(800)가 언어의 문법 또는 규칙에 따라 발화 하였다는 가정하에서, 언어 모델부(154)는 이런 문자열의 구조에 부합되지 않는 문자들은 잘못 인지된 것으로 파악하고 후보 문자에서 탈락시킬 수 있으며, 이 과정을 통해 문자열 인식 성공률을 높일 수 있다.
하지만, 사람들은 일상 속에서 정확한 문법에 따른 발화를 하지 않는 경우가 많기 때문에 이에 대한 고려가 필요하다. 또한, 비슷한 의미의 문장이라도 발화하는 사람의 나이, 성별, 거주지에 따라서 판이하게 다른 문장 구조로 표현할 수 있다. 언어 모델부(154)는 이런 다양한 문장 구조를 올바르게 인지하기 위해서 별도의 훈련 단계를 거칠 수 있으며, 이 훈련 단계를 통해 통계적 언어 모델을 형성할 수 있다. 언어 모델부(154)가 언어 모델을 형성하기 위해서는, 앞서 설명한 음향 모델부(152)의 경우와 마찬가지로, 방대한 양의 문장 구조를 저장하고 있는 언어 데이터베이스(374)와 통신할 필요가 있다. 언어 모델부(154)는 문자열 인식의 결과물로서 적어도 하나의 문자열을 생성할 수 있다. 언어 모델부(154)는 문자열 인식의 결과물로서, 적어도 하나의 문자열에 포함된 단어들을 마디(node)로 표시하고, 문자들을 연결하며 각각의 연결에 대한 확률을 표시하는 줄기(branch)로 표시하는 격자(Lattice) 구조의 문자열 집합을 생성할 수 있다. 문장 내에서 한 문자 다음에 위치할 수 있는 문자의 종류는 복수 개로 선택될 수 있다. 첫 문자와 그 다음 문자간의 연결 조합이 가지는 확률은 언어 모델의 종류에 따라서 다르게 정해질 수 있다. 음성 인식 과정에서 하나의 언어 모델을 사용하더라도 각 문자들의 순서에 따라서 복수의 문자열이 형성될 수 있고, 이에 따라 각 문자열이 형성될 수 있는 확률이 각각 다르게 계산될 수 있다.
음성 인식 장치(100)는 음성 인식 과정에서 복수의 음향 모델을 참조할 수 있고, 복수의 언어 모델을 참조할 수도 있으며, 이로 인해 복수의 음성 인식 결과물을 생성할 수 있다. 음성 인식 장치(100)는 각 문자열에 포함된 확률을 참조하여, 가장 높은 확률을 지니는 문자열을 최종 음성 인식 결과물로 선택하여 출력부(114)로 전송할 수 있다. 단일의 음향 모델 및 언어 모델이 사용된 경우에도 복수의 문자열이 생성될 수 있는데, 이 때에도 음성 인식 서버(300)는 가장 높은 확률을 지니는 문자열을 최종 음성 인식 결과물로 선택할 수 있다.
출력부(114)는 음성 인식 장치(100)의 음성 인식 결과물을 출력한다. 여기서, 상기 음성 인식 결과물은 음향 모델부(152)에서 인식한 언어의 기본 단위와 언어 모델부(154)에서 인식한 문자열 중 적어도 하나를 포함할 수 있다. 음성 인식 결과물은 복수의 문자열의 형태로 구성될 수 있고, 전술한 격자 형태의 문자열 집합으로 구성될 수도 있다.
도 1에서는 입력부(112)와 출력부(114)가 음성 인식 장치(100)에 포함되는 것으로 도시되었으나 이에 한정되지 않으며, 상기 입력부(112)와 출력부(114)는 음성 인식 장치(100)와는 별도의 구성요소로 구비될 수도 있다. 예를 들어, 음성 인식 장치(100)가 스마트폰으로 구비되는 경우, 사용자는 정확한 음성 인식을 위해서 고성능의 마이크를 상기 스마트폰에 부착하여 음성을 수집할 수 있다. 또한, 사용자는 상기 스마트폰에 대형 모니터나 빔 프로젝터, 다채널 스피커 등을 연결하여 다양한 방식으로 음성 인식 결과물을 출력할 수 있다.
앞서 설명된 음향 데이터베이스(372)와 언어 데이터베이스(374)는 도 1에 도시된 바와 같이, 음성 인식 장치(100)와 별도의 구성으로 마련될 수 있으나 이에 한정되지는 않는다. 특히, 만약 음성 인식 장치(100)의 연산 능력과 정보 저장소의 크기가 충분하다면 두 데이터베이스(372, 374)는 음성 인식 장치(100)에 포함될 수 있다.
도 2는 본 발명의 실시예에 따른 음성 인식 시스템(1000A)을 나타낸 도면이다.
도 2에 따르면, 본 발명의 실시예에 따른 음성 인식 시스템(1000A)은 단말기(200)와 음성 인식 서버(300)를 포함할 수 있다. 단말기(200)는 입력부(212), 특징 추출부(230) 및 출력부(214)를 포함할 수 있다. 음성 인식 서버(300)는 음향 모델부(352), 언어 모델부(354), 음향 데이터베이스(372) 및 언어 데이터베이스(374)를 포함할 수 있다.
단말기(200)의 연산 능력에 따라서 특징 추출부(230)가 음성 인식 서버(300)에 포함될 수 있으며, 음성 인식 서버(300)의 음향 데이터베이스(372)와 언어 데이터베이스(374)가 음성 인식 서버(300) 외부에 존재하는 구성도 가능하다.
도 2의 입력부(212), 특징 추출부(230), 출력부(214), 음향 모델부(352), 언어 모델부(354), 음향 데이터베이스(372), 언어 데이터베이스(374)는 도 1의 입력부(112), 특징 추출부(130), 출력부(114), 음향 모델부(152), 언어 모델부(154), 음향 데이터베이스(372), 언어 데이터베이스(374)와 공통된 구성요소이므로 이에 대한 상세한 설명은 생략하도록 한다.
도 2의 단말기(200), 음성 인식 서버(300)로 구성되는 음성 인식 시스템(1000A)이 가지는 장점은 다음과 같다. 우선, 단말기(200)는 음성 인식을 위한 최소한의 입출력 및 기본적인 음성 신호 처리만 수행하기 때문에 비교적 연산 능력이 떨어지는 단말기(200)측의 부담이 적다. 대신, 상대적으로 처리 능력과 저장 능력이 우수한 음성 인식 서버(300)에서 대부분의 연산이 고속으로 수행되며, 단말기(200)는 단지 그 결과를 수신하기만 하면 된다. 현대에 이르러 인터넷 등 유무선 통신 환경이 과거와 비할 바 없이 많은 발전을 이룩하였기 때문에 단말기(200)와 음성 인식 서버(300) 간의 통신은 자유롭게 이루어질 수 있다. 또한, 각기 다른 연산 능력을 지니는 단말기(200)가 매우 다양하게 개발되고 시장에서 유통되고 있다. 각각의 단말기(200) 마다 서로 다른 음성 인식 처리 과정을 마련하는 것은 비효율적일 수 있다. 도 2에 도시된 것처럼, 음성 인식 서버(300)가 대부분의 연산을 수행하도록 함으로써 단말기(200)의 종류와는 상관없는, 단말기(200)에 독립적인 시스템 구현이 가능하다. 물론, 특정 단말기(200)의 처리 능력을 참조하여 단말기(200)와 음성 인식 서버(300) 의 음성 인식 처리 단계를 자유롭게 분배하는 방식으로도 전체 음성 인식 시스템(1000A)이 구현될 수도 있다.
한편, 음성 인식 서버(300)는 복수로 마련될 수 있고, 복수로 마련된 음성 인식 서버(300)는 클라우드(Cloud) 기반의 분산 음성 인식(Distributed Speech Recognition, DSR)을 수행할 수 있다. 분산 음성 인식은 무선 통신 환경에서 음성 인식 성능 향상을 위해 음성 신호의 특징을 디지털 데이터로 변환 및 전송하고 음성 인식 서버가 이를 분산 처리하는 기술을 의미한다. 분산 음성 인식에 의하면 음성 인식 연산의 처리 속도와 메모리의 사용 효율을 극대화할 수 있다.
도 2에서 단말기(200)는 음성 인식 서버(300)로부터 음성 인식 결과물을 전송 받고 이를 출력부를 통해 출력하는 것으로 도시되어있으나 이에 한정되지 않으며, 도 2의 단말기(200)가 아닌 다른 기기 또는 출력 장치로 상기 음성 인식 결과물이 전송될 수 있다.
도 3은 본 발명의 다른 실시예에 따른 음성 인식 시스템(1000B)을 나타낸 도면이다.
도 3에 따르면, 본 발명의 실시예에 따른 음성 인식 시스템(1000B)은 단말기(200)와 음성 인식 서버(300)를 포함할 수 있다. 단말기(200)는 입력부(212), 특징 추출부(230) 및 출력부(214)를 포함할 수 있다. 음성 인식 서버(300)는 음향 모델부(352), 언어 모델부(354), 음향 데이터베이스(372), 언어 데이터베이스(374) 및 환경설정 콘트롤러(Configure Controller, 380)를 포함할 수 있다.
단말기(200)의 연산 능력에 따라서 특징 추출부(130)가 음성 인식 서버(300)에 포함될 수 있으며, 음향 데이터베이스(372)와 언어 데이터베이스(374)가 음성 인식 서버(300) 외부에 존재하는 구성도 가능하다.
도 3과 도 2에 공통된 구성요소들에 대한 상세한 설명은 중복되므로 생략하도록 한다.
환경설정 콘트롤러(380)는 음향 모델부(352)와 언어 모델부(354)가 음성 인식 과정에서 사용할 음향 모델과 언어 모델을 선택한다. 음향 모델부(352)와 언어 모델부(354)는 음성 인식 과정에서 복수의 음향 모델 및 언어 모델을 참조할 수 있다. 화자의 연령대, 성별, 방언의 사용 유무에 따라서 음향 모델의 음성 특징은 서로 다르게 나타날 수 있으며, 음성 발화가 이루어진 장소의 주변 잡음(Background Noise), 잔향(Reverberation) 등에 따라서 음성 특징이 변경되기도 한다. 화자의 연령대, 성별, 방언의 사용 유무에 따라서 사용 단어 및 문장 내의 단어들의 순서 관계가 달라질 수 있기 때문에, 훈련 단계에서 사용된 화자의 특성에 따라서 언어 모델이 다양하게 형성될 수 있다. 음성 인식 서버(300)는 음성 인식 과정에서 전술한 다양한 형태의 음향 모델 및 언어 모델을 복수 개 사용함으로써 음성 인식의 성공률을 높일 수 있다.
도 3의 형태로 분산 음성 인식을 수행하는 경우, 각 음성 인식 서버(300)마다 서로 다른 음향 모델 및 음성 모델을 이용한 음성 인식 과정을 수행하고, 다양한 모델을 통해 생성된 음성 인식 결과물을 하나로 취합하여 다시 단말기(200)로 전송할 수 있다. 또는, 각 음성 인식 서버(300)가 동일한 음향 모델 및 언어 모델을 사용하되 각 음성 인식 처리 과정을 병렬연산 함으로써 음성 인식의 처리 속도를 높일 수 있다.
도 4는 본 발명의 또 다른 실시예에 따른 음성 인식 시스템(1000C)을 나타낸 도면이다.
도 4에 따르면, 본 발명의 실시예에 따른 음성 인식 시스템(1000C)은 단말기(200)와 음성 인식 서버(300)를 포함할 수 있다. 단말기(200)는 입력부(212), 개인 정보 수집부(220), 특징 추출부(230), 개인 정보 분석부(240) 및 출력부(214)를 포함할 수 있다. 음성 인식 서버(300)는 음향 모델부(352), 언어 모델부(354), 음향 데이터베이스(372), 언어 데이터베이스(374) 및 환경설정 콘트롤러(380)를 포함할 수 있다.
단말기(200)의 연산 능력에 따라서 특징 추출부(230), 개인 정보 분석부(240) 중 적어도 하나가 음성 인식 서버(300)에 포함될 수 있으며, 음성 인식 서버(300)의 음향 데이터베이스(372)와 언어 데이터베이스(374)가 음성 인식 서버(300) 외부에 존재하는 구성도 가능하다.
도 4와 도 3에 공통된 구성요소들에 대한 상세한 설명은 중복되므로 생략하도록 한다.
한편, 본 발명에서 개인 정보는 사용자 행위의 기록 및 사용자 행위를 측정한 결과로부터 수집된 사용자 행동 정보를 포함할 수 있다. 또한, 개인 정보는 사용자 고유의 신상 정보 및 사용자의 상황을 나타내는 사용자 상태 정보를 포함할 수 있다.
사용자 행동 정보는 사용자 온라인 기록, 사용자 위치 정보, 사용자 연결 정보 및 사용자 기기 활용 정보를 포함할 수 있다.
사용자 온라인 기록은 사용자(800)의 온라인 상의 활동 및 인터넷 활용 기록을 수집한 정보이다. 사용자 온라인 기록은 사용자(800)가 SNS(Social Network Service) 상에서 작성한 글(text), 사진, 음악, 영상 등의 게시물, 사용자가 SNS 상에서 표시한 감정 아이콘이나 좋다 - 나쁘다, 동의 - 비동의 등의 간이 의사 표시 행위, 온라인 상의 이웃 목록과 인터넷 브라우저 검색 기록 및 방문 기록, 즐겨 찾는 사이트 목록 등을 포함할 수 있다.
사용자 위치 정보는 사용자(800)의 실제 위치를 나타내는 정보이다. 사용자 위치 정보는 사용자(800)가 GPS 등의 측위 시스템을 이용하여 파악한 자신의 위치 정보, 위치 기반 서비스를 제공하는 스마트폰 어플리케이션 등을 통해 표시되는 위치 정보, 유무선 통신망을 통해 온라인에 접속했을 때 참조되는 접속 위치 정보 등을 포함할 수 있다.
사용자 연결 정보는 사용자(800)의 통신 식별 정보로써, 사용자(800)의 전화 번호, e-mail 주소, 실제 주소 정보 등을 포함할 수 있다.
사용자 기기 활용 정보는 사용자(800) 및 단말기(200) 사이의 상호 작용 과정에서 수집되는 정보를 의미한다. 사용자 기기 활용 정보는 사용자(800)가 사용하는 기기의 종류, 각 기기 별 사용 시간 및 빈도수, 사용자(800)가 PC나 스마트폰 등을 통해서 실행시키는 어플리케이션의 종류, 각 어플리케이션의 사용 시간 및 빈도 수, 설치된 어플리케이션 목록, 온라인에서 내려 받은 어플리케이션 목록 등을 포함할 수 있다.
한편, 사용자 상태 정보는 사용자 속성 정보 및 환경 속성 정보를 포함할 수 있다.
사용자 속성 정보는 사용자 신상 정보 및 성격, 신체, 감정 상태를 나타내는 정보로써, 사용자(800)의 연령, 성별, 출신 민족, 사용하는 방언, 직업, 수입, 교육 정도, 건강 상태, 감정 상태, 성격 등을 포함할 수 있다.
환경 속성 정보는 사용자가 위치하고 있는 주변 환경의 특징을 나타내는 정보로써, 사용자가 위치하고 있는 공간의 음향학적 특징인 배경 잡음, 잔향의 정도, 그리고 계절, 시간, 날씨, 기후 정보 등을 포함할 수 있다.
상기 열거된 사용자(800)의 개인 정보는 개인 정보 수집부(220)에 의해 수집될 수 있다. 개인 정보 수집부(220)는 사용자(800)가 단말기(200)를 조작할 때 사용자(800)의 개인 정보를 자동적으로 수집할 수 있으며, 상기 사용자 행동 정보 및 상기 사용자 상태 정보 중 적어도 하나를 사용자(800)로부터 직접 입력 받을 수도 있다. 개인 정보 수집부(220)는 음성인식을 수행하기 위한 도 4의 단말기(200) 또는 해당 사용자(800)의 인증 또는 개인 정보 수집에 대한 동의가 수행된 외부 단말기 및 서버 등에 포함되어 사용자(800)의 개인 정보를 수집할 수 있다.
개인 정보 분석부(240)는 수집된 개인 정보를 분석한다. 특히, 개인 정보 분석부(240)는 상기 개인 행동 정보와 입력부(212)를 통해 수집된 음성 신호 중 적어도 하나로부터 사용자 상태 정보를 유추할 수 있다. 예를 들어, 개인 정보 분석부(240)는 음성 신호에서 에너지가 주로 분포하고 있는 주파수 대역을 파악함으로써 사용자(800)가 남성인지 여성인지 구분할 수 있다. 또한, 개인 정보 분석부(240)는 음성 신호의 모음 부분의 파형을 분석하여 사용자(800)의 성대 상태를 파악할 수도 있으며 이를 통해 사용자(800)의 나이와 건강 상태 등을 유추할 수도 있다. 한편, 사용자(800)가 단말기(200)를 통해 화장품 할인 정보, 의류 사이트, 명품 잡화 사진, 연예계 이슈, 인터넷 육아 카페 등의 정보를 빈번하게 검색한 경우, 개인 정보 분석부(240)는 상기 사용자(800)가 여성일 확률이 높은 것으로 파악할 수 있다. 한편, 개인 정보 분석부(240)는 GPS 등을 통해 파악된 사용자(800)의 현재 위치가 콘서트 홀 내부인 경우, 콘서트 홀이 가지는 배경 잡음 수준 및 잔향의 정도를 유추할 수 있다.
즉, 개인 상태 정보는 개인 정보 분석부(240)에서 유추될 수 있다. 하지만, 전술한 바와 같이 상기 개인 정보 수집부(220)를 통해서 상기 개인 상태 정보를 직접 입력 받을 수도 있다.
개인 정보 분석부(240)는 사용자 속성 정보 및 환경 속성 정보의 각 항목별 확률값을 계산할 수 있다. 예를 들어, 개인 정보 분석부(240)는 사용자(800)의 음성 신호의 주파수별 에너지 분포를 분석하여 사용자(800)가 남성일 확률을 80%로 파악할 수 있다. 또 다른 예로서, 사용자(800)가 개인 정보 수집부(220)를 통해 자신의 나이를 75세인 것으로 직접 입력한 경우, 개인 정보 분석부(240)는 상기 사용자(800)가 노인일 확률을 100%인 것으로 설정할 수 있다. 또 다른 예로서, 개인 정보 분석부(240)는 사용자(800)의 인터넷 검색 기록을 참조하여 상기 사용자(800)가 여성일 확률이 70%이고 학생일 확률이 90%이며 서울에 거주할 확률이 60%인 것으로 파악할 수 있다.
한편, 개인 정보 분석부(240)는 개인 정보 분석 작업을 지속적으로 수행할 수 있다. 사용자의 개인 정보는 상기 개인 정보 수집부(220)에 의해서 지속적으로 수집되기 때문에 시간에 비례하여 개인 정보의 양이 증가될 수 있다. 개인 정보 분석부(240)는 개인 정보의 양이 변동될 때마다 개인 정보 분석 작업을 다시 수행할 수 있다. 또는, 개인 정보 분석부(240)는 기 설정된 방식에 따라 일정 주기마다 개인 정보를 다시 분석할 수 있다. 개인 정보 분석부(240)는 개인 정보의 양이 많아지고 그 종류가 다양해질수록 개인 상태 정보를 보다 정확하게 유추할 수 있다. 이를 통해, 개인 정보 분석부(240)는 상기 개인 정보의 각 항목별 확률값의 정확도를 높일 수 있다.
또한, 개인 정보 분석부(240)는 수집된 개인 정보로부터 사용자(800)의 행동 패턴을 유추할 수 있다. 예를 들어, 사용자(800)가 가정과 학교를 정해진 시간에 왕복하는 학생인 경우를 가정할 수 있다. 개인 정보 분석부(240)는 시간 정보와 GPS 등의 개인 정보 수집부(220)에서 전송된 장소 정보를 참조하여 시간대별 사용자(800)가 위치할 수 있는 공간을 유추할 수 있다. 위의 경우, 개인 정보 분석부(240)는 특정 시간 동안 상기 사용자(800)가 ‘학교’에서 시간을 보내며 그 시간 동안 ‘학교’라는 환경 속성 정보를 수집하거나 유추할 수 있다.
개인 정보 분석부(240)는 바람직하게는, 빅데이터(Big Data) 기법을 통해 이미 수집되어있거나 수집 중인 사용자(800)의 개인 정보를 분석할 수 있지만 이에 한정되지 않는다.
도 4를 참조하면 개인 정보 수집부(220)와 개인 정보 분석부(240)가 단말기(200)에 포함되는 것으로 도시되어있다. 도 4에 따르면, 단말기(200)는 상기 개인 정보 수집부(220)와 개인 정보 분석부(240)를 통해 사용자(800)의 개인 정보를 직접 입력 받을 수도 있고, 수집된 개인 행동 정보로부터 개인 상태 정보를 유추할 수 있다. 하지만, 본 발명에 따른 음성 인식 시스템(1000C)은 도 4의 구성에 한정되지 않으며, 음성 인식 서버(300)에 개인 정부 분석부(240)가 포함될 수도 있다. 음성 인식 서버(300)는 연산 처리 능력 및 저장 능력이 단말기(200)에 비해 월등하게 우수하기 때문에, 음성 인식 서버(300)에 개인 정보 분석부(240)가 포함된 경우 단말기(200)보다 원활하게 개인 정보를 유추할 수 있다.
한편, 사용자(800)는 수집된 개인 정보를 기 설정된 카테고리(category)에 따라 분류할 수 있다. 상기 개인 정보의 분류는 사용자(800)의 개인 정보가 저장된 모든 기기에 수행될 수 있다. 바람직하게는, 사용자(800)는 개인 정보를 공개 여부에 따라 공개용 개인 정보와 비공개용 개인 정보로 분류할 수 있다.
도 4에 따르면, 개인 정보 분석부(240)를 통해 유추되거나 개인 정부 수집부(220)를 통해 입력된 개인 정보가 음성 인식 서버(300)의 환경설정 콘트롤러(380)으로 전송될 수 있다. 이 때 전송되는 개인 정보는 사용자가 공개를 허락한 것만으로 구성될 수 있다. 그리고, 개인 정보 분석부(240)를 통해 파악된 개인 정보의 각 항목별 확률도 음성 인식 서버(300)로 전송될 수 있다.
환경설정 콘트롤러(380)은 전송된 개인 정보를 참조하여 음향 모델 및 언어 모델 중 적어도 하나를 선택할 수 있다. 또한, 환경설정 콘트롤러(380)는 전송된 개인 정보를 참조하여 적어도 하나의 음향 모델 과 적어도 하나의 언어 모델을 선택할 수 있다. 예를 들어, 환경설정 콘트롤러(380)가 ‘어린이’ 이라는 공개된 개인 정보를 수신한 경우, 상기 ‘어린이’와 연관된 음향 모델을 선택할 수 있다. 또한, 환경설정 콘트롤러(380)는 ‘어린이’와 연관된 언어 모델을 선택할 수도 있는데, 음향 모델부(354)와 언어 모델부(354)에 ‘어린이’와 연관된 음향 모델 및 언어 모델이 모두 존재하는 경우 상기 두 모델을 모두 선택할 수도 있다.
환경설정 콘트롤러(380)는 개인 정보 분석부(240)에서 유추된 사용자의 패턴 정보를 이용할 수도 있다. 전술한 예처럼, 사용자(800)가 학생인 경우, 개인 정보 분석부(240)는 상기 사용자(800)가 특정 시간대에 ‘학교’에 등교하여 그곳에서 일과를 보낸다고 유추할 수 있다. 환경설정 콘트롤러(380)는 이 패턴 정보와 시간 정보를 참조하여 상기 특정 시간 영역 동안 사용자(800)의 음성을 인식할 때 ‘학교’에 해당하는 음향 모델 및 언어 모델을 선택할 수 있다.
한편, 사용자(800)가 개인 정보를 전혀 입력하지 않았거나, 분석되거나 유추된 개인 정보가 적거나 없을 경우, 환경설정 콘트롤러(380)는 활용할 수 있는 모든 음향 모델 및 언어 모델을 선택할 수 있다. 수신된 사용자의 개인 정보에 연관되는 음향 모델 및 언어 모델이 없을 때도, 환경설정 콘트롤러(380)는 활용할 수 있는 모든 음향 모델 및 언어 모델을 선택할 수 있다. 수신된 사용자의 개인 정보에 직접 연관되는 음향 모델 및 언어 모델이 없을 때, 환경설정 콘트롤러(380)는 상기 수신된 개인 정보에 근사한 음향 모델 및 언어 모델을 선택할 수 있다. 예를 들어, 음성 인식 서버(300)에 수신된 개인 정보가 ‘학생’ 만 포함하지만 언어 모델부(354)에 ‘학생’에 해당하는 언어 모델이 없는 경우, 환경설정 콘트롤러(380)는 음성 인식 서버(300)가 보유중인 ‘청소년’ 언어 모델을 선택할 수도 있다.
환경설정 콘트롤러(380)가 이처럼 개인 정보에 부합하는 음향 모델 및 언어 모델을 선택함으로써, 음향 모델과 언어 모델을 사용자(800)의 음성에 적합하게 개인화 할 수 있다. 그리고, 음성 인식 과정에서 개인화된 음향 모델과 언어 모델을 사용함으로써 음성 인식 시스템(1000C)이 음성 인식을 수행할 때 보다 정확도를 높일 수 있다.
음성 인식 서버(300)는 음성 인식을 수행하는 과정에서 복수의 음향 모델 및 언어 모델을 참조할 수 있다. 음성 인식 서버(300)는 음성 인식 결과물로 복수의 문자열을 생성할 수 있는데, 이 경우 음성 인식 서버(300)는 개인 정보 분석부(240)로부터 전송된 각 항목별 확률값을 참조하여 이에 기초한 가중치를 각 문자열에 적용할 수 있다. 음성 인식 서버(300)는 상기 가중치를 적용한 확률들 중 가장 높은 확률값을 가지는 문자열을 최종 음성 인식 결과물로 선택할 수 있다.
한편, 도 4에 도시된 구조로 음성 인식 시스템(1000C)이 구성되는 경우, 음향 모델과 언어 모델을 형성하기 위한 훈련 단계에서 유용하게 활용될 수 있다. 무작위로 녹음된 대량의 음성 신호들을 입력부(212)를 통해 단말기(200)에 입력하면, 각 음성 신호들의 특징이 추출되어 음성 인식 서버(300)로 전송 되고, 분석된 개인 정보들도 함께 전송 된다. 음성 인식 서버(300)는 전송된 음성 특징들과 개인 정보들을 참조하여 훈련 단계를 수행함으로써 다양한 음향 모델과 언어 모델을 형성할 수 있다. 특히, 특정의 개인 정보 항목에 해당하는 음성 신호만 선별하여 훈련 단계에 사용함으로써 특정 항목에 특화된 음향 모델 및 언어 모델을 형성할 수 있다. 예를 들어, 음성 인식 시스템(1000C)이 개인 정보 분석부(240)를 통해 노인 남성의 음성을 별도로 선별할 수 있는 경우, 상기 노인 남성의 음성들만 선별하여 이용함으로써 노인 남성에 특화된 음향 모델과 언어 모델을 형성할 수 있으며, 차후 음성 인식 단계에서 ‘노인’ 또는 ‘남성’으로 분류된 음성 신호를 분석할 때 사용될 수 있다.
도 4에 도시된 음성 인식 시스템(1000C)에서 음성 인식 서버(300)가 복수 개로 마련될 수 있고, 분산 음성 인식 처리 과정을 수행할 수 있다.
도 5는 프라이빗 서버(400)를 포함하는 음성 인식 시스템(1000D)의 실시예를 나타낸 도면이다.
도 5에 따르면, 본 발명의 실시예에 따른 음성 인식 시스템(1000D)은 단말기(200), 음성 인식 서버(300) 및 프라이빗 서버(400)를 포함할 수 있다. 단말기(200)는 입력부(212), 개인 정보 수집부(220), 개인 정보 분석부(240) 및 출력부(214)를 포함할 수 있다. 음성 인식 서버(300)는 음향 모델부(352), 언어 모델부(354), 음향 데이터베이스(372), 언어 데이터베이스(374) 및 환경설정 콘트롤러(380)를 포함할 수 있다. 프라이빗 서버(400)는 특징 추출부(430)와 개인 정보 저장부(460)을 포함할 수 있다.
프라이빗 서버(400)에 포함되는 특징 추출부(430)는 도 4의 단말기(200)에 포함되는 특징 추출부(230)와 동일한 것으로 구비될 수 있다.
단말기(200)의 연산 능력에 따라서 단말기에 특징 추출부(430)가 포함할 수 있고, 개인 정보 수집부(220) 및 개인 정보 분석부(240) 중 적어도 하나가 프라이빗 서버(400)에 포함될 수 있다. 상기 특징 추출부(430)는 음성 인식 서버(300)에 포함될 수도 있다. 음성 인식 서버(300)의 음향 데이터베이스(372)와 언어 데이터베이스(374)가 음성 인식 서버(300) 외부에 존재하는 구성도 가능하다.
도 5와 도 4에 공통된 구성요소들에 대한 상세한 설명은 중복되므로 생략하도록 한다.
프라이빗 서버(400)는 단말기(200)로부터 음성 신호와 개인 정보를 수신하고, 상기 개인 정보를 기 설정된 카테고리로 분류하여 저장할 수 있다. 또한, 프라이빗 서버(400)는 음성 신호 및 저장된 적어도 일부의 개인 정보를 음성 인식 서버(300)로 전송할 수 있다.
프라이빗 서버(400)의 특징 추출부(430)는 단말기(200)로부터 전송된 음성 신호로부터 특징을 추출하여 음성 인식 서버(300)로 전송할 수 있다. 프라이빗 서버(400)는 상기 음성 특징을 음성 인식 서버(300)로 전송할 때, 음성 특징을 암호화 하여 전송할 수 있다. 특징 추출부(430)가 음성 인식 서버(300)에 포함되는 경우, 프라이빗 서버(400)는 암호화된 음성 신호를 음성 인식 서버로(200)로 전송할 수 있다. 이처럼 프라이빗 서버(400)는 음성 특징 또는 음성 신호를 암호화할 수 있고, 이를 통해 암호화 되지 않은 음성으로부터 유추될 수 있는 개인 정보의 유출을 방지할 수 있다.
프라이빗 서버(400)의 개인 정보 저장부(460)는 단말기(200)로부터 전송된 개인 정보를 저장한다. 개인 정보 저장부(460)는 사용자(800)가 직접 입력한 개인 정보, 사용자(800)의 음성 신호로부터 유추된 개인 정보, 사용자(800)의 개인 정보로부터 유추된 타 개인 정보를 저장할 수 있다. 바람직하게는, 상기 개인 정보는 개인 정보 분석부(240)로부터 전송된 것일 수 있다. 도 4에서 설명한 바와 같이, 개인 정보 분석부(240)는 개인 정보의 각 항목별 확률값을 계산할 수 있으며, 이 확률값도 개인 정보 저장부(460)에 저장될 수 있다.
도 4에서 설명한 바와 같이, 사용자(800)는 개인 정보를 기 설정된 카테고리로 분류할 수 있는데, 상기 분류 과정이 프라이빗 서버(400)에서 수행될 수 있다. 사용자(800)는 단말기(200) 조작을 통해 단말기(200) 및 프라이빗 서버(400)에 저장된 개인 정보를 사용자(800) 임의 카테고리 또는 기 설정된 카테고리에 따라 분류할 수 있으며, 상기 분류된 개인 정보를 프라이빗 서버(400)의 개인 정보 저장부(460)에 저장할 수 있다. 프라이빗 서버(400)는 사용자(800)의 개인 정보를 공개 가능한 개인 정보와 비공개 개인 정보로 분류하여 저장할 수 있으나 이에 한정되지 않는다.
전술한 바와 같이 프라이빗 서버(400)는 사용자(800)의 개인 정보를 저장하고 개인 정보 보안을 위한 각종 암호화 기법들을 수행할 수 있다. 프라이빗 서버(400)는 사용자(800)와 계약을 하거나, 사용자 인증과 개인 정보 수집 동의하에 사용자의 개인 정보를 저장한다. 프라이빗 서버(400)는 음성 인식 서버(300)와 별도로 구비되어, 공개된 영역에서 대량의 음성 인식을 처리하는 음성 인식 서버(300)에서의 사용자 정보 유출을 방지할 수 있다. 사용자(800)의 개인 정보는 단말기(200)와 프라이빗 서버(400) 사이에서 자유로이 송수신된다. 하지만, 프라이빗 서버(400)의 보안에 의해서 상기 개인 정보가 프라이빗 서버(400)를 벗어나 그 이후의 네트워크 연결로 유출되지 않는다. 특히, 프라이빗 서버(400)는 사용자(800)가 공개로 설정한 개인 정보만 음성 인식 서버(300)로 전송함으로써 사용자가 공개하길 원치 않는 개인 정보가 유출되는 것을 방지할 수 있다.
도 5와 같이 단말기(200)와 음성 인식 서버(300) 사이에 프라이빗 서버(400)가 존재하는 경우 얻을 수 있는 이점은 아래와 같다. 예를 들어, 사용자(800)가 음성 인식 서비스를 받길 원하지만, 음성 신호 유출 등 음성 인식에 따른 개인 정보의 유출을 걱정하는 경우를 가정해볼 수 있다. 사용자(800)는 신뢰도가 높은 프라이빗 서버(400) 사업자에게 개인 정보와 음성 신호를 전송할 수 있고, 프라이빗 서버(400) 사업자는 암호화된 음성 신호 및 암호화된 음성 특징 중 적어도 하나와 사용자가 공개를 허락한 개인 정보만 음성 인식 서비스를 제공하는 서버(200)로 전송할 수 있다. 음성 인식 서비스 제공자(200)는 음성 신호와 공개가 허용된 개인 정보를 이용하여 문자열만 추출할 수 있을 뿐, 음성 신호의 발화자가 실제로 누구인지, 어떤 특징을 지닌 사용자인지 확인할 수 없으므로 사용자의 개인 정보가 보호될 수 있다. 또한, 단말기(200)와 음성 인식 서버(300) 사이에 프라이빗 서버(400)라는 중간 단계가 더 생겨남으로써, 음성 인식의 각 과정을 각 구성요소에 분배하여 배치함으로써 단말기(200)와 음성 인식 서버(300)측에 걸리는 부하를 경감할 수 있다.
도 5에 도시된 음성 인식 시스템(1000D)에서 음성 인식 서버(300)는 복수 개로 마련되어 분산 음성 인식 처리 과정을 수행할 수 있다.
한편, 음성 인식 서버(300)는 프라이빗 서버(400)로부터 전송된 개인 정보를 참조하여 상기 개인 정보에 부합하는 음향 모델 및 언어 모델을 선택할 수 있으며, 이를 통해 음성 인식 성공률을 높일 수 있다. 또한, 도 4의 경우와 마찬가지로, 음성 인식 과정에서 복수의 음향 모델 및 언어 모델이 사용되고, 음성 인식 결과물로 복수의 문자열이 생성된 경우, 음성 인식 서버(300)는 개인 정보 분석부(240)로부터 전송된 각 속성별 확률을 참조하여 이에 기초한 가중치를 각 문자열에 적용할 수 있다. 음성 인식 서버(300)는 상기 가중치를 적용한 확률들 중 가장 높은 확률값을 가지는 문자열을 최종 음성 인식 결과물로 선택할 수 있다.
그리고, 도 5에 따르면 음성 인식 서버(300)에서 생성된 음성 인식 결과물은 프라이빗 서버(400)를 거친 후 단말기(200)로 전송되는 것으로 표시되었으나 이에 한정되지 않으며, 상기 음성 인식 결과물이 음성 인식 서버(300)에서 단말기(200)로 직접 전송될 수도 있다. 또한, 음성 인식 서버(300)는 상기 음성 인식 결과물을 전술한 단말기(200) 및 프라이빗 서버(400) 외 기기로도 전송할 수 있다.
도 6은 프라이빗 서버를 포함하는 음성 인식 시스템의 또 다른 실시예(1000E)를 나타낸 도면이다.
도 6에 따르면, 본 발명의 실시예에 따른 음성 인식 시스템(1000E)은 단말기(200), 음성 인식 서버(300) 및 프라이빗 서버(400)를 포함할 수 있다. 단말기(200)는 입력부(212), 개인 정보 수집부(220), 개인 정보 분석부(240) 및 출력부(214)를 포함할 수 있다. 음성 인식 서버(300)는 음향 모델부(352), 언어 모델부(354), 음향 데이터베이스(372), 언어 데이터베이스(374) 및 환경설정 콘트롤러(380)를 포함할 수 있다. 프라이빗 서버(400)는 특징 추출부(430), 개인 정보 저장부(460) 및 결과물 재연산부(490)를 포함할 수 있다.
단말기(200)의 연산 능력에 따라서 단말기에 특징 추출부(430)가 포함할 수 있고, 개인 정보 수집부(220) 및 개인 정보 분석부(240) 중 적어도 하나가 프라이빗 서버(400)에 포함될 수 있다. 상기 특징 추출부(430)는 음성 인식 서버(300)에 포함될 수도 있다. 음성 인식 시스템(1000E)을 구성하는 단말기(200), 음성 인식 서버(300), 및 프라이빗 서버(400)에 부가되는 연산량 부담을 고르게 분포시키기 위해 결과물 재연산부(490)는 단말기(200) 및 음성 인식 서버(300) 중 적어도 하나에 포함될 수도 있다. 음성 인식 서버(300)의 음향 데이터베이스(372)와 언어 데이터베이스(374)가 음성 인식 서버(300) 외부에 존재하는 구성도 가능하다.
도 6와 도 5에 공통된 구성요소들에 대한 상세한 설명은 중복되므로 생략하도록 한다.
음성 인식 서버(300)는 복수의 음성 인식 결과물을 생성할 수 있다. 여기서 복수의 음성 인식 결과물은 언어 모델부(354)에서 생성된 격자 구조의 문자열 집합을 포함할 수 있다. 음성 인식 서버(300)는 상기 복수의 음성 인식 결과물을 프라이빗 서버(400)로 전송할 수 있다.
이 때, 음성 인식 서버(300)는 음성 인식 과정에서 사용된 음향 모델 및 언어 모델의 종류 정보도 함께 전송할 수 있으며, 각각의 음성 인식 결과물에 음향 모델 및 언어 모델의 종류 정보가 포함될 수 있다. 상기 종류 정보들은 각 음성 인식 결과물이 어떤 음향 모델 및 언어 모델로부터 비롯되었는지 구분하기 위해서 사용될 수 있다. 바람직하게는, 상기 종류 정보들은 환경설정 콘트롤러(380)에서 프라이빗 서버(400)로 전송될 수 있으나 이에 한정되지 않으며, 음향 모델부(352), 언어 모델부(354) 및 기타 음성 인식 서버(300)의 구성요소에서 전송될 수도 있다.
결과물 재연산부(490)는 음성 인식 서버(300)로부터 전송된 음성 인식 결과물로부터 최적의 음성 인식 결과물을 선택할 수 있다. 음성 인식 서버(300)가 복수의 음성 인식 결과물과 각 음성 인식 결과물에 사용된 음향 모델 및 언어 모델의 종류 정보를 함께 전송한 경우, 결과물 재연산부(490)는 상기 음향 모델 및 언어 모델의 종류 정보를 이용하여 최적의 음성 인식 결과물을 선별할 수 있다. 이 때, 결과물 재연산부(490)는 개인 정보 저장부(460)에 저장된 사용자(800)의 개인 정보를 참조할 수 있다. 참조되는 개인 정보는 사용자(800)가 공개로 설정한 개인 정보와 공개로 설정하지 않은 개인 정보 모두를 포함할 수 있다. 결과물 재연산부(490)가 최적의 음성 인식 결과물을 선별하는 구체적인 예시는 다음과 같다.
우선, 사용자(800)가 영어를 사용하며, 프라이빗 서버(400)가 공개된 개인 정보인 ‘남성’을 보유하고 있고, 비공개 개인 정보인 ‘노인’, ‘미국 텍사스(Texas) 방언’도 함께 저장하고 있는 경우를 가정할 수 있다. 프라이빗 서버(400)는 상기 공개된 개인 정보인 ‘남성’을 음성 인식 서버(300)로 전송할 수 있다. 음성 인식 서버(300)의 환경설정 콘트롤러(380)는 일반화된 음향 모델 및 언어 모델을 사용하여 음성 인식을 수행할 수 있다. 하지만, 환경설정 콘트롤러(380)는 보다 정확한 음성 인식을 위해 개인 정보 ‘남성’에 해당하는 음향 모델 및 언어 모델을 선택할 수 있다. 환경설정 콘트롤러(380)는 이 외에도, 지역별 방언 발화데이터로부터 형성된 음향 모델 및 언어 모델인 ‘뉴저지 방언’, ‘보스턴 방언’ 등을 선택할 수 있으며, 다양한 연령층 별 음향 모델 및 언어 모델도 함께 선택할 수 있다. 음성 인식 서버(300)에 ‘텍사스 방언’에 해당하는 언어 모델을 보유하고 있지만 이와 연관된 음향 모델을 가지고 있지 않은 경우, 환경설정 콘트롤러(380)는 ‘텍사스 방언’ 언어 모델만 선택할 수 있다. 음성 인식 서버(300)가 ‘텍사스 방언’에 해당하는 음향 모델은 보유하고 있지 않지만, ‘텍사스’와 지리적으로 가까운 ‘뉴 멕시코(New Mexico)’, ‘오클라호마(Oklahoma)’, ‘알칸사스(Arkansas)’, ‘루이지아나(Louisiana)’ 지역의 음향 모델은 보유하고 있는 경우, 환경설정 콘트롤러(380)는 상기 지역 방언의 음향 모델을 선택할 수 있다. 환경설정 콘트롤러(380)는 음성 인식 서버(300)가 보유하고 있는 모든 종류의 음향 모델 및 언어 모델을 선택할 수 있다. 음성 인식 서버(300)가 공개된 개인 정보에 부합하는 음향 모델 및 언어 모델을 보유하지 않는 경우에도, 환경설정 콘트롤러(380)는 음성 인식 서버(300)가 보유하고 있는 모든 종류의 음향 모델 및 언어 모델을 선택할 수 있다. 음성 인식 과정에서 ‘남성’, ‘노인’, ‘어린이’, ‘청년’, ‘텍사스 방언’, ‘뉴저지 방언’, ‘보스턴 방언’의 음향 모델 및 언어 모델이 사용되었고, 각각에 해당하는 음성 인식 결과물이 생성된 경우, 음성 인식 서버(300)는 상기 음성 인식 결과물들과 각각의 종류 정보를 프라이빗 서버(400)로 전송한다. 프라이빗 서버(400)의 결과물 재연산부(490)는 공개된 개인 정보인 ‘남성’에 해당하는 음성 인식 결과물과 비공개 개인 정보인 ‘노인’, ‘텍사스 방언’에 해당하는 음성 인식 결과물 중 적어도 하나를 최종 음성 인식 결과물로 선택할 수 있고, 상기 3가지 음성 인식 결과물을 모두 선택할 수 있다. 결과물 재연산부(490)는 모든 음성 인식 결과물들 중에서 가장 높은 확률을 지니는 문자열을 최종 음성 인식 결과물로 선택할 수도 있다.
도 5에 따르면 개인 정보 분석부(240)를 통해 파악된 개인 정보의 각 항목별 확률값이 개인 정보 저장부(460)에 저장될 수 있다. 도 6에서도 이와 마찬가지로, 개인 정보의 각 항목별 확률값이 개인 정보 저장부(460)에 저장될 수 있다. 물론, 개인 정보 분석부(240)에서 생성되는 각종 정보들은 개인 정보 저장부(460)를 거치지 않고 곧바로 결과물 재연산부(490)에 전송될 수도 있다.
음성 인식 과정에서 복수의 음향 모델 및 언어 모델이 사용되고, 음성 인식 결과물로 복수의 문자열이 생성된 경우, 결과물 재연산부(490)는 각 항목별 확률값을 참조하여 이에 기초한 가중치를 각 문자열에 적용할 수 있다. 결과물 재연산부(490)는 상기 가중치를 적용한 확률값들 중 가장 높은 확률값을 가지는 문자열을 최종 음성 인식 결과물로 선택할 수 있다.
직전의 예시에서, 결과물 재연산부(490)는 ‘남성’, ‘노인’, ‘텍사스 방언’ 각각의 확률들에 기초하여 가중치 1, 가중치 2, 가중치 3 값을 형성할 수 있고, 상기 가중치를 각각의 결과물에 적용할 수 있다. 결과물 재연산부(490)는 ‘남성’에 해당하는 음향 모델 및 언어 모델을 통해서 형성된 단어열들의 각 확률값에 가중치 1 값을 곱하는 방식으로 최종 확률을 구할 수 있는데, 이는 다른 결과물들에 대해서도 동등하게 처리된다. 하지만 최종 확률을 구하는 방식은 다양하게 마련될 수 있으며, 상기의 곱하는 방식에 한정되지는 않는다. 결과물 재연산부(490)는 모든 계산 결과값들 중 가장 높은 최종 확률을 가지는 단어열을 선택할 수 있다.
사용자(800)가 복수의 최종 음성 인식 결과물을 전송 받은 경우, 각 음성 인식 결과물의 내용을 확인하고 그 중 가장 사용자(800)의 의도에 부합하는 결과물을 선택하고 이를 음성 인식 시스템(1000E)에 전송할 수 있다. 또는, 사용자(800)는 모든 최종 음성 인식 결과물에 대해서 정확도를 평가하고 각 결과물의 정확도 평가 정보를 음성 인식 시스템(1000E)에 전송할 수 있다. 여기서, 음성 인식 시스템(1000E)은 상기 사용자(800)의 최종 음성 인식 결과물 선택 정보와 정확도 평가 정보를 포함하는 사용자 피드백 정보를 생성할 수 있다. 그리고 음성 인식 시스템(1000E)은 사용자 피드백 정보에 기초하여 음향 모델 및 언어 모델에 정확도 가중치를 부여할 수 있으며, 상기 정확도 가중치 정보는 차후의 음성 인식 과정에 사용되어 음성 인식의 정확도를 높일 수 있다. 일 예로, 음성 인식 시스템(1000E)은 상기 정확도 가중치를 음성 인식 결과물로 형성된 각 단어열의 확률에 부가하고 가장 높은 확률을 가지는 단어열을 최종 음성 인식 결과물로 선택할 수 있다.
도 7은 단말기와 음성 인식 서버를 포함하는 음성 인식 시스템의 또 다른 실시예(1000F)를 나타낸 도면이다.
도 7에 따르면, 본 발명의 실시예에 따른 음성 인식 시스템(1000F)은 단말기(200)와 음성 인식 서버(300)를 포함할 수 있다. 단말기(200)는 입력부(212), 개인 정보 수집부(220), 특징 추출부(230), 개인 정보 분석부(240), 개인 정보 저장부(260), 결과물 재연산부(290) 및 출력부(214)를 포함할 수 있다. 음성 인식 서버(300)는 음향 모델부(352), 언어 모델부(354), 음향 데이터베이스(372), 언어 데이터베이스(374) 및 환경설정 콘트롤러(380)를 포함할 수 있다. 음성 인식 서버(300)는 음향 모델부(352)와 언어 모델부(354)를 포함하는 적어도 하나의 음성 신호 분석부(250)를 포함할 수 있다.
도 7의 단말기(200)에 포함되는 특징 추출부(230), 개인 정보 저장부(260) 및 결과물 재연산부(290)는 도 6의 프라이빗 서버(400)에 포함되는 특징 추출부(430), 개인 정보 저장부(460) 및 결과물 재연산부(490)와 동일한 것으로 구비될 수 있다.
단말기(200)의 연산 능력에 따라서 개인 정보 수집부(220), 개인 정보 분석부(240), 결과물 재연산부(290), 개인 정보 저장부(260) 및 특징 추출부(230) 중 적어도 하나가 음성 인식 서버(300)에 포함될 수 있다. 음성 인식 서버(300)의 음향 데이터베이스(372)와 언어 데이터베이스(374)가 음성 인식 서버(300) 외부에 존재하는 구성도 가능하다.
도 7과 도 6에 공통된 구성요소들에 대한 상세한 설명은 중복되므로 생략하도록 한다.
도 7의 단말기(200)는 도 6의 프라이빗 서버(400)에 포함되어 있던 특징 추출부(430), 개인 정보 저장부(460), 결과물 재연산부(490)를 포함하고 있으며, 단말기(200)가 통해 개인 정보 분석 및 최종 음성 인식 결과물 선택에 대한 처리도 수행하는 구성이다. 특히, 도 7의 단말기(200)는 최근에 시장에서 유통되고 있는 고성능 스마트폰에 적합한 구성이며, 가정에서 사용하는 개인용 컴퓨터에도 적용될 수 있는 시스템 구조이다.
도 7의 음성 인식 시스템(1000F)에서, 단말기(200)는 음성 인식 서버(300)와는 음성 신호 및 공개된 개인 정보, 그리고 음성 인식 결과물만 주고 받는다. 또한, 도 7의 음성 인식 시스템(1000F)은 단말기(200)와 음성 인식 서버(300)를 제외한 별도의 음성 인식 단계를 거치지 않는 단순한 구조로 구비되는데, 이 단순함이 해당 시스템 구조의 구성의 장점이다. 보안 측면에 있어서도, 사용자는 각자의 단말기(200)에 저장되는 개인 정보만 유의하여 관리하면 될 뿐 별도의 보안을 강구할 필요가 없다. 도 7의 음성 인식 시스템(1000)은 도 6의 단말기(200)와 프라이빗 서버(400)가 하나로 합쳐진 형태로, 특히 개인 정보를 처리하는 과정에서 큰 강점을 지니고 있다. 도 6의 경우는 개인 정보가 프라이빗 서버(400)에 별도로 저장되어있기 때문에 사용자(800)의 요청에 의해서 개인 정보를 삭제하거나 수정할 필요가 있을 때 프라이빗 서버(400)에 접속하는 추가적인 단계가 필요할 수 있다. 하지만 도 7의 경우, 사용자(800)는 직접 단말기(200)를 통해 손쉽게 개인 정보를 관리할 수 있다. 또한, 사용자(800)는 결과물 재연산 과정 중, 자신의 기호에 따른 결과물 선택을 용이하게 할 수 있다.
도 8은 제 1 사용자(800a)의 음성 인식 결과를 제 2 사용자(800b)에게 전송하는 음성 인식 시스템(1000G)의 실시예를 나타낸 도면이다.
도 8에 따르면, 본 발명의 실시예에 따른 음성 인식 시스템(1000G)은 제 1 단말기(500), 음성 인식 서버(300), 프라이빗 서버(400) 및 제 2 단말기(600)를 포함할 수 있다. 제 1 단말기(500)는 입력부(512), 개인 정보 수집부(520) 및 개인 정보 분석부(540)를 포함할 수 있고, 제 2 단말기(600)는 신호 수신부(610), 번역부(620), 결과물 선택부(630), 출력 신호 선택부(640), 음성 신호 변환부(650), 속성 저장부(652) 및 출력부(614)를 포함할 수 있다.
도 8의 음성 인식 서버(300) 및 프라이빗 서버(400)는 도 6의 음성 인식 서버(300) 및 프라이빗 서버(400)와 동일하고, 제 2 단말기(600)에 포함되는 출력부(614)는 도 6의 단말기(200)에 포함되는 출력부(214)와 동일하게 구비될 수 있다. 제 1 단말기(500)도 도 6의 단말기(200)와 마찬가지로 별도의 출력부를 포함함으로써 제 1 사용자(800a)는 자신의 음성 인식 결과를 확인할 수도 있다.
도 8과 도 6에 공통된 구성요소들에 대한 상세한 설명은 중복되므로 생략하도록 한다.
신호 수신부(610)는 제 1 사용자(800a)의 음성 인식 결과물을 수신한다. 신호 수신부(610)는 복수의 음성인식 결과물을 수신할 수 있다. 신호 수신부(610)는 이에 더하여 상기 제 1 사용자(800a)의 개인 정보 및 제 1 사용자(800a)의 음성 특징을 수신할 수 있다. 이 때, 신호 수신부(610)는 프라이빗 서버(400)로부터 공개된 제 1 사용자(800a)의 공개된 개인 정보만 수신할 수 있다. 여기서, 제 1 사용자(800a)의 음성 특징은 특징 추출부(430)에서 제 1 사용자(800a)의 음성 신호로부터 추출되어 프라이빗 서버(400)에 저장된 것일 수 있다. 제 1 사용자(800a)의 개인 정보는 제 2 단말기(600)에서 음성 출력시 사용될 수 있다.
번역부(620)는 제 1 사용자(800a)의 언어와 제 2 사용자(800b)의 사용하는 언어가 다를 경우, 제 1 사용자(800a)의 음성 인식 결과물을 제 2 사용자(800b)의 언어에 맞게 번역한다. 이 때, 번역부(620)는 복수의 음성 인식 결과물에 대해서 복수의 번역 결과물을 생성할 수 있다. 이에 더하여, 번역부(620)는 음성 인식 결과물에 대한 정규화 과정을 수행할 수 있다. 여기서 정규화 과정은 음성 인식 결과물을 표준어법에 맞는 문자열로 변형하는 처리 과정을 말한다. 하지만 이에 한정되지 않으며, 상기 정규화 과정은 음성 인식 시스템(1000G)의 다른 구성요소에 의해서 처리될 수 있다.
결과물 선택부(630)는 복수의 음성 인식 결과물 및 복수의 번역 결과물 중 적어도 하나를 선별한다. 이때 결과물 선택부(630)는 제 2 사용자(800b)의 선택 입력에 따라 결과물을 선별할 수 있다. 또한, 결과물 선택부(630)는 제 2 사용자(800b)의 개인 정보를 참조하여 이에 부합하는 결과물을 선별할 수 있다. 결과물 선택부(630)는 상기 번역부(620)와 합쳐져서 하나의 구성요소로 존재할 수도 있다.
출력 신호 선택부(640)는 상기 선별된 결과물을 출력할 때의 출력 형식을 결정한다. 출력 신호 선택부(640)는 제 2 사용자(800b)로부터 ‘영상 출력’, ‘음성 출력’ 등의 출력 형식 지정 입력을 받을 수 있다. 출력 신호 선택부(640)는 제 2 단말기(400)의 구성에 따라 출력 형식을 결정할 수 있다. 예를 들어, 제 2 단말기(400)에 별도의 영상 출력 수단이 없고, 스피커와 같은 음성 출력 수단만 구비된 경우, 출력 신호 선택부(640)는 음성 출력 형식을 선택한다.
출력 신호 선택부(640)는 상기 선별된 결과물을 음성으로 출력하는 것으로 결정할 수 있고, 이 경우, 출력 신호 선택부(640)는 상기 선별된 결과물을 음성 신호 변환부(650)로 전송할 수 있다. 음성 신호 변환부(650)는 상기 선별된 결과물을 음성 신호로 변환한다. 이 때, 음성 신호 변환부(650)는 신호 수신부(610)가 수신한 제 1 사용자(800a)의 개인 정보 및 음성 특징 정보를 참조하여 출력 음성을 생성할 수 있다. 즉, 만약 제 1 사용자(800a)가 한국 여성이고 제 2 사용자(800b)가 미국 사람인 경우, 제 2 사용자(800b)는 제 1 사용자(800a)가 한국어로 말한 내용을 영어 음성으로 들을 수 있으며, 이 때, 그 음성이 제 1 사용자(800a) 특유의 한국 여성 음성 특징을 그대로 가질 수 있다는 것을 의미한다.
한편, 속성 저장부(652)는 음성의 특징 및 환경 특징을 저장할 수 있다. 여기서 음성 특징은 유명인의 음성 특징을 포함할 수 있고, 환경 특징은 다양한 공간의 잔향 특성 및 공간 정보를 포함할 수 있다.
음성 신호 변환부(650)는 속성 저장부(652)에 저장된 음성 특징과 환경 특징을 참조하여 음성을 생성할 수 있다. 예를 들어, 음성 신호 변환부(650)는 속성 저장부(652)의 정보를 참조하여 상기 선별된 결과물을 유명 연예인의 목소리로 출력할 수 있고, 울림이 심한 콘서트 홀의 특성을 가미한 목소리를 생성할 수도 있다.
도 8과 같은 구성의 음성 인식 시스템(1000G)은 실시간 통역 시스템으로 활용할 수 있다. 즉, 제 1 사용자(800a)와 제 2 사용자(800b)는 서로 각자의 언어로 자유롭게 발화할 수 있고, 서로 상대방이 말한 내용을 자국의 언어로 청취할 수 있다. 도 8에서는 제 1 사용자(800a)에서 제 2 사용자(800b)로 음성 인식 결과물이 전달되는 구조만 도시하였지만 이에 한정되지 않으며, 두 사용자가 동시에 발화 및 청취가 가능한 양방향 시스템으로의 구성도 가능하다. 즉, 제 1 사용자(800a)와 제 2 사용자(800b) 두 사람이 각자가 사용할 프라이빗 서버(400)를 보유하고, 음성 인식 시스템의 입력 수단에 해당하는 제 1 단말기(500)와 출력 수단에 해당하는 제 2 단말기(600)가 하나로 합쳐진 형태의 단말기를 각자 가지고 있으면 양방향 통역 시스템이 구현될 수 있다.
도 8과 유사하게, 도 7의 구성에 제 2 단말기를 포함시켜 프라이빗 서버(400)가 없는 실시간 통역 시스템을 구성할 수도 있다.
도 9는 본 발명의 실시예에 따른 음성 인식 방법을 나타낸 도면이다.
도 9에 따르면, 본 발명에 따른 음성 인식 방법은 사용자로부터 음성 신호를 입력 받는 단계(S100), 사용자의 개인 정보를 수집하는 단계(S200), 음성 신호와 개인 정보에 기초하여 음성 신호로부터 음성 인식 결과물을 생성하는 단계(S300), 음성 인식 결과물로부터 최종 음성 인식 결과물을 선택하는 단계(S400) 및 최종 음성 인식 결과물을 출력하는 단계(S500)를 포함할 수 있다.
사용자로부터 음성 신호를 입력 받는 단계(S100)는 음성 인식을 위한 기본적인 정보인 음성 신호를 마이크 등의 수단을 통해 입력 받는 단계이다.
사용자의 개인 정보를 수집하는 단계(S200)는 음성 인식 성공률을 높이기 위한 개인 정보를 얻는 단계이다. 개인 정보는 사용자 행위의 기록 및 사용자 행위를 측정한 결과로부터 수집된 사용자 행동 정보와, 사용자 고유의 신상 정보 및 사용자의 상황을 나타내는 사용자 상태 정보를 포함할 수 있다. 이 때, 사용자의 개인 정보를 수집하는 단계(S200)는 사용자가 직접 입력한 개인 정보를 취득하는 단계(S220)와 음성 신호 및 상기 수집된 개인 행동 정보 중 적어도 하나를 분석하여 개인 상태 정보를 유추하는 단계(S240)를 더 포함할 수 있다. 한편, 개인 정보를 수집하는 단계(S200)는 사용자로부터 음성 신호를 입력 받는 단계(S100) 이전부터 수행될 수 있고, 사용자로부터 음성 신호를 입력 받는 단계(S100)가 완료된 이후에 수행될 수도 있다.
음성 신호와 개인 정보에 기초하여 음성 신호로부터 음성 인식 결과물을 생성하는 단계(S300)는 사용자가 공개로 설정한 개인 정보를 참조하여 음향 모델과 언어 모델을 선택하는 단계(S320)를 추가적으로 포함할 수 있다. 음성 신호와 개인 정보에 기초하여 음성 신호로부터 음성 인식 결과물을 생성하는 단계(S300)는 개인화된 음향 모델과 언어 모델을 참조함으로써 정확도가 높은 음성 인식 결과물을 생성할 수 있다.
한편, 음성 신호와 개인 정보에 기초하여 음성 신호로부터 음성 인식 결과물을 생성하는 단계(S300)는 복수의 음성 인식 결과물을 생성할 수 있고, 각 음성 인식 결과물 마다 확률값을 가질 수 있다.
음성 신호와 개인 정보에 기초하여 음성 신호로부터 음성 인식 결과물을 생성하는 단계(S300)는 음성 인식 결과물을 생성할 때 사용된 음향 모델 및 언어 모델의 종류를 함께 표시할 수 있다.
음성 인식 결과물로부터 최종 음성 인식 결과물을 선택하는 단계(S400)는 복수의 음성 인식 결과물로부터 최적의 문자열을 선별하는 단계이다. 최종 음성 인식 결과물을 선택하는 단계(S400)는 사용자의 공개된 개인 정보 및 비공개 개인 정보를 이용하여 음성 인식 결과물을 선택할 수 있다. 또한, 최종 음성 인식 결과물을 선택하는 단계(S400)는 복수의 음성 인식 결과물들의 각 확률에 상기 개인 정보에 기초한 가중치를 부가하고, 그 결과로 가장 높은 확률값을 가지는 음성 인식 결과물을 선택할 수 있다.
최종 음성 인식 결과물을 출력하는 단계(S500)는 문자, 영상, 소리 등을 이용하여 음성 인식 결과물을 출력한다. 이 때, 최종 음성 인식 결과물을 출력하는 단계(S500)는 상기 음성 인식 결과물을 타 사용자에게 표시할 수 있다.
도 9에 도시되지는 않았지만, 최종 음성 인식 결과물을 타 사용자에게 전송하고, 타 사용자가 사용하는 언어로 상기 최종 음성 인식 결과물을 번역한 뒤, 영상 또는 소리를 통해 타 사용자에게 출력하는 방법을 추가적으로 포함할 수도 있다.
도 9에서 도시한 것과 같은 음성 인식 방법을 이용함으로써 개인화된 음향 모델 및 언어 모델을 참조할 수 있고, 이를 통해 음성 인식 성공률을 높일 수 있다.
이상에서 본 발명을 구체적인 실시예를 통하여 설명하였으나, 당업자라면 본 발명의 취지를 벗어나지 않는 범위 내에서 수정, 변경을 할 수 있을 것이다. 따라서 본 발명이 속하는 기술분야에 속한 사람이 본 발명의 상세한 설명 및 실시예로부터 용이하게 유추할 수 있는 것은 본 발명의 권리범위에 속하는 것으로 해석되어야 할 것이다.
발명의 실시를 위한 최선의 형태에서 관련 내용을 서술하였다.
본 발명은 스마트폰 및 PC의 음성 인식 어플리케이션과 텔레마케팅, 음성 인식 기능이 포함된 가정용 가전제품, 음성 인식 운송수단, 실시간으로 작동하는 음성 기반 통역기등의 단말기 및 음성 인식 시스템에 활용될 수 있다.

Claims (13)

  1. 사용자로부터 음성 신호를 입력 받고 상기 사용자의 개인 정보를 수집하는 단말기;
    상기 단말기로부터 상기 음성 신호와 상기 개인 정보를 수신하고, 상기 개인 정보를 기 설정된 카테고리로 분류하여 저장하며, 상기 음성 신호 및 저장된 적어도 일부의 개인 정보를 음성 인식 서버로 전송하는 프라이빗 서버;
    상기 프라이빗 서버로부터 전송된 상기 음성 신호와 상기 개인 정보에 기초하여 음성 인식을 수행하고, 음성 인식 결과물을 생성하는 음성 인식 서버; 를 포함하되,
    상기 프라이빗 서버에서 상기 음성 인식 서버로 전송되는 개인 정보는 사용자가 공개로 설정한 개인 정보이며,
    상기 음성 인식 서버는,
    상기 음성 신호에 대응되는 음소, 음절 및 단어 중 적어도 하나를 선별하는 음향 모델부와,
    언어의 문장 구조를 참조하여 문자열을 형성하는 언어 모델부와,
    상기 음향 모델부와 상기 언어 모델부가 음성 인식 과정에서 사용할 음향 모델과 언어 모델을 선택하는 환경 콘트롤러를 포함하는 것을 특징으로 하는 음성 인식 시스템.
  2. 제 1 항에 있어서,
    상기 환경 콘트롤러는 상기 음성 인식 서버에 전송된 개인 정보를 참조하여 적어도 하나의 음향 모델과 적어도 하나의 언어 모델을 선택하는 것을 특징으로 하는 음성 인식 시스템.
  3. 제 1 항에 있어서,
    상기 개인 정보는,
    사용자 행위의 기록 및 사용자 행위를 측정한 결과로부터 수집된 사용자 행동 정보와, 사용자 고유의 신상 정보 및 사용자의 상황을 나타내는 사용자 상태 정보를 포함하며,
    상기 사용자 행동 정보는,
    사용자의 온라인 상의 활동 및 인터넷 활용 기록을 수집한 사용자 온라인 기록,
    사용자의 실제 위치를 나타내는 사용자 위치 정보,
    사용자의 통신 식별 정보인 사용자 연결 정보 및
    사용자와 단말기 사이의 상호 작용 과정에서 수집되는 사용자 기기 활용 정보를 포함하고,
    상기 사용자 상태 정보는,
    사용자 신상 정보 및 성격, 신체, 감정 상태를 나타내는 사용자 속성 정보 및
    사용자가 위치하고 있는 주변 환경의 특징을 나타내는 환경 속성 정보를 포함하는 것을 특징으로 하는 음성 인식 시스템.
  4. 제 3 항에 있어서,
    상기 단말기는,
    상기 사용자 상태 정보를 상기 사용자로부터 직접 입력 받거나, 상기 음성 신호 및 상기 사용자 행동 정보 중 적어도 하나로부터 유추하는 것을 특징으로 하는 음성 인식 시스템.
  5. 제 3 항에 있어서,
    상기 프라이빗 서버는,
    상기 사용자 상태 정보를 상기 사용자로부터 직접 입력 받거나, 상기 음성 신호 및 상기 사용자 행동 정보 중 적어도 하나로부터 상기 사용자 상태 정보를 유추하는 것을 특징으로 하는 음성 인식 시스템.
  6. 제 1 항에 있어서,
    상기 음성 인식 서버는,
    복수의 음성 인식 결과물들을 도출하여 상기 프라이빗 서버로 전송하되, 음성 인식 과정에서 사용된 음향 모델과 언어 모델의 종류 정보도 함께 전송하는 것을 특징으로 하는 음성 인식 시스템.
  7. 제 6 항에 있어서,
    상기 프라이빗 서버는,
    상기 음성 인식 서버로부터 전송된 복수의 음성 인식 결과물들 중 적어도 하나를 선택하되,
    상기 공개된 개인 정보 및 비공개 개인 정보를 이용하여 선택하는 것을 특징으로 하는 음성 인식 시스템.
  8. 제 6 항에 있어서,
    상기 프라이빗 서버는,
    상기 음성 인식 서버로부터 전송된 복수의 음성 인식 결과물들 중 적어도 하나를 선택하되,
    상기 복수의 음성 인식 결과물들의 각 확률값에 상기 공개된 개인 정보 및 비공개 개인 정보에 기초한 가중치를 부가하고, 그 결과로 가장 높은 확률값을 가지는 음성 인식 결과물을 선택하는 것을 특징으로 하는 음성 인식 시스템.
  9. 사용자로부터 음성 신호를 입력 받는 단계;
    상기 사용자의 개인 정보를 수집하는 단계;
    상기 음성 신호와 상기 개인 정보에 기초하여 상기 음성 신호로부터 음성 인식 결과물을 생성하는 단계;
    상기 음성 인식 결과물로부터 최종 음성 인식 결과물을 선택하는 단계; 를 포함하고,
    상기 음성 신호와 상기 개인 정보에 기초하여 상기 음성 신호로부터 음성 인식 결과물을 생성하는 단계는, 상기 사용자가 공개로 설정한 개인 정보를 참조하여 음향 모델과 언어 모델을 선택하는 단계; 를 추가적으로 포함하는 것을 특징으로 하는 음성 인식 방법.
  10. 제 9 항에 있어서,
    상기 사용자의 개인 정보를 수집하는 단계는,
    상기 사용자가 직접 입력한 개인 정보를 취득하는 단계; 와
    음성 신호 및 사용자 행동 정보 중 적어도 하나로부터 사용자 상태 정보를 유추하는 단계; 를 더 포함하는 것을 특징으로 하는 음성 인식 방법.
  11. 제 9 항에 있어서,
    상기 음성 신호와 상기 개인 정보에 기초하여 상기 음성 신호로부터 음성 인식 결과물을 생성하는 단계는,
    복수의 음성 인식 결과물을 생성하고, 상기 복수의 음성 인식 결과물 각각에 대하여 음성 인식을 수행할 때 사용된 음향 모델 및 언어 모델의 종류 정보를 함께 생성하는 것을 특징으로 하는 음성 인식 방법.
  12. 제 11 항에 있어서,
    상기 최종 음성 인식 결과물을 선택하는 단계는,
    공개된 개인 정보 및 비공개 개인 정보를 이용하여 최종 음성 인식 결과물을 선택하는 것을 특징으로 하는 음성 인식 방법.
  13. 제 11 항에 있어서,
    상기 최종 음성 인식 결과물을 선택하는 단계는,
    상기 복수의 음성 인식 결과물들의 각 확률에 상기 공개된 개인 정보 및 비공개 개인 정보에 기초한 가중치를 부가하고, 그 결과로 가장 높은 확률값을 가지는 음성 인식 결과물을 선택하는 것을 특징으로 하는 음성 인식 시스템.
PCT/KR2014/006168 2013-07-09 2014-07-09 음성 인식 방법, 장치 및 시스템 WO2015005679A1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020167000254A KR20160030168A (ko) 2013-07-09 2014-07-09 음성 인식 방법, 장치 및 시스템

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
KR10-2013-0080062 2013-07-09
KR20130080060 2013-07-09
KR10-2013-0080060 2013-07-09
KR20130080062 2013-07-09

Publications (1)

Publication Number Publication Date
WO2015005679A1 true WO2015005679A1 (ko) 2015-01-15

Family

ID=52280280

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2014/006168 WO2015005679A1 (ko) 2013-07-09 2014-07-09 음성 인식 방법, 장치 및 시스템

Country Status (2)

Country Link
KR (1) KR20160030168A (ko)
WO (1) WO2015005679A1 (ko)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180024807A (ko) * 2016-08-31 2018-03-08 삼성전자주식회사 화자 인식에 기초한 음성 인식 방법 및 장치
EP3340239A1 (en) * 2016-12-23 2018-06-27 Samsung Electronics Co., Ltd. Electronic device and speech recognition method therefor
CN109410916A (zh) * 2017-08-14 2019-03-01 三星电子株式会社 个性化语音识别方法以及执行该方法的用户终端和服务器
EP3557574A1 (en) * 2018-04-19 2019-10-23 BSH Hausgeräte GmbH Voice control method, server, and voice exchange system
US11615199B1 (en) * 2014-12-31 2023-03-28 Idemia Identity & Security USA LLC User authentication for digital identifications

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101777302B1 (ko) * 2016-04-18 2017-09-12 충남대학교산학협력단 음성 주파수 분석 시스템 및 음성 주파수 분석 방법과 이를 이용한 음성 인식 시스템 및 음성 인식 방법
KR102497299B1 (ko) 2016-06-29 2023-02-08 삼성전자주식회사 전자 장치 및 이의 제어 방법
KR101754093B1 (ko) * 2016-09-01 2017-07-05 성기봉 기록이 자동으로 분류되어 저장되는 개인기록 관리 시스템
DE102017213946B4 (de) * 2017-08-10 2022-11-10 Audi Ag Verfahren zum Aufbereiten eines Erkennungsergebnisses eines automatischen Online-Spracherkenners für ein mobiles Endgerät
KR102421745B1 (ko) 2017-08-22 2022-07-19 삼성전자주식회사 Tts 모델을 생성하는 시스템 및 전자 장치
KR102549204B1 (ko) * 2017-09-26 2023-06-30 주식회사 케이티 음성인식 서비스를 제공하는 단말, 서버 및 방법
KR102225984B1 (ko) * 2018-09-03 2021-03-10 엘지전자 주식회사 음성 인식 서비스를 제공하는 서버
US20210350802A1 (en) * 2019-01-08 2021-11-11 Samsung Electronics Co., Ltd. Method and system for performing speech recognition in an electronic device
KR102346026B1 (ko) 2019-02-11 2021-12-31 삼성전자주식회사 전자 장치 및 이의 제어 방법
US20210090576A1 (en) * 2019-09-19 2021-03-25 Giving Tech Labs, LLC Real Time and Delayed Voice State Analyzer and Coach
KR102525077B1 (ko) * 2020-11-06 2023-04-24 카페24 주식회사 설정 기반의 음성 처리 방법, 장치 및 시스템
KR20230037804A (ko) * 2021-09-10 2023-03-17 삼성전자주식회사 전자 장치 및 전자 장치의 음성 처리 방법

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050102147A1 (en) * 1999-06-09 2005-05-12 Meinhard Ullrich Method of speech-based navigation in a communications network and of implementing a speech input possibility in private information units
KR20070060581A (ko) * 2005-12-09 2007-06-13 한국전자통신연구원 화자적응 방법 및 장치
KR20080001873A (ko) * 2006-06-30 2008-01-04 주식회사 케이티 음성 인식을 이용한 저장물 관리 장치 및 방법
KR20090097292A (ko) * 2008-03-11 2009-09-16 에스케이 텔레콤주식회사 사용자 영상을 이용한 음성인식 시스템 및 방법
KR20120066523A (ko) * 2010-12-14 2012-06-22 한국전자통신연구원 음성 인식 방법 및 이를 위한 시스템

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050102147A1 (en) * 1999-06-09 2005-05-12 Meinhard Ullrich Method of speech-based navigation in a communications network and of implementing a speech input possibility in private information units
KR20070060581A (ko) * 2005-12-09 2007-06-13 한국전자통신연구원 화자적응 방법 및 장치
KR20080001873A (ko) * 2006-06-30 2008-01-04 주식회사 케이티 음성 인식을 이용한 저장물 관리 장치 및 방법
KR20090097292A (ko) * 2008-03-11 2009-09-16 에스케이 텔레콤주식회사 사용자 영상을 이용한 음성인식 시스템 및 방법
KR20120066523A (ko) * 2010-12-14 2012-06-22 한국전자통신연구원 음성 인식 방법 및 이를 위한 시스템

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11615199B1 (en) * 2014-12-31 2023-03-28 Idemia Identity & Security USA LLC User authentication for digital identifications
KR20180024807A (ko) * 2016-08-31 2018-03-08 삼성전자주식회사 화자 인식에 기초한 음성 인식 방법 및 장치
KR102596430B1 (ko) * 2016-08-31 2023-10-31 삼성전자주식회사 화자 인식에 기초한 음성 인식 방법 및 장치
EP3340239A1 (en) * 2016-12-23 2018-06-27 Samsung Electronics Co., Ltd. Electronic device and speech recognition method therefor
US10818285B2 (en) 2016-12-23 2020-10-27 Samsung Electronics Co., Ltd. Electronic device and speech recognition method therefor
CN109410916A (zh) * 2017-08-14 2019-03-01 三星电子株式会社 个性化语音识别方法以及执行该方法的用户终端和服务器
CN109410916B (zh) * 2017-08-14 2023-12-19 三星电子株式会社 个性化语音识别方法以及执行该方法的用户终端和服务器
EP3557574A1 (en) * 2018-04-19 2019-10-23 BSH Hausgeräte GmbH Voice control method, server, and voice exchange system
CN110390931A (zh) * 2018-04-19 2019-10-29 博西华电器(江苏)有限公司 语音控制方法、服务器及语音交互系统
CN110390931B (zh) * 2018-04-19 2024-03-08 博西华电器(江苏)有限公司 语音控制方法、服务器及语音交互系统

Also Published As

Publication number Publication date
KR20160030168A (ko) 2016-03-16

Similar Documents

Publication Publication Date Title
WO2015005679A1 (ko) 음성 인식 방법, 장치 및 시스템
WO2020145439A1 (ko) 감정 정보 기반의 음성 합성 방법 및 장치
WO2019139430A1 (ko) 기계학습을 이용한 텍스트-음성 합성 방법, 장치 및 컴퓨터 판독가능한 저장매체
WO2020139058A1 (en) Cross-device voiceprint recognition
WO2020027619A1 (ko) 순차적 운율 특징을 기초로 기계학습을 이용한 텍스트-음성 합성 방법, 장치 및 컴퓨터 판독가능한 저장매체
JP5731998B2 (ja) 対話支援装置、対話支援方法および対話支援プログラム
WO2021010744A1 (ko) 음성 인식 기반의 세일즈 대화 분석 방법 및 장치
WO2020159288A1 (ko) 전자 장치 및 그 제어 방법
WO2020230926A1 (ko) 인공 지능을 이용하여, 합성 음성의 품질을 평가하는 음성 합성 장치 및 그의 동작 방법
WO2018174443A1 (en) Electronic apparatus, controlling method of thereof and non-transitory computer readable recording medium
WO2020253115A1 (zh) 基于语音识别的产品推荐方法、装置、设备和存储介质
JP2016109897A (ja) 電子機器、発話制御方法、およびプログラム
WO2019172734A2 (ko) 데이터 마이닝 장치, 이를 이용하는 음성인식 방법 및 시스템
WO2021251539A1 (ko) 인공신경망을 이용한 대화형 메시지 구현 방법 및 그 장치
WO2022080774A1 (ko) 말 장애 평가 장치, 방법 및 프로그램
KR20210033850A (ko) 목소리 및 얼굴 안면 감정값의 산출 방법 및 이를 이용한 인공지능 스피커의 출력 방법
WO2021071110A1 (en) Electronic apparatus and method for controlling electronic apparatus
WO2021029642A1 (en) System and method for recognizing user's speech
WO2021002649A1 (ko) 개별 화자 별 음성 생성 방법 및 컴퓨터 프로그램
KR20190115405A (ko) 검색 방법 및 이 방법을 적용하는 전자 장치
WO2022164192A1 (ko) 사용자의 발화 입력에 관련된 추천 문장을 제공하는 디바이스 및 방법
WO2020138662A1 (ko) 전자 장치 및 그의 제어 방법
WO2020054980A1 (ko) 음소기반 화자모델 적응 방법 및 장치
EP3785258A1 (en) Electronic device and method for providing or obtaining data for training thereof
WO2021071271A1 (en) Electronic apparatus and controlling method thereof

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 14823452

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 20167000254

Country of ref document: KR

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 14823452

Country of ref document: EP

Kind code of ref document: A1