WO2014178491A1 - 발화 인식 방법 및 장치 - Google Patents

발화 인식 방법 및 장치 Download PDF

Info

Publication number
WO2014178491A1
WO2014178491A1 PCT/KR2013/009228 KR2013009228W WO2014178491A1 WO 2014178491 A1 WO2014178491 A1 WO 2014178491A1 KR 2013009228 W KR2013009228 W KR 2013009228W WO 2014178491 A1 WO2014178491 A1 WO 2014178491A1
Authority
WO
WIPO (PCT)
Prior art keywords
user
information
speech
sensor
time
Prior art date
Application number
PCT/KR2013/009228
Other languages
English (en)
French (fr)
Inventor
이근배
이규송
한상도
송재윤
Original Assignee
포항공과대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 포항공과대학교 산학협력단 filed Critical 포항공과대학교 산학협력단
Publication of WO2014178491A1 publication Critical patent/WO2014178491A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features

Definitions

  • the present invention relates to a speech recognition technology based on digital signal processing, and more particularly, to a speech recognition method and apparatus for recognizing speech by extracting information on a user's speech timing based on multi-modal information.
  • the multi-modal interface refers to a user interface that provides interaction between the information processing device and the user by using not only linguistic elements such as text or voice, but also non-verbal elements such as gestures, gestures, or facial expressions.
  • speech recognition technology with a multi-modal interface is used in fields such as intelligent robots, next-generation PCs, telematics, home networks, and content retrieval that can recognize the user's speech and provide information suitable for the intended user's speech. It is becoming a trend.
  • the user before a user starts speaking, the user inputs an input signal through an input device such as a touch screen, a keypad, or a keyboard in advance, and the input signal must be detected to recognize the user's speech in the conversation processing system in the information processing apparatus.
  • Push-To-Talk method was used.
  • this push-to-talk method requires that the information processing device recognizes the user's utterance only when the user gives a signal using direct physical contact before starting the utterance, and thus requires contact with the input device every time the utterance proceeds.
  • the problem is that it is cumbersome to use.
  • a voice activity detection technique has been used in which, when a sound signal is input to the information processing apparatus, the noise is filtered out and a portion at which the speech starts or ends is extracted to recognize the speech.
  • An object of the present invention for solving the above problems, by providing a speech recognition technology that can accurately extract the starting point of the user utterance without a separate input device from the user using the information processing device applying the multi-modal interface, It is to provide a speech recognition method that can provide a user with convenience and accurate information at the same time.
  • another object of the present invention is to provide a speech recognition technology that can extract the user's voice from the user's speech without loss, all conversation systems that require the grasp of the user's speech using the user's voice and
  • the present invention provides a speech recognition apparatus applicable to a device.
  • the speech recognition method for achieving the above object, using at least one sensor in the information processing apparatus capable of digital signal processing, of the information on the movement of the user's image, sound and information processing apparatus Collecting input data including at least one, comparing the collected input data with a preset utterance intention model, extracting information on a user's utterance time point, and based on the extracted user's utterance time point Recording sound using at least one sensor, and recognizing a user's speech in the recorded sound.
  • the information on the user's utterance time may be extracted by processing the user's image collected by the at least one sensor to recognize the user's motion.
  • the extracting of the information on the user's utterance time may include extracting the position of the user's pupil from the image of the user collected by the at least one sensor to determine whether the user's pupil gazes at the display device of the information processing apparatus for a predetermined time. By judging, information on a user's uttering time can be extracted.
  • the extracting information on the user's utterance time may include extracting information on the user's utterance time by determining whether the user's mouth is open by extracting the shape of the user's mouth from the image of the user collected by at least one sensor. can do.
  • the extracting of the information on the user's utterance time may include measuring at least one of the acceleration, the tilt and the shaking of the information processing device from the at least one sensor to recognize the movement of the information processing device so as to recognize the user's utterance time. Can be extracted.
  • the speech intention model may be generated by machine learning the input data using a machine-based classifier or a probability-based model including at least one of a Bayesian Network and a Hidden Markov Model. Can be.
  • the voice start point and the voice end point are extracted from the recorded sound, and the preset time is set based on the extracted voice end point from the previous time by a preset time based on the extracted voice start point.
  • the user can recognize up to a later time as one set time as the user's speech.
  • the speech recognition apparatus for achieving the above another object, using at least one sensor, the input including at least one of the information on the movement of the image, sound and information processing apparatus of the user
  • a speech recognition unit for recognizing speech.
  • the input unit may include an image input module that recognizes a user's motion, a motion input module that recognizes a motion of the information processing device, and a sound input module that recognizes or records a user's sound using at least one sensor. .
  • the at least one sensor is mounted in the information processing device, a camera capable of acquiring an image of a user, a microphone capable of acquiring sound, an accelerometer capable of measuring movement of the information processing device, a gyroscope sensor, and a proximity sensor. It may include at least one of the sensors.
  • the speech recognition method and apparatus since the starting point of the user's speech can be accurately extracted without a separate input device from the user, while providing accurate information suitable for the user's speech intent, It can provide convenience to the user so that they can ignite naturally.
  • the user's voice can be extracted from the user's utterance without loss, it can be applied to all conversation systems and devices that need to know the intention of the user's utterance using the user's voice.
  • FIG. 1 is a flowchart illustrating a speech recognition method according to an embodiment of the present invention.
  • FIG. 2 is an exemplary view illustrating extracting information on a utterance time point using a location of a user pupil according to an exemplary embodiment of the present invention.
  • FIG. 3 is an exemplary diagram illustrating extracting information on a utterance time point using the shape of a user's mouth according to an exemplary embodiment of the present invention.
  • FIG. 4 is an exemplary diagram illustrating extracting information on a utterance time point by using a motion of an information processing apparatus according to an embodiment of the present invention.
  • FIG. 5 is a flowchart illustrating a method of generating a speech intention model according to an embodiment of the present invention.
  • FIG. 6 is an exemplary view illustrating that a user's speech is recognized according to an exemplary embodiment of the present invention.
  • FIG. 7 is a block diagram illustrating a speech recognition apparatus according to an exemplary embodiment of the present invention.
  • first, second, A, and B may be used to describe various components, but the components should not be limited by the terms. The terms are used only for the purpose of distinguishing one component from another.
  • the first component may be referred to as the second component, and similarly, the second component may also be referred to as the first component.
  • the speech recognition method and apparatus may include at least one user terminal capable of performing digital signal processing.
  • At least one user terminal may be directly connected to one server or another user terminal, or may be connected to a wired or wireless network such as serial, USB, Bluetooth, Wi-Fi, Zigbee, etc. to exchange information.
  • a wired or wireless network such as serial, USB, Bluetooth, Wi-Fi, Zigbee, etc.
  • the user terminal is equipped with at least one sensor so as to utilize a multimodal interface, a smartphone, a tablet PC, a laptop, a computer having an information processing function that can process the signal input by the sensor It may include, but is not limited to, an information processing device such as a smart home appliance and a system robot.
  • the multi-modal interface interacts between the user and the information processing device using not only text or voice input from input devices such as a touch screen, a keyboard, a pen, and a microphone, but also user's motion or user terminal's motion information input from various sensors. It can mean a user interface that supports.
  • FIG. 1 is a flowchart illustrating a speech recognition method according to an embodiment of the present invention.
  • a speech recognition method performed by an information processing apparatus capable of digital signal processing may include collecting input data (S110), extracting information on a user's speech timing (S130), and recording a sound. And (S140) recognizing the user's speech in the recorded sound (S150).
  • input data including at least one of information about a user's image, sound, and movement of the information processing device may be collected (S110).
  • the senor may be mounted on the information processing device to measure the movement of an image sensor or displacement sensor such as a camera capable of acquiring a user's image, a depth camera and a Kinect camera, a microphone capable of acquiring sound, and an information processing device. It may include, but is not limited to, at least one of an accelerometer, a gyroscope sensor, and a proximity sensor.
  • an image sensor or displacement sensor such as a camera capable of acquiring a user's image, a depth camera and a Kinect camera, a microphone capable of acquiring sound, and an information processing device. It may include, but is not limited to, at least one of an accelerometer, a gyroscope sensor, and a proximity sensor.
  • Information on the user's utterance time can be extracted by processing the user's image collected by the sensor to recognize the user's motion.
  • FIG. 2 is an exemplary diagram illustrating extracting information on an utterance time point using a location of a user pupil according to an exemplary embodiment of the present invention
  • FIG. 3 illustrates speech using a user's mouth shape according to an exemplary embodiment of the present invention
  • 4 is an exemplary diagram illustrating extracting information on a viewpoint
  • FIG. 4 is an exemplary diagram illustrating extracting information on a utterance viewpoint by using a motion of an information processing apparatus according to an exemplary embodiment of the present invention.
  • the user pupil position 22 is recognized using the camera 21 mounted in the information processing device 20 as an example for extracting information on a user's utterance timing.
  • the user pupil gazes at the display device of the information processing apparatus for a predetermined time it may be determined that the user intends to start utterance and extracted as information on the utterance timing.
  • FIGS. 1 and 3 an example of extracting information on a user's utterance time is shown as recognizing a user's mouth shape 33 using a camera 21 mounted on the information processing apparatus 20. .
  • the information about the user's utterance time is extracted according to the user's pupil position 22 or the shape of the user's mouth 33 among the user's motions.
  • all motions that the user takes to start the utterance are collected by the sensor. It may be used to extract information about a user's speech timing.
  • the information on the user's speech timing may be extracted by processing the user's sound collected by the sensor and recognizing the user's voice.
  • the user's sound may include a voice, such as a speech made by the user through the pronunciation engine, or a friction sound generated by the user's body.
  • the information on the user's utterance time can be extracted by recognizing the movement of the information processing device collected by the sensor.
  • the movement of the information processing device may measure at least one of acceleration, tilt, and shaking of the information processing device in order to extract information about a user's utterance time.
  • the user recognizes a shake of left and right or back and forth of the information processing device generated by lifting the information processing device to proceed with the speech. Information can be extracted.
  • the user may extract information about a user's uttering time by recognizing the inclination of the information processing device generated by lifting the information processing device to proceed with the utterance.
  • FIG. 5 is a flowchart illustrating a method of generating a speech intention model according to an embodiment of the present invention.
  • the speech intention model may be generated by collecting input data in a situation where a user speaks (S510) and training the collected input data through a machine learning based model (S520). It may be (S530).
  • the input data of the utterance intention model may be collected by using at least one sensor, including at least one of information about an image, a sound, and a movement of the information processing device of the user in a situation where the user speaks.
  • the input data in the situation where the collected user's speech is progressed is trained using a probability-based model including at least one of a Bayesian network and a Hidden Markov model to generate a speech intent model.
  • a probability-based model including at least one of a Bayesian network and a Hidden Markov model to generate a speech intent model.
  • S530 may generate a speech intention model using a machine learning based classifier.
  • the generated ignition intention model stores information processing devices such as buffers, caches, random access memory (RAM), read only memory (ROM), hard disk, and flash memory. It may be preset in the device.
  • the sound may be recorded based on the extracted information on the utterance time of the user (S140), and the user's speech may be recognized from the recorded sound (S150).
  • the extracted information on the utterance time of the user may mean information such as a start point or a start time at which recording of sound should be started in order to recognize the utterance of the user in the information processing apparatus.
  • the noise around the user, the user's voice, and the non-voice part may be separated from the sound recorded by the information processing device, and the voice start point and the voice end point may be extracted from the separated user's voice.
  • the user's speech may be recognized from the previous time by the preset time set based on the extracted voice start point and the later time by the preset time set based on the extracted voice end point.
  • the set time may be set in advance to prevent loss of the user's voice when recognizing the user's speech.
  • FIG. 6 is an exemplary view illustrating that a user's speech is recognized according to an exemplary embodiment of the present invention.
  • recording of a sound is started from the extracted information about the utterance time of the user 62, and a voice start point 64, a voice end point 65, and a preset set time from the recorded sound 63. Based on 66, the user's speech 67 may be recognized.
  • the information 62 about the user's speech timing may refer to information such as a start point or a start time at which the recording of the sound should be started in order for the information processing apparatus 20 to recognize the user's speech.
  • the microphone 61 of the information processing device 20 may be used to start recording of the user sound from the information 62 about the user's speech timing.
  • the recorded sound 63 may include not only voices such as speech sounds made by the user through the sounding organ, but also friction sounds generated by the user's body and noises around the user.
  • the noise around the user, the user's voice, and the non-voice part may be separated from the recorded sound 63, and the voice start point 64 and the voice end point 65 may be extracted from the separated user's voice.
  • the total time of the recorded sound 63 is 30 seconds from the information 62 on the user's utterance timing, and the voice start point 64 is extracted 10 seconds after the start of the sound and the voice end point 65 Can be assumed to be extracted 15 seconds after the start of the sound.
  • the preset setting time 66 is set to 2 seconds, from 8 seconds of 10 seconds before the setting time to 17 seconds of 2 seconds after the setting time of 15 seconds from the voice starting point, the user is recognized as the user's speech. Can be.
  • FIG. 7 is a block diagram illustrating a speech recognition apparatus according to an exemplary embodiment of the present invention.
  • the speech recognition apparatus 70 may include an input unit 71, a speech point extraction unit 75, and a speech recognition unit 77.
  • the speech recognition device 70 includes a smartphone, a tablet PC, a notebook computer, a smart home appliance and a system equipped with at least one sensor and having an information processing function capable of processing a signal input by the sensor. It may include an information processing device such as a robot, but is not limited thereto.
  • the input unit 71 may collect input data including at least one of information about a user's image, sound, and movement of the information processing device by using at least one sensor.
  • the senor may be mounted on the information processing device to measure the movement of an image sensor or displacement sensor such as a camera capable of acquiring a user's image, a depth camera and a Kinect camera, a microphone capable of acquiring sound, and an information processing device. It may include, but is not limited to, at least one of an accelerometer, a gyroscope sensor, and a proximity sensor.
  • an image sensor or displacement sensor such as a camera capable of acquiring a user's image, a depth camera and a Kinect camera, a microphone capable of acquiring sound, and an information processing device. It may include, but is not limited to, at least one of an accelerometer, a gyroscope sensor, and a proximity sensor.
  • the input unit 71 may include an image input module 72, a motion input module 73, and a sound input module 74.
  • the image input module 72 may recognize a user's motion for processing the user's image collected by the sensor and extracting information on the user's utterance time.
  • the image input module 72 processes the user's image and extracts the position of the user's pupil from the recognized user's motion to determine whether the user's pupil stares at the display device of the information processing device for a predetermined time. Can be.
  • a display device such as a monitor, a touch screen, and a touch panel for a predetermined time
  • the image input module 72 may process the image of the user and extract the shape of the user's mouth from the recognized user's motion to determine whether the user's mouth is open.
  • the user can judge that the speech is in progress and can be extracted as information on the time of speech, but if the user's mouth is closed, the user can determine that the speech is not in progress.
  • an example of extracting information on a user's utterance time point according to the position or mouth shape of the user's pupil in the user's motion is taken as an example.
  • all motions that the user takes to start utterance may be collected.
  • the motion input module 73 may recognize a motion of the information processing device for extracting information on a user's utterance timing by measuring at least one of acceleration, tilt, and shaking of the information processing device by a sensor.
  • the sound input module 74 may recognize the user's sound in order to extract information on the user's utterance time, or may record the sound based on the extracted information on the user's utterance time.
  • the user's sound may include a voice, such as a speech made by the user through the pronunciation engine, or a friction sound generated by the user's body.
  • the utterance time extractor 75 may extract information about the utterance time of the user by comparing the input data collected by the input unit 71 with a preset utterance intention model 76.
  • the speech intent model 76 collects input data in a situation where a user speaks, and uses a probability-based model including at least one of a Bayesian network and a Hidden Markov model. By training, the speech intention model may be generated, but is not limited thereto. The speech intention model may be generated using a classifier based on machine learning.
  • the speech recognition unit 77 may recognize the speech of the user in the recorded sound based on the information on the speech timing of the user.
  • the information on the utterance time of the user may mean information such as a start point or a start time at which the sound input module 74 should start recording the sound in order to recognize the utterance of the user in the information processing apparatus.
  • the speech recognition unit 77 separates the noise around the user, the user's voice and the non-voice part from the sound recorded by the sound input module 74, and extracts the voice start point and the voice end point from the separated user's voice. Can be.
  • the user's speech may be recognized from the time before the preset time based on the extracted voice start point and the time after the preset time based on the extracted voice end point.
  • the set time may be set in advance to prevent loss of the user's voice when recognizing the user's speech.
  • the ignition intention model 76 and the set time may include a buffer, a cache, a random access memory (RAM), a read only memory (ROM), a hard disk, and a flash memory of the information processing apparatus.
  • Memory may be preset in a storage device.
  • the speech recognition method and apparatus since the information on the user's utterance time can be accurately extracted without a separate input from the user, it provides the user with accurate information suitable for the user's intention and at the same time provides convenience. I can do it.
  • the voice start point and the voice end point extracts the voice start point and the voice end point, and recognizes the user's utterance from the previous time as the preset time based on the extracted voice start point and the time after the preset time based on the extracted voice end point as the user's speech. Therefore, the user's voice can be extracted without loss.
  • the present invention can be applied to all conversation systems and devices that require the use of voice to grasp the intention of the user's speech.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

발화 인식 방법 및 장치가 개시된다. 디지털 신호 처리가 가능한 정보 처리 장치에서 수행되는 발화 인식 방법에 있어서, 적어도 하나의 센서를 이용하여, 사용자의 영상, 음향 및 정보 처리 장치의 움직임에 대한 정보 중 적어도 하나를 포함하는 입력 데이터를 수집하는 단계, 수집된 입력 데이터와 미리 설정된 발화 의도 모델을 비교하여, 사용자의 발화 시점에 대한 정보를 추출하는 단계 및 추출된 사용자의 발화 시점에 대한 정보를 기반으로 음향을 녹음하고, 녹음된 음향에서 사용자의 발화를 인식하는 단계를 포함한다. 따라서, 사용자 발화의 의도에 맞는 정확한 정보와 편리함을 제공하며, 사용자 발화의 의도를 파악하는 것이 요구되는 모든 대화 시스템 및 장치에 적용할 수 있다.

Description

발화 인식 방법 및 장치
본 발명은 디지털 신호 처리에 기반한 발화 인식 기술에 관한 것으로, 더욱 상세하게는 멀티 모달 정보를 기반으로 사용자의 발화 시점에 대한 정보를 추출하여 발화를 인식하는 발화 인식 방법 및 장치에 관한 것이다.
최근 정보 처리 장치 및 정보 통신 기술이 급속하게 발전함에 따라, 스마트폰(Smart Phone), 태블릿 PC(Tablet PC) 등과 같은 휴대용 이동 통신 단말들이 상용화되었다.
이에 따라 정보 처리 장치에 멀티모달 인터페이스(Multimodal Interface)를 적용하여 다양한 방식으로 사용자의 발화를 인식함으로써 정보 처리 장치를 제어할 수 있게 되었다.
여기서, 멀티모달 인터페이스란 텍스트 또는 음성과 같은 언어적 요소뿐만 아니라 몸짓, 손짓 또는 표정과 같은 비언어적인 요소를 이용하여, 정보 처리 장치와 사용자 간의 상호 작용을 제공하는 사용자 인터페이스를 의미한다.
그리하여, 사용자의 발화를 인식하고 인식된 사용자 발화의 의도에 맞는 정보를 제공할 수 있는 지능형 로봇, 차세대 PC, 텔레매틱스, 홈네트워크, 콘텐츠 검색과 같은 분야에서, 멀티모달 인터페이스를 적용한 발화 인식 기술이 활용되고 있는 추세이다.
종래의 발화 인식 기술은, 사용자가 발화를 시작하기 전에 미리 터치스크린, 키패드, 키보드와 같은 입력 장치를 통해 입력 신호를 주고, 입력 신호가 감지되어야 정보 처리 장치 내의 대화 처리 시스템에서 사용자의 발화를 인식하도록 하는 Push-To-Talk 방식을 이용하였다.
그러나, 이러한 Push-To-Talk 방식은 사용자가 발화를 시작하기 전에 직접 신체적 접촉을 이용하여 신호를 주어야만 정보 처리 장치에서 사용자의 발화를 인식하기 때문에, 발화가 진행될 때마다 입력 장치와의 접촉이 필요하다는 점에서 사용하기에 번거롭다는 문제가 있다.
또한, Push-To-Talk방식을 적용한 정보 처리 장치를 이용하는 사용자와 사용자간, 또는 사용자와 정보 처리 장치 간에 직관적이고 자연스러운 대화를 제공할 수 없는 문제가 있다.
그리하여, 정보 처리 장치에 소리 신호가 입력되면, 잡음을 걸러내고 음성이 시작되는 부분 또는 종료하는 부분을 추출해내어 발화를 인식하는 음성 활동 검출 기술(Voice activity detection)이 이용되었다.
그러나, 정보 처리 장치가 사용자의 음성이 시작되는 시점을 놓침으로써 발생하는 음성의 손실로 인해 사용자 발화의 의도를 정확하게 인식할 수 없다는 문제가 있다.
상기와 같은 문제점을 해결하기 위한 본 발명의 목적은, 멀티 모달 인터페이스를 적용한 정보 처리 장치를 사용하는 사용자로부터 별도의 입력 장치 없이도 사용자 발화의 시작점을 정확히 추출할 수 있는 발화 인식 기술을 제공함으로써, 사용자 발화의 의도에 맞는 정확한 정보를 제공함과 동시에 사용자에게 편리함을 제공할 수 있는 발화 인식 방법을 제공하는데 있다.
또한, 본 발명의 다른 목적은, 사용자의 발화에서 사용자의 음성을 손실 없이 추출할 수 있는 발화 인식 기술을 제공함으로써, 사용자의 음성을 이용하여 사용자 발화의 의도를 파악하는 것이 요구되는 모든 대화 시스템 및 장치에 적용할 수 있는 발화 인식 장치를 제공하는데 있다.
상기 목적을 달성하기 위한 본 발명의 일 측면에 따른 발화 인식 방법은, 디지털 신호 처리가 가능한 정보 처리 장치에서 적어도 하나의 센서를 이용하여, 사용자의 영상, 음향 및 정보 처리 장치의 움직임에 대한 정보 중 적어도 하나를 포함하는 입력 데이터를 수집하는 단계, 수집된 입력 데이터와 미리 설정된 발화 의도 모델을 비교하여, 사용자의 발화 시점에 대한 정보를 추출하는 단계 및 추출된 사용자의 발화 시점에 대한 정보를 기반으로 적어도 하나의 센서를 이용하여 음향을 녹음하고, 녹음된 음향에서 사용자의 발화를 인식하는 단계를 포함한다.
여기서, 사용자의 발화 시점에 대한 정보를 추출하는 단계는, 적어도 하나의 센서에서 수집된 사용자의 영상을 처리하여 사용자의 모션을 인식함으로써 사용자의 발화 시점에 대한 정보를 추출할 수 있다.
여기서, 사용자의 발화 시점에 대한 정보를 추출하는 단계는, 적어도 하나의 센서에서 수집된 사용자의 영상에서 사용자의 동공의 위치를 추출하여 사용자의 동공이 일정 시간동안 정보 처리 장치의 디스플레이 장치를 응시하는지 판단함으로써 사용자의 발화 시점에 대한 정보를 추출할 수 있다.
여기서, 사용자의 발화 시점에 대한 정보를 추출하는 단계는, 적어도 하나의 센서에서 수집된 사용자의 영상에서 사용자의 입 모양을 추출하여 사용자의 입이 열려있는지 판단함으로써 사용자의 발화 시점에 대한 정보를 추출할 수 있다.
여기서, 사용자의 발화 시점에 대한 정보를 추출하는 단계는, 적어도 하나의 센서로부터 정보 처리 장치의 가속도, 기울기 및 흔들림 중 적어도 하나를 측정하여 정보 처리 장치의 움직임을 인식함으로써 사용자의 발화 시점에 대한 정보를 추출할 수 있다.
여기서, 발화 의도 모델은, 베이지안 네트워크(Bayesian Network) 및 은닉 마코프 모델(Hidden Markov Model) 중 적어도 하나를 포함하는 확률 기반의 모델 또는 기계 학습 기반의 분류기를 이용하여 상기 입력 데이터를 기계 학습함으로써 생성될 수 있다.
여기서, 사용자의 발화를 인식하는 단계는, 녹음된 음향으로부터 음성 시작점 및 음성 종료점을 추출하고, 추출된 음성 시작점을 기준으로 미리 설정한 설정 시간만큼 앞 시간부터, 추출된 음성 종료점을 기준으로 미리 설정한 설정 시간만큼 뒤 시간까지를 사용자의 발화로 인식할 수 있다.
또한, 상기 다른 목적을 달성하기 위한 본 발명의 일 측면에 따른 발화 인식 장치는, 적어도 하나의 센서를 이용하여, 사용자의 영상, 음향 및 정보 처리 장치의 움직임에 대한 정보 중 적어도 하나를 포함하는 입력 데이터를 수집하는 입력부, 수집된 입력 데이터와 미리 설정된 발화 의도 모델을 비교하여, 사용자의 발화 시점에 대한 정보를 추출하는 발화 시점 추출부 및 사용자의 발화 시점에 대한 정보를 기반으로 녹음된 음향에서 사용자의 발화를 인식하는 발화 인식부를 포함한다.
여기서, 입력부는, 사용자의 모션을 인식하는 영상 입력 모듈, 정보 처리 장치의 움직임을 인식하는 움직임 입력 모듈 및 적어도 하나의 센서를 이용하여 사용자의 음향을 인식하거나 녹음하는 음향 입력 모듈을 포함할 수 있다.
여기서, 적어도 하나의 센서는, 정보 처리 장치에 탑재되어, 사용자의 영상을 획득할 수 있는 카메라, 음향을 획득할 수 있는 마이크 및 정보 처리 장치의 움직임을 측정할 수 있는 가속도계, 자이로스코프 센서 및 근접 센서 중 적어도 하나를 포함할 수 있다.
상술한 바와 같은 본 발명의 실시예에 따른 발화 인식 방법 및 장치에 따르면, 사용자로부터 별도의 입력 장치 없이도 사용자 발화의 시작점을 정확히 추출할 수 있기 때문에, 사용자의 발화 의도에 맞는 정확한 정보를 제공함과 동시에 자연스럽게 발화할 수 있도록 사용자에게 편리함을 제공해줄 수 있다.
또한, 사용자의 발화에서 사용자의 음성을 손실 없이 추출할 수 있기 때문에, 사용자의 음성을 이용하여 사용자 발화의 의도를 파악하는 것이 요구되는 모든 대화 시스템 및 장치에 적용할 수 있다.
도 1은 본 발명의 실시예에 따른 발화 인식 방법을 설명하는 흐름도이다.
도 2는 본 발명의 실시예에 따른 사용자 동공의 위치를 이용하여 발화 시점에 대한 정보를 추출하는 것을 설명하는 예시도이다.
도 3은 본 발명의 실시예에 따른 사용자의 입 모양을 이용하여 발화 시점에 대한 정보를 추출하는 것을 설명하는 예시도이다.
도 4는 본 발명의 실시예에 따른 정보 처리 장치의 움직임을 이용하여 발화 시점에 대한 정보를 추출하는 것을 설명하는 예시도이다.
도 5는 본 발명의 실시예에 따른 발화 의도 모델이 생성되는 방법을 설명하는 흐름도이다.
도 6은 본 발명의 실시예에 따른 사용자의 발화가 인식되는 것을 설명하는 예시도이다.
도 7은 본 발명의 실시예에 따른 발화 인식 장치를 나타내는 블록도이다.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용하였다.
제1, 제2, A, B 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.
본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
이하, 본 발명의 실시예에서 발화 인식 방법 및 장치는, 디지털 신호 처리를 수행할 수 있는 적어도 하나의 사용자 단말이 포함될 수 있다.
적어도 하나의 사용자 단말은 하나의 서버 또는 다른 사용자 단말과 직접적으로 연결될 수도 있고, 시리얼, USB, 블루투스, 와이파이, 지그비 등과 같은 유무선 네트워크로 연결되어 정보를 주고받을 수 있다.
여기서, 사용자 단말은 멀티모달 인터페이스(Multimodal Interface)를 활용할 수 있도록 적어도 하나의 센서를 탑재하고, 센서에 의해 입력된 신호를 처리할 수 있는 정보 처리 기능을 구비하는 스마트폰, 태블릿 PC, 노트북, 컴퓨터, 스마트 가전장치 및 시스템 로봇과 같은 정보 처리 장치를 포함할 수 있으나 이에 한정되는 것은 아니다.
멀티모달 인터페이스는 터치스크린, 키보드, 펜 및 마이크와 같은 입력 장치에서 입력받은 텍스트나 음성뿐만 아니라, 각종 센서에서 입력받은 사용자의 모션 또는 사용자 단말의 움직임 정보를 이용하여 사용자와 정보 처리 장치 간의 상호 작용을 지원해주는 사용자 인터페이스를 의미할 수 있다.
이하, 본 발명에 따른 바람직한 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.
도 1은 본 발명의 실시예에 따른 발화 인식 방법을 설명하는 흐름도이다.
도 1을 참조하면, 디지털 신호 처리가 가능한 정보 처리 장치에서 수행되는 발화 인식 방법은, 입력 데이터를 수집하는 단계(S110), 사용자의 발화 시점에 대한 정보를 추출하는 단계(S130) 및 음향을 녹음하고(S140) 녹음된 음향에서 사용자의 발화를 인식하는 단계(S150)를 포함할 수 있다.
적어도 하나의 센서를 이용하여 사용자의 영상, 음향 및 정보 처리 장치의 움직임에 대한 정보 중 적어도 하나를 포함하는 입력 데이터를 수집할 수 있다(S110).
여기서, 센서는 정보 처리 장치에 탑재되어 사용자의 영상을 획득할 수 있는 카메라, 깊이 카메라 및 키넥트 카메라와 같은 이미지 센서 또는 변위 센서, 음향을 획득할 수 있는 마이크 및 정보 처리 장치의 움직임을 측정할 수 있는 가속도계, 자이로스코프 센서 및 근접 센서 중 적어도 하나를 포함할 수 있으나 이에 한정되는 것은 아니다.
입력 데이터와 미리 설정된 발화 의도 모델을 비교하면(S120) 사용자의 발화 시점에 대한 정보를 추출할 수 있다(S130).
사용자의 발화 시점에 대한 정보는, 센서에서 수집된 사용자의 영상을 처리하여 사용자의 모션을 인식함으로써 추출할 수 있다.
도 2는 본 발명의 실시예에 따른 사용자 동공의 위치를 이용하여 발화 시점에 대한 정보를 추출하는 것을 설명하는 예시도이고, 도 3은 본 발명의 실시예에 따른 사용자의 입 모양을 이용하여 발화 시점에 대한 정보를 추출하는 것을 설명하는 예시도이며, 도 4는 본 발명의 실시예에 따른 정보 처리 장치의 움직임을 이용하여 발화 시점에 대한 정보를 추출하는 것을 설명하는 예시도이다.
도 1 및 도 2를 참조하면 사용자의 발화 시점에 대한 정보를 추출하기 위한 예로써 정보 처리 장치(20)에 탑재된 카메라(21)를 이용하여 사용자 동공 위치(22)를 인식하는 것을 나타내고 있다.
즉, 사용자 동공이 일정 시간동안 정보 처리 장치의 디스플레이 장치를 응시하는 것이 감지되면, 사용자가 발화를 시작할 의도가 있는 것으로 판단하여 발화 시점에 대한 정보로 추출할 수 있다.
도 1 및 도 3을 참조하면 사용자의 발화 시점에 대한 정보를 추출하기 위한 예로써 정보 처리 장치(20)에 탑재된 카메라(21)를 이용하여 사용자의 입 모양(33)을 인식하는 것을 나타내고 있다.
도 3의 (a)와 같이 사용자의 입이 열려있으면 사용자가 발화를 진행하는 것으로 판단하여 발화 시점에 대한 정보로 추출할 수 있다. 반면, 도 3의 (b)와 같이 사용자의 입이 닫혀있으면 사용자가 발화를 진행하고 있지 않은 것으로 판단할 수 있다.
여기서는 사용자의 모션 중 사용자 동공 위치(22) 또는 사용자 입 모양(33)에 따라 사용자의 발화 시점에 대한 정보를 추출하는 것을 예로 들었으나, 사용자가 발화를 시작하기 위해 취하는 모든 모션들을 센서로 수집하여 사용자의 발화 시점에 대한 정보를 추출하기 위해 이용될 수 있다.
사용자의 발화 시점에 대한 정보는, 센서에서 수집된 사용자의 음향을 처리하여 사용자의 음성을 인식함으로써 추출할 수 있다. 여기서, 사용자의 음향은, 사용자가 발음 기관을 통해 내는 말소리와 같은 음성 또는 사용자의 신체에 의해 발생하는 마찰음을 포함할 수 있다.
또한, 사용자의 발화 시점에 대한 정보는, 센서에서 수집된 정보 처리 장치의 움직임을 인식함으로써 추출할 수 있다. 여기서, 정보 처리 장치의 움직임은, 사용자의 발화 시점에 대한 정보를 추출하기 위해 정보 처리 장치의 가속도, 기울기 및 흔들림 중 적어도 하나를 측정할 수 있다.
도 1 및 도 4를 참조하면, 도 4의 (a)와 같이 사용자가 발화를 진행하기 위해 정보 처리 장치를 들어올리면서 발생하는 정보 처리 장치의 좌우 또는 앞뒤로의 흔들림을 인식함으로써 사용자의 발화 시점에 대한 정보를 추출할 수 있다.
또한, 도 4의 (b)와 같이 사용자가 발화를 진행하기 위해 정보 처리 장치를 들어올리면서 발생하는 정보 처리 장치의 기울기를 인식함으로써 사용자의 발화 시점에 대한 정보를 추출할 수 있다.
도 5는 본 발명의 실시예에 따른 발화 의도 모델이 생성되는 방법을 설명하는 흐름도이다.
도 1 및 도 5를 참조하면, 발화 의도 모델은 사용자의 발화가 진행되는 상황에서의 입력 데이터를 수집하고(S510), 수집된 입력 데이터를 기계 학습 기반의 모델을 통해 훈련 시킴으로써(S520) 생성될 수 있다(S530).
발화 의도 모델의 입력 데이터는, 적어도 하나의 센서를 이용하여 사용자의 발화가 진행되는 상황에서의 사용자의 영상, 음향 및 정보 처리 장치의 움직임에 대한 정보 중 적어도 하나를 포함하여 수집할 수 있다.
수집된 사용자의 발화가 진행되는 상황에서의 입력 데이터를 베이지안 네트워크(Bayesian Network) 및 은닉 마코프 모델(Hidden Markov Model) 중 적어도 하나를 포함하는 확률 기반의 모델을 이용하여 훈련시킴으로써 발화 의도 모델로 생성(S530)될 수 있으나 이에 한정되지 않고 기계 학습 기반의 분류기를 이용하여 발화 의도 모델을 생성할 수 있다.
생성된 발화 의도 모델은 정보 처리 장치의 버퍼(buffer), 캐쉬(cache), 램(RAM; Random Access Memory), 롬(ROM; Read Only Memory), 하드 디스크, 플래시 메모리(Flash Memory)와 같은 저장장치에 미리 설정될 수 있다.
추출된 사용자의 발화 시점에 대한 정보를 기반으로 음향을 녹음하고(S140), 녹음된 음향에서 사용자의 발화를 인식할 수 있다(S150).
여기서, 추출된 사용자의 발화 시점에 대한 정보는, 정보 처리 장치에서 사용자의 발화를 인식하기 위해, 음향의 녹음을 시작해야 할 시작점 또는 시작 시간과 같은 정보를 의미할 수 있다.
정보 처리 장치에서 녹음된 음향으로부터 사용자 주변의 잡음, 사용자의 음성 및 음성이 아닌 부분을 분리하고, 분리된 사용자의 음성에서 음성 시작점 및 음성 종료점을 추출할 수 있다.
사용자의 발화는, 추출된 음성 시작점을 기준으로 미리 설정한 설정 시간만큼 앞 시간부터, 상기 추출된 음성 종료점을 기준으로 미리 설정한 설정 시간만큼 뒤 시간까지 인식될 수 있다.
여기서, 설정 시간은, 사용자의 발화를 인식할 때, 사용자 음성의 손실을 방지하기 위해 미리 설정할 수 있다.
도 6은 본 발명의 실시예에 따른 사용자의 발화가 인식되는 것을 설명하는 예시도이다.
도 6을 참조하면, 추출된 사용자의 발화 시점에 대한 정보(62)로부터 음향의 녹음을 시작하고, 녹음된 음향(63)으로부터 음성 시작점(64), 음성 종료점(65) 및 미리 설정한 설정 시간(66)을 기반으로 사용자의 발화(67)를 인식할 수 있다.
사용자의 발화 시점에 대한 정보(62)는 정보 처리 장치(20)에서 사용자의 발화를 인식하기 위해, 음향의 녹음을 시작해야 할 시작점 또는 시작 시간과 같은 정보를 의미할 수 있다.
정보 처리 장치(20)의 마이크(61)를 이용하여 사용자의 발화 시점에 대한 정보(62)로부터 사용자 음향의 녹음을 시작할 수 있다.
여기서 녹음된 음향(63)은, 사용자가 발음 기관을 통해 내는 말소리와 같은 음성뿐만 아니라 사용자의 신체에 의해 발생하는 마찰음 및 사용자 주변의 잡음을 포함할 수 있다.
녹음된 음향(63)으로부터 사용자 주변의 잡음, 사용자의 음성 및 음성이 아닌 부분을 분리하고, 분리된 사용자의 음성에서 음성 시작점(64) 및 음성 종료점(65)을 추출할 수 있다.
추출된 음성 시작점(64)을 기준으로 미리 설정한 설정 시간(66)만큼 앞 시간부터, 추출된 음성 종료점(65)을 기준으로 미리 설정한 설정 시간(66)만큼 뒤 시간까지를 사용자의 발화로 인식할 수 있다.
예를 들어, 사용자의 발화 시점에 대한 정보(62)로부터 녹음된 음향(63)의 전체 시간이 30초이며, 음성 시작점(64)은 음향의 시작 후 10초 지점으로 추출되고 음성 종료점(65)은 음향 시작 후 15초 지점으로 추출되었다고 가정할 수 있다.
여기서, 미리 설정한 설정 시간(66)을 2초로 설정하였다면, 음성 시작점 10초에서 설정 시간 2초 앞인 8초부터, 음성 종료점 15초에서 설정 시간 2초 뒤인 17초까지가 사용자의 발화로써 인식될 수 있다.
도 7은 본 발명의 실시예에 따른 발화 인식 장치를 나타내는 블록도이다.
도 7을 참조하면, 발화 인식 장치(70)는, 입력부(71), 발화 시점 추출부(75) 및 발화 인식부(77)를 포함하여 구성될 수 있다.
여기서, 발화 인식 장치(70)는, 적어도 하나의 센서를 탑재하고, 센서에 의해 입력된 신호를 처리할 수 있는 정보 처리 기능을 구비하는 스마트폰, 태블릿 PC, 노트북, 컴퓨터, 스마트 가전장치 및 시스템 로봇과 같은 정보 처리 장치를 포함할 수 있으나 이에 한정되는 것은 아니다.
입력부(71)는, 적어도 하나의 센서를 이용하여, 사용자의 영상, 음향 및 정보 처리 장치의 움직임에 대한 정보 중 적어도 하나를 포함하는 입력 데이터를 수집할 수 있다.
여기서, 센서는 정보 처리 장치에 탑재되어 사용자의 영상을 획득할 수 있는 카메라, 깊이 카메라 및 키넥트 카메라와 같은 이미지 센서 또는 변위 센서, 음향을 획득할 수 있는 마이크 및 정보 처리 장치의 움직임을 측정할 수 있는 가속도계, 자이로스코프 센서 및 근접 센서 중 적어도 하나를 포함할 수 있으나 이에 한정되는 것은 아니다.
입력부(71)는, 영상 입력 모듈(72), 움직임 입력 모듈(73) 및 음향 입력 모듈(74)을 포함할 수 있다.
영상 입력 모듈(72)은, 센서에서 수집된 사용자의 영상을 처리하여 사용자의 발화 시점에 대한 정보를 추출하기 위한 사용자의 모션을 인식할 수 있다.
예를 들어, 영상 입력 모듈(72)은 사용자의 영상을 처리하여 인식된 사용자의 모션 중에서 사용자의 동공의 위치를 추출하여, 사용자의 동공이 일정 시간동안 정보 처리 장치의 디스플레이 장치를 응시하는지를 판단할 수 있다.
만약, 사용자 동공이 일정 시간동안 모니터, 터치 스크린 및 터치 패널과 같은 디스플레이 장치를 응시하는 것이 감지되면, 사용자가 발화를 시작할 의도가 있는 것으로 판단하여 발화 시점에 대한 정보로 추출할 수 있다.
또한, 영상 입력 모듈(72)은 사용자의 영상을 처리하여 인식된 사용자의 모션 중에서 사용자의 입 모양을 추출하여, 사용자의 입이 열려있는지를 판단할 수 있다.
만약, 사용자의 입이 열려있으면 사용자가 발화를 진행하는 것으로 판단하여 발화 시점에 대한 정보로 추출할 수 있으나, 사용자의 입이 닫혀있으면 사용자가 발화를 진행하고 있지 않은 것으로 판단할 수 있다.
여기서는 사용자의 모션 중 사용자의 동공의 위치 또는 입 모양에 따라 사용자의 발화 시점에 대한 정보를 추출하는 것을 예로 들었으나, 사용자가 발화를 시작하기 위해 취하는 모든 모션들을 수집할 수 있다.
움직임 입력 모듈(73)은, 센서에서 정보 처리 장치의 가속도, 기울기 및 흔들림 중 적어도 하나를 측정하여, 사용자의 발화 시점에 대한 정보를 추출하기 위한 정보 처리 장치의 움직임을 인식할 수 있다.
음향 입력 모듈(74)은, 사용자의 발화 시점에 대한 정보를 추출하기 위해 사용자의 음향을 인식하거나, 추출된 사용자의 발화 시점에 대한 정보를 기반으로 음향을 녹음할 수 있다. 여기서, 사용자의 음향은, 사용자가 발음 기관을 통해 내는 말소리와 같은 음성 또는 사용자의 신체에 의해 발생하는 마찰음을 포함할 수 있다.
발화 시점 추출부(75)는, 입력부(71)에서 수집된 입력 데이터와 미리 설정된 발화 의도 모델(76)을 비교하여, 사용자의 발화 시점에 대한 정보를 추출할 수 있다.
발화 의도 모델(76)은, 사용자의 발화가 진행되는 상황에서의 입력 데이터를 수집하여 베이지안 네트워크(Bayesian Network) 및 은닉 마코프 모델(Hidden Markov Model) 중 적어도 하나를 포함하는 확률 기반의 모델을 이용하여 훈련시킴으로써 발화 의도 모델로 생성될 수 있으나 이에 한정되지 않고 기계 학습 기반의 분류기를 이용하여 발화 의도 모델을 생성할 수 있다.
발화 인식부(77)는, 사용자의 발화 시점에 대한 정보를 기반으로 녹음된 음향에서 상기 사용자의 발화를 인식할 수 있다.
여기서, 사용자의 발화 시점에 대한 정보는, 정보 처리 장치에서 사용자의 발화를 인식하기 위해 음향 입력 모듈(74)에서 음향의 녹음을 시작해야 할 시작점 또는 시작 시간과 같은 정보를 의미할 수 있다.
발화 인식부(77)는, 음향 입력 모듈(74)에서 녹음된 음향으로부터 사용자 주변의 잡음, 사용자의 음성 및 음성이 아닌 부분을 분리하고, 분리된 사용자의 음성에서 음성 시작점 및 음성 종료점을 추출할 수 있다.
그리하여, 추출된 음성 시작점을 기준으로 미리 설정한 설정 시간만큼 앞 시간부터, 상기 추출된 음성 종료점을 기준으로 미리 설정한 설정 시간만큼 뒤 시간까지를 사용자 발화로 인식될 수 있다.
여기서, 설정 시간은, 사용자의 발화를 인식할 때, 사용자 음성의 손실을 방지하기 위해 미리 설정할 수 있다.
발화 의도 모델(76) 및 설정 시간은, 정보 처리 장치의 버퍼(buffer), 캐쉬(cache), 램(RAM; Random Access Memory), 롬(ROM; Read Only Memory), 하드 디스크, 플래시 메모리(Flash Memory)와 같은 저장장치에 미리 설정될 수 있다.
상술한 바와 같은 발화 인식 방법 및 장치에 따르면, 사용자로부터 별도의 입력 없이도 사용자의 발화 시점에 대한 정보를 정확히 추출할 수 있기 때문에, 사용자에게 사용자 발화의 의도에 맞는 정확한 정보를 제공함과 동시에 편리함을 제공해줄 수 있다.
또한, 음성 시작점 및 음성 종료점을 추출하고, 추출된 음성 시작점을 기준으로 미리 설정한 설정 시간만큼 앞 시간부터, 추출된 음성 종료점을 기준으로 미리 설정한 설정 시간만큼 뒤 시간까지를 사용자의 발화로 인식하기 때문에 사용자의 음성을 손실없이 추출할 수 있다.
따라서, 음성을 이용하여 사용자의 발화의 의도를 파악하는 것이 요구되는 모든 대화 시스템 및 장치에 적용할 수 있다.
상기에서는 본 발명의 바람직한 실시예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.

Claims (16)

  1. 디지털 신호 처리가 가능한 정보 처리 장치에서 수행되는 발화 인식 방법에 있어서,
    적어도 하나의 센서를 이용하여, 사용자의 영상, 음향 및 상기 정보 처리 장치의 움직임에 대한 정보 중 적어도 하나를 포함하는 입력 데이터를 수집하는 단계;
    상기 수집된 입력 데이터와 미리 설정된 발화 의도 모델을 비교하여, 상기 사용자의 발화 시점에 대한 정보를 추출하는 단계; 및
    상기 추출된 사용자의 발화 시점에 대한 정보를 기반으로 상기 적어도 하나의 센서를 이용하여 음향을 녹음하고, 상기 녹음된 음향에서 상기 사용자의 발화를 인식하는 단계를 포함하는 발화 인식 방법.
  2. 청구항 1에 있어서,
    상기 사용자의 발화 시점에 대한 정보를 추출하는 단계는,
    상기 적어도 하나의 센서에서 수집된 사용자의 영상을 처리하여 사용자의 모션을 인식함으로써 상기 사용자의 발화 시점에 대한 정보를 추출하는 것을 특징으로 하는 발화 인식 방법.
  3. 청구항 2에 있어서,
    상기 사용자의 발화 시점에 대한 정보를 추출하는 단계는,
    상기 적어도 하나의 센서에서 수집된 사용자의 영상에서 사용자의 동공의 위치를 추출하여 상기 사용자의 동공이 일정 시간동안 상기 정보 처리 장치의 디스플레이 장치를 응시하는지 판단함으로써 상기 사용자의 발화 시점에 대한 정보를 추출하는 것을 특징으로 하는 발화 인식 방법.
  4. 청구항 2에 있어서,
    상기 사용자의 발화 시점에 대한 정보를 추출하는 단계는,
    상기 적어도 하나의 센서에서 수집된 사용자의 영상에서 사용자의 입 모양을 추출하여 상기 사용자의 입이 열려있는지 판단함으로써 상기 사용자의 발화 시점에 대한 정보를 추출하는 것을 특징으로 하는 발화 인식 방법.
  5. 청구항 1에 있어서,
    상기 사용자의 발화 시점에 대한 정보를 추출하는 단계는,
    상기 적어도 하나의 센서로부터 상기 정보 처리 장치의 가속도, 기울기 및 흔들림 중 적어도 하나를 측정하여 상기 정보 처리 장치의 움직임을 인식함으로써 상기 사용자의 발화 시점에 대한 정보를 추출하는 것을 특징으로 하는 발화 인식 방법.
  6. 청구항 1에 있어서,
    상기 발화 의도 모델은,
    베이지안 네트워크(Bayesian Network) 및 은닉 마코프 모델(Hidden Markov Model) 중 적어도 하나를 포함하는 확률 기반의 모델 또는 기계 학습 기반의 분류기를 이용하여 상기 입력 데이터를 기계 학습함으로써 생성되는 것을 특징으로 하는 발화 인식 방법.
  7. 청구항 1에 있어서,
    상기 사용자의 발화를 인식하는 단계는,
    상기 녹음된 음향으로부터 음성 시작점 및 음성 종료점을 추출하고, 상기 추출된 음성 시작점을 기준으로 미리 설정한 설정 시간만큼 앞 시간부터, 상기 추출된 음성 종료점을 기준으로 상기 미리 설정한 설정 시간만큼 뒤 시간까지 상기 사용자의 발화를 인식하는 것을 특징으로 하는 발화 인식 방법.
  8. 적어도 하나의 센서를 이용하여, 사용자의 영상, 음향 및 정보 처리 장치의 움직임에 대한 정보 중 적어도 하나를 포함하는 입력 데이터를 수집하는 입력부;
    상기 수집된 입력 데이터와 미리 설정된 발화 의도 모델을 비교하여, 상기 사용자의 발화 시점에 대한 정보를 추출하는 발화 시점 추출부; 및
    상기 사용자의 발화 시점에 대한 정보를 기반으로 녹음된 음향에서 상기 사용자의 발화를 인식하는 발화 인식부를 포함하는 발화 인식 장치.
  9. 청구항 8에 있어서,
    상기 입력부는,
    상기 적어도 하나의 센서에서 수집된 사용자의 영상을 처리하여 상기 사용자의 발화 시점에 대한 정보를 추출하기 위한 사용자의 모션을 인식하는 영상 입력 모듈을 포함하는 것을 특징으로 하는 발화 인식 장치.
  10. 청구항 9에 있어서,
    상기 영상 입력 모듈은,
    상기 적어도 하나의 센서에서 수집된 사용자의 영상에서 사용자의 동공의 위치를 추출하여 상기 사용자의 동공이 일정 시간동안 상기 정보 처리 장치의 디스플레이 장치를 응시하는지 인식하는 것을 특징으로 하는 발화 인식 장치.
  11. 청구항 9에 있어서,
    상기 영상 입력 모듈은,
    상기 적어도 하나의 센서에서 수집된 사용자의 영상에서 사용자의 입 모양을 추출하여 상기 사용자의 입이 열려있는지를 인식하는 것을 특징으로 하는 발화 인식 장치.
  12. 청구항 8에 있어서,
    상기 입력부는,
    상기 적어도 하나의 센서로부터 상기 정보 처리 장치의 가속도, 기울기 및 흔들림 중 적어도 하나를 측정하여 상기 사용자의 발화 시점에 대한 정보를 추출하기 위한 상기 정보 처리 장치의 움직임을 인식하는 움직임 입력 모듈을 포함하는 것을 특징으로 하는 발화 인식 장치.
  13. 청구항 8에 있어서,
    상기 입력부는,
    상기 추출된 사용자의 발화 시점에 대한 정보를 기반으로 상기 적어도 하나의 센서를 이용하여 음향을 녹음하는 음향 입력 모듈을 포함하는 것을 특징으로 하는 발화 인식 장치.
  14. 청구항 13에 있어서,
    상기 발화 인식부는,
    상기 녹음된 음향으로부터 음성 시작점 및 음성 종료점을 추출하고, 상기 추출된 음성 시작점을 기준으로 미리 설정한 설정 시간만큼 앞 시간부터, 상기 추출된 음성 종료점을 기준으로 상기 미리 설정한 설정 시간만큼 뒤 시간까지 상기 사용자의 발화를 인식하는 것을 특징으로 하는 발화 인식 장치.
  15. 청구항 8에 있어서,
    상기 발화 의도 모델은,
    베이지안 네트워크(Bayesian Network) 및 은닉 마코프 모델(Hidden Markov Model) 중 적어도 하나를 포함하는 확률 기반의 모델 또는 기계 학습 기반의 분류기를 이용하여 상기 입력 데이터를 기계 학습함으로써 생성되는 것을 특징으로 하는 발화 인식 장치.
  16. 청구항 8에 있어서,
    상기 적어도 하나의 센서는,
    상기 정보 처리 장치에 탑재되어, 사용자의 영상을 획득할 수 있는 카메라, 음향을 획득할 수 있는 마이크 및 상기 정보 처리 장치의 움직임을 측정할 수 있는 가속도계, 자이로스코프 센서 및 근접 센서 중 적어도 하나를 포함하는 것을 특징으로 하는 발화 인식 장치.
PCT/KR2013/009228 2013-04-30 2013-10-16 발화 인식 방법 및 장치 WO2014178491A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2013-0048731 2013-04-30
KR20130048731 2013-04-30

Publications (1)

Publication Number Publication Date
WO2014178491A1 true WO2014178491A1 (ko) 2014-11-06

Family

ID=51843600

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2013/009228 WO2014178491A1 (ko) 2013-04-30 2013-10-16 발화 인식 방법 및 장치

Country Status (1)

Country Link
WO (1) WO2014178491A1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110308886A (zh) * 2018-03-27 2019-10-08 三星电子株式会社 提供与个性化任务相关联的声音命令服务的系统和方法
US11327128B2 (en) 2018-05-28 2022-05-10 Koninklijke Philips N.V. Optical detection of a subject communication request

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000338987A (ja) * 1999-05-28 2000-12-08 Mitsubishi Electric Corp 発話開始監視装置、話者同定装置、音声入力システム、および話者同定システム、並びに通信システム
JP2009098217A (ja) * 2007-10-12 2009-05-07 Pioneer Electronic Corp 音声認識装置、音声認識装置を備えたナビゲーション装置、音声認識方法、音声認識プログラム、および記録媒体
JP2009175179A (ja) * 2008-01-21 2009-08-06 Denso Corp 音声認識装置、プログラム、及び発話信号抽出方法
KR20110100620A (ko) * 2008-11-10 2011-09-14 구글 인코포레이티드 멀티센서 음성 검출
JP2012014394A (ja) * 2010-06-30 2012-01-19 Nippon Hoso Kyokai <Nhk> ユーザ指示取得装置、ユーザ指示取得プログラムおよびテレビ受像機

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000338987A (ja) * 1999-05-28 2000-12-08 Mitsubishi Electric Corp 発話開始監視装置、話者同定装置、音声入力システム、および話者同定システム、並びに通信システム
JP2009098217A (ja) * 2007-10-12 2009-05-07 Pioneer Electronic Corp 音声認識装置、音声認識装置を備えたナビゲーション装置、音声認識方法、音声認識プログラム、および記録媒体
JP2009175179A (ja) * 2008-01-21 2009-08-06 Denso Corp 音声認識装置、プログラム、及び発話信号抽出方法
KR20110100620A (ko) * 2008-11-10 2011-09-14 구글 인코포레이티드 멀티센서 음성 검출
JP2012014394A (ja) * 2010-06-30 2012-01-19 Nippon Hoso Kyokai <Nhk> ユーザ指示取得装置、ユーザ指示取得プログラムおよびテレビ受像機

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110308886A (zh) * 2018-03-27 2019-10-08 三星电子株式会社 提供与个性化任务相关联的声音命令服务的系统和方法
CN110308886B (zh) * 2018-03-27 2024-03-01 三星电子株式会社 提供与个性化任务相关联的声音命令服务的系统和方法
US11327128B2 (en) 2018-05-28 2022-05-10 Koninklijke Philips N.V. Optical detection of a subject communication request

Similar Documents

Publication Publication Date Title
WO2013125910A1 (en) Method and system for authenticating user of a mobile device via hybrid biometics information
WO2020189850A1 (en) Electronic device and method of controlling speech recognition by electronic device
WO2019143022A1 (ko) 음성 명령을 이용한 사용자 인증 방법 및 전자 장치
CN106030440B (zh) 智能循环音频缓冲器
US10878819B1 (en) System and method for enabling real-time captioning for the hearing impaired via augmented reality
WO2010126321A2 (ko) 멀티 모달 정보를 이용하는 사용자 의도 추론 장치 및 방법
WO2019124742A1 (ko) 복수 화자의 음성 신호 처리 방법 및 그에 따른 전자 장치
WO2014107076A1 (en) Display apparatus and method of controlling a display apparatus in a voice recognition system
WO2020145678A1 (en) System and method for multi-spoken language detection
WO2020204655A1 (en) System and method for context-enriched attentive memory network with global and local encoding for dialogue breakdown detection
CN109754801A (zh) 一种基于手势识别的语音交互系统及方法
WO2018124633A1 (ko) 전자 장치 및 그의 메시지 전달 방법
WO2021172832A1 (ko) 제스처 인식 기반의 영상 편집 방법 및 이를 지원하는 전자 장치
WO2015016430A1 (en) Mobile device and method of controlling therefor
WO2021251539A1 (ko) 인공신경망을 이용한 대화형 메시지 구현 방법 및 그 장치
WO2019132459A1 (ko) 사용자 정서적 행동 인식을 위한 멀티 모달 정보 결합 방법 및 그 장치
WO2020159140A1 (ko) 전자 장치 및 이의 제어 방법
JP7330066B2 (ja) 音声認識装置、音声認識方法及びそのプログラム
WO2016013693A1 (ko) 단말 장치 및 단말 장치의 제어 방법
WO2014178491A1 (ko) 발화 인식 방법 및 장치
WO2020080638A1 (ko) 전자장치 및 그 제어방법
WO2021066399A1 (ko) 관계 설정을 이용한 실감형 인공지능기반 음성 비서시스템
WO2018117660A1 (en) Security enhanced speech recognition method and device
WO2019156412A1 (ko) 음성 인식 서비스 운용 방법 및 이를 지원하는 전자 장치
KR102426792B1 (ko) 무음 발화 인식 방법 및 장치

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 13883549

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 13883549

Country of ref document: EP

Kind code of ref document: A1