KR20110128587A - Speech recognition system and method based on location information - Google Patents

Speech recognition system and method based on location information Download PDF

Info

Publication number
KR20110128587A
KR20110128587A KR1020100048112A KR20100048112A KR20110128587A KR 20110128587 A KR20110128587 A KR 20110128587A KR 1020100048112 A KR1020100048112 A KR 1020100048112A KR 20100048112 A KR20100048112 A KR 20100048112A KR 20110128587 A KR20110128587 A KR 20110128587A
Authority
KR
South Korea
Prior art keywords
voice
information
speech recognition
user
terminal
Prior art date
Application number
KR1020100048112A
Other languages
Korean (ko)
Inventor
황삼청
Original Assignee
엔에이치엔(주)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엔에이치엔(주) filed Critical 엔에이치엔(주)
Priority to KR1020100048112A priority Critical patent/KR20110128587A/en
Publication of KR20110128587A publication Critical patent/KR20110128587A/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1807Speech classification or search using natural language modelling using prosody or stress
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/02Services making use of location information

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

PURPOSE: A voice recognition system based on location information and method thereof are provided to recognize the voice of a user through accent or patois information. CONSTITUTION: A location identification unit(110) determines the geographic location of a terminal. A voice recognition unit(120) recognizes the voice of a user according to the geographic location of the terminal. The intonation information identification unit of the voice recognition unit(121) identifies local intonation information. The sentence decision unit(122) of the voice recognition unit determines sentences in which are located in the voice of the user through the identified intonation information.

Description

위치 정보에 기초한 음성 인식 시스템 및 방법{SPEECH RECOGNITION SYSTEM AND METHOD BASED ON LOCATION INFORMATION}Speech recognition system and method based on location information {SPEECH RECOGNITION SYSTEM AND METHOD BASED ON LOCATION INFORMATION}

본 발명은 음성 인식 시스템 및 방법에 관한 것으로써, 보다 상세하게는 위치 정보에 따라 지역별 억양, 방언 정보를 사용하여 사용자의 음성을 인식하는 음성 인식 시스템 및 방법에 관한 것이다. The present invention relates to a speech recognition system and method, and more particularly, to a speech recognition system and method for recognizing a user's voice using regional accent and dialect information according to location information.

일반적으로, 음성 인식 시스템은 인식하고자 하는 언어의 표준어와 표준어의 억양에 기초하여 음성을 인식하고 있다.In general, the speech recognition system recognizes speech based on the standard language of the language to be recognized and the intonation of the standard language.

그러나, 동일한 영어를 사용하더라고 미국인이 사용하는 영어와 영국인이 사용하는 영어 및 한국인이 사용하는 영어는 억양이 다른 경우가 종종 있으며, 이 경우에는 억양의 차이로 인하여 사용자가 의도한 단어와 다른 단어가 인식될 가능성이 있었다.However, even though the same English is spoken, English used by Americans, English used by British people, and English used by Koreans often have different accents. It was likely to be recognized.

따라서, 사용자가 음성 인식을 사용하는 장소에서 주로 사용되는 억양이나 방언으로 사용자의 음성을 인식할 수 있는 시스템 및 방법이 요구된다.Therefore, there is a need for a system and method capable of recognizing a user's voice in an intonation or dialect which is commonly used in a place where the user uses voice recognition.

본 발명은 지역별 억양 정보나 방언 정보를 사용하여 사용자의 음성을 인식함으로써 지역에 따라 다른 특징을 가진 음성에서도 사용자가 의도하는 문장을 인식할 수 있는 시스템 및 방법을 제공한다.The present invention provides a system and method for recognizing a user's intended sentence even in a voice having a different characteristic according to a region by recognizing a user's voice using regional accent information or dialect information.

또한, 본 발명은 사용자의 음성 특징에 따라 음성 인식에 사용하는 정보를 업데이트 함으로써 사용자의 음성 인식에 특화된 음성 인식 시스템 및 방법을 제공할 수도 있다.In addition, the present invention may provide a voice recognition system and method specialized for voice recognition of a user by updating information used for voice recognition according to a voice feature of the user.

본 발명의 일실시예에 따른 음성 인식 시스템은 음성 인식을 수행하는 단말기의 지리적 위치를 판단하는 위치 식별부; 및 상기 단말기의 지리적 위치에 따라 상기 사용자가 발언한 음성을 인식하는 음성 인식부를 포함한다. According to an aspect of the present invention, there is provided a speech recognition system, including: a location identifier determining a geographical location of a terminal performing speech recognition; And a voice recognition unit recognizing the voice spoken by the user according to the geographical position of the terminal.

본 발명의 일실시예에 따른 음성 인식 방법은 음성 인식을 수행하는 단말기의 지리적 위치를 판단하는 단계; 및 상기 단말기의 지리적 위치에 따라 상기 사용자가 발언한 음성을 인식하는 단계를 포함한다.Speech recognition method according to an embodiment of the present invention comprises the steps of determining the geographical location of the terminal performing the speech recognition; And recognizing the voice spoken by the user according to the geographical location of the terminal.

본 발명의 일실시예에 따르면, 지역별 억양 정보나 방언 정보를 사용하여 사용자의 음성을 인식함으로써 지역에 따라 다른 특징을 가진 음성에서도 사용자가 의도하는 문장을 인식할 수 있다.According to an embodiment of the present invention, by recognizing a user's voice using regional accent information or dialect information, a user's intended sentence may be recognized even in a voice having different characteristics according to a region.

또한, 본 발명의 일실시예에 따르면, 사용자의 음성 특징에 따라 음성 인식에 사용하는 정보를 업데이트 함으로써 사용자의 음성 인식에 특화된 음성 인식 시스템을 제공할 수도 있다.In addition, according to an embodiment of the present invention, it is possible to provide a speech recognition system specialized for speech recognition of a user by updating information used for speech recognition according to a voice characteristic of the user.

도 1은 본 발명의 일실시예에 따른 음성 인식 시스템의 세부 구성을 도시한 블록 다이어그램이다.
도 2는 본 발명에서 음성을 수집하여 음성 정보를 업데이트하는 구조를 도시한 도면이다.
도 3은 본 발명의 일실시예에 따른 음성 인식 방법을 도시한 플로우차트이다.
도 4는 본 발명의 일실시예에 따른 음성 정보 업데이트 방법을 도시한 플로우차트이다.
1 is a block diagram showing a detailed configuration of a speech recognition system according to an embodiment of the present invention.
2 is a diagram illustrating a structure of updating voice information by collecting voice in the present invention.
3 is a flowchart illustrating a speech recognition method according to an embodiment of the present invention.
4 is a flowchart illustrating a method of updating voice information according to an embodiment of the present invention.

이하, 본 발명의 실시예를 첨부된 도면을 참조하여 상세하게 설명한다. 본 발명의 일실시예에 따른 음성 인식 방법은 음성 인식 시스템에 의해 수행될 수 있다.Hereinafter, exemplary embodiments of the present invention will be described in detail with reference to the accompanying drawings. The speech recognition method according to an embodiment of the present invention may be performed by a speech recognition system.

도 1은 본 발명의 일실시예에 따른 음성 인식 시스템의 세부 구성을 도시한 블록 다이어그램이다. 1 is a block diagram showing a detailed configuration of a speech recognition system according to an embodiment of the present invention.

본 발명의 일실시예에 따른 음성 인식 시스템은 음성 인식을 수행하는 단말기의 지리적 위치에 따라 사용자가 발언한 음성을 인식함으로써 지역별 특이한 억양의 음성이나 방언도 용이하게 인식할 수 있다.The voice recognition system according to an embodiment of the present invention can easily recognize voices or dialects specific to regions by recognizing voices spoken by a user according to a geographical location of a terminal performing voice recognition.

도 1을 참고하면, 음성 인식 시스템은 위치 식별부(110), 음성 인식부(120), 검색 결과 제공부(130) 및 음성 정보 업데이트부(140)를 포함할 수 있다.Referring to FIG. 1, the speech recognition system may include a location identifier 110, a speech recognizer 120, a search result provider 130, and a voice information updater 140.

위치 식별부(110)는 음성 인식을 수행하는 단말기의 지리적 위치를 판단할 수 있다.The location identification unit 110 may determine the geographical location of the terminal performing speech recognition.

이때, 위치 식별부(110)는 위성으로부터 GPS 신호를 수신하여 단말기의 세밀한 지리적 위치를 판단할 수도 있다.At this time, the location identification unit 110 may receive a GPS signal from the satellite to determine the detailed geographical location of the terminal.

또한, 위치 식별부(110)는 단말기가 사용하는 통신망의 기지국을 판별하고, 판별된 기지국의 위치에 따라 단말기기 위치한 지역을 판단할 수도 있다.In addition, the location identification unit 110 may determine the base station of the communication network used by the terminal, and may determine the region where the terminal is located according to the determined position of the base station.

음성 인식부(120)는 사용자로부터 음성을 입력 받고, 위치 식별부(110)가 판단한 단말기의 지리적 위치에 따라 사용자가 발언한 음성을 인식할 수 있다.The voice recognition unit 120 may receive a voice from the user and recognize the voice spoken by the user according to the geographical position of the terminal determined by the location identification unit 110.

구체적으로 음성 인식부(120)는 단말기의 지리적 위치에 따라 다른 정보에 기초하여 사용자가 발언한 음성을 인식할 수 있다.In detail, the voice recognition unit 120 may recognize the voice spoken by the user based on other information according to the geographical location of the terminal.

이때, 음성 인식부(120)는 억양 정보 식별부(121), 방언 정보 식별부(123), 및 언어 정보 식별부(124) 중 적어도 하나와 문장 판단부(122)를 포함할 수 있다.In this case, the voice recognition unit 120 may include at least one of the intonation information identification unit 121, the dialect information identification unit 123, and the language information identification unit 124 and the sentence determination unit 122.

억양 정보 식별부(121)는 단말기의 지리적 위치에 기초하여 지역별로 분류된 억양 정보를 식별할 수 있다. 이때, 지역별로 분류된 억양 정보는 지역에 따라 특색을 가지는 억양이 강세를 주는 단어나 문자 및 억양 패턴의 주파수 정보를 포함할 수 있다. 구체적으로, 지역별로 분류된 억양 정보는 한국인 특유의 영어 억양, 경상도 특유의 강한 억양과 같이 지역에 따라 특색을 가지는 억양에 대한 정보일 수 있다. The intonation information identification unit 121 may identify intonation information classified by region based on the geographical location of the terminal. In this case, the intonation information classified by region may include frequency information of words, letters, and intonation patterns that accentuate the accents having characteristics according to regions. Specifically, the intonation information classified by region may be information about intonations that are characteristic of the region, such as Korean-specific English accents and Gyeongsang-do's strong accents.

일례로, 억양 정보 식별부(121)는 단말기가 경상도 지방에 위치한 경우에 경상도 억양 정보를 식별할 수 있다.For example, the intonation information identification unit 121 may identify the current state intonation information when the terminal is located in Gyeongsang province.

이때, 억양 정보 식별부(121)는 지역별로 분류된 억양 정보를 자체 데이터베이스에 저장하고 있을 수도 있고, 외부에서 수신할 수도 있다.At this time, the intonation information identification unit 121 may store the intonation information classified by region in its own database or may be received from the outside.

문장 판단부(122)는 억양 정보 식별부(121)에서 식별된 억양 정보를 이용하여 사용자의 음성에 포함된 문장을 판단할 수 있다.The sentence determination unit 122 may determine a sentence included in the user's voice using the intonation information identified by the intonation information identifying unit 121.

구체적으로 문장 판단부(122)는 억양 정보 식별부(121)에서 식별된 억양 정보에서 사용자에게 입력 받은 음성의 주파수 정보와 가장 유사도가 높은 단어를 추출하고, 추출한 단어를 문장으로 구성함으로써 사용자의 음성에 포함된 문장을 판단할 수 있다.In detail, the sentence determination unit 122 extracts a word having the most similarity to the frequency information of the voice input to the user from the intonation information identified by the intonation information identification unit 121, and configures the extracted word as a sentence to express the user's voice. The sentence included in can be determined.

또한, 문장 판단부(122)는 위치 식별부(110)가 단말기의 위치를 판단하지 못하거나, 사용자가 위치 식별부(110)의 기능을 정지 시킨 경우, 최적화된 음성 인식률을 나타내는 표준 억양 정보와 사용자의 음성에 따른 억양을 비교하여 문장을 판단할 수도 있다.In addition, the sentence determination unit 122 may include the standard intonation information indicating the optimized speech recognition rate when the position identification unit 110 does not determine the position of the terminal or when the user stops the function of the position identification unit 110. The sentence may be determined by comparing the intonation according to the voice of the user.

방언 정보 식별부(123)는 단말기의 지리적 위치에 대응하는 방언 정보를 식별할 수 있다. 이때, 지역별로 분류된 방언 정보는 지역에 따라 같은 의미이면서 다른 의미로 사용되는 단어나 문장을 표준어의 단어나 문장과 그룹화한 정보일 수 있다. 일례로, 지역별로 분류된 방언 정보는 표준어로 '괜찮습니다'와 같은 의미를 가지는 경상도 방언 '아니라예', 전라도 방언 '되써라', 및 충청도 방언 '됐슈'를 하나로 그룹화하고, 상기 단어들을 각각 표준어, 경상도 방언, 전라도 방언, 충청도 방언으로 분류할 수 있다.The dialect information identification unit 123 may identify dialect information corresponding to the geographical location of the terminal. In this case, the dialect information classified by region may be information in which words or sentences that have the same meaning and different meanings according to regions are grouped with words or sentences of standard words. For example, the dialect information categorized by region may group the Gyeongsang-do dialect 'Noye', the Jeolla-do dialect 'Let', and the Chungcheong-do dialect 'Dunshu', which have the meaning 'Okay' as the standard language, and each of the above words It can be classified into standard language, Gyeongsang dialect, Jeolla-do dialect, and Chungcheong-do dialect.

또한, 방언 정보 식별부(123)는 단말기의 지리적 위치가 충청도인 경우에 충청도 방언으로 분류된 '됐슈'를 단말기의 지리적 위치에 대응하는 방언 정보 중에 하나로 식별할 수 있다. In addition, when the geographical location of the terminal is Chungcheong-do, the dialect information identification unit 123 may identify one of the dialect information corresponding to the geographical location of the terminal when the 'Duesh' classified as the Chungcheong-do dialect.

이때, 문장 판단부(122)는 방언 정보 식별부(123)에서 식별된 방언 정보를 이용하여 사용자의 음성에 포함된 문장을 판단할 수 있다.In this case, the sentence determination unit 122 may determine a sentence included in the user's voice using the dialect information identified by the dialect information identification unit 123.

구체적으로 문장 판단부(122)는 사용자의 음성에 포함된 문장이 방언을 사용하여 구성된 경우에, 사용자의 음성에 포함된 문장의 의미를 표준어로 번역하여 인식할 수 있다.In detail, when the sentence included in the user's voice is configured using a dialect, the sentence determination unit 122 may recognize and translate the meaning of the sentence included in the user's voice into a standard language.

일례로, 단말기의 지리적 위치가 충청도이고 '됐슈'가 사용자의 음성에 포함된 경우에 문장 판단부(122)는 '괜찮습니다'로 판단 할 수 있다. For example, when the geographic location of the terminal is Chungcheongdo and 'damped' is included in the user's voice, the sentence determination unit 122 may determine that it is 'good'.

언어 정보 식별부(124)는 단말기의 지리적 위치에 대응하는 국가에 기초한 언어 정보를 식별할 수 있다.The language information identifying unit 124 may identify language information based on a country corresponding to the geographical location of the terminal.

이때, 국가에 기초한 언어 정보는 각각의 국가에서 사용되고 있는 언어에 대한 정보일 수 있다.In this case, the language information based on the country may be information about a language used in each country.

일례로, 언어 정보 식별부(124)는 단말기의 지리적 위치가 '미국'인 경우에 미국에서 사용되는 언어인 영어를 국가에 기초한 언어 정보로 식별할 수 있다.For example, the language information identification unit 124 may identify English, which is a language used in the United States, as language information based on a country when the geographical location of the terminal is 'United States'.

이때, 문장 판단부(122)는 언어 정보 식별부(124)에서 식별된 언어 정보를 이용하여 사용자의 음성에 포함된 문장을 판단할 수 있다.In this case, the sentence determination unit 122 may determine a sentence included in the user's voice using the language information identified by the language information identification unit 124.

일례로, 단말기의 지리적 위치가 미국이고 '사과'가 사용자의 음성에 포함된 경우에 문장 판단부(122)는 '사과'를 영어 표시인 'apple '로 판단 할 수 있다. For example, when the geographical location of the terminal is the United States and 'apple' is included in the user's voice, the sentence determination unit 122 may determine 'apple' as 'apple' in English.

검색 결과 제공부(130)는 음성 인식부(120)가 사용자가 발언한 음성으로부터 추출한 문장에 대응하는 검색 결과를 제공할 수 있다.The search result providing unit 130 may provide a search result corresponding to the sentence extracted by the voice recognition unit 120 from the voice spoken by the user.

구체적으로 검색 결과 제공부(130)는 웹 사이트나 기 설정된 광고에서 문장 판단부(122)가 판단한 문장을 검색하고, 검색 결과를 사용자에게 제공할 수 있다.In detail, the search result providing unit 130 may search for sentences determined by the sentence determination unit 122 in a web site or a predetermined advertisement, and provide the search results to the user.

일례로, 단말기의 지리적 위치가 미국이고 '사과'가 사용자의 음성에 포함되어 문장 판단부(122)가 '사과'의 영어 표시인 'apple'을 판단한 경우에 검색 결과 제공부(130)는 'apple'이 포함된 광고나 웹 사이트를 검색 결과로 표시할 수 있다.For example, when the geographical position of the terminal is the United States and 'apple' is included in the user's voice, and the sentence determination unit 122 determines' apple 'which is an English display of' apple ', the search result providing unit 130 is' You can display ads or websites that contain "apple" as a search result.

즉, 음성 인식 시스템은 한국어를 사용하여 한국어에 대응하는 영어 정보를 검색할 수 있다.That is, the speech recognition system may search for English information corresponding to Korean using Korean.

음성 인식 시스템은 단말기에 포함될 수도 있고, 외부 서버에 포함되어 단말기와 위치 정보 및 단말기에 입력된 사용자의 음성을 수신하고 검색 결과를 송신 할 수도 있다. The voice recognition system may be included in a terminal, or may be included in an external server to receive a terminal, location information, and a voice of a user input to the terminal, and transmit a search result.

음성 정보 업데이트부(140)는 억양 정보 식별부(121), 방언 정보 식별부(123), 및 언어 정보 식별부(124)가 사용하는 억양 정보, 방언 정보 및 언어 정보를 업데이트할 수 있다.The voice information updater 140 may update the intonation information, the dialect information, and the language information used by the intonation information identification unit 121, the dialect information identification unit 123, and the language information identification unit 124.

이때, 음성 정보 업데이트부(140)는 문장 판단부(122)가 추출한 단어의 주파수 정보와 사용자에게 입력 받은 음성의 주파수 정보가 다른 경우에 해당 단어의 주파수 정보를 사용자에게 입력 받은 음성의 주파수 정보로 변경할 수 있다.In this case, when the frequency information of the word extracted by the sentence determination unit 122 and the frequency information of the voice input to the user are different, the voice information updater 140 uses the frequency information of the voice input to the user as the frequency information of the voice input to the user. You can change it.

또한, 음성 정보 업데이트부(140)는 주파수 정보 이외에 문장 판단부(122)가 추출한 단어의 음원 패턴, 사용되는 음소에 대한 정보와 같은 특징도 사용자에게 입력 받은 음성의 특징으로 변경할 수 있다.In addition to the frequency information, the voice information updater 140 may also change features such as a sound source pattern of a word extracted by the sentence determination unit 122 and information about a phoneme to be used as a feature of the voice input to the user.

즉, 음성 정보 업데이트부(140)는 음성을 인식하기 위하여 사용하는 억양 정보, 방언 정보 및 언어 정보를 사용자의 음성 특징에 따라 변경함으로써 사용자의 음성을 보다 정확하게 인식할 수 있다.That is, the voice information updater 140 may recognize the user's voice more accurately by changing the intonation information, the dialect information, and the language information used to recognize the voice according to the voice characteristics of the user.

또한, 음성 정보 업데이트부(140)는 단말기를 사용하는 사용자들의 음성을 수집하여 억양 정보에 반영할 수도 있다. 이때, 음성을 수집하여 억양정보에 반영하는 음성 정보 업데이트부(140)는 서버의 음성 인식 시스템에 포함된 음성 정보 업데이트부(140)일 수 있다.In addition, the voice information updater 140 may collect the voices of the users who use the terminal and reflect the voices in the intonation information. In this case, the voice information updater 140 collecting the voice and reflecting the accent information may be the voice information updater 140 included in the voice recognition system of the server.

단말기를 사용하는 사용자들의 음성을 수집하여 억양 정보에 반영하는 구성은 이하 도 2를 사용하여 상세히 설명한다.The configuration of collecting the voices of users using the terminal and reflecting them in intonation information will be described in detail with reference to FIG. 2.

도 2는 본 발명에서 음성을 수집하여 음성 정보를 업데이트하는 구조를 도시한 도면이다.2 is a diagram illustrating a structure of updating voice information by collecting voice in the present invention.

본 발명에 따른 음성 인식 시스템을 포함하는 서버(210)은 도 2에 도시된 바와 같이 복수의 음성 인식 단말(220,230,240)으로부터 사용자들의 음성을 수집하고, 수집된 음성의 공통된 특징을 추출하여 음성 정보에 반영할 수 있다. 이때, 음성 정보는 억양 정보, 방언 정보 및 언어 정보 중 적어도 하나를 포함할 수 있다.As shown in FIG. 2, the server 210 including the voice recognition system according to the present invention collects voices of users from the plurality of voice recognition terminals 220, 230, and 240, and extracts common features of the collected voices into voice information. Can reflect. In this case, the voice information may include at least one of intonation information, dialect information, and language information.

이때, n개의 음성 인식 단말(220,230,240)은 하나의 도나 시, 군과 같은 특정 지역에 있는 단말기들이며, 수집된 음성의 공통된 특징은 해당 특정 지역의 음성 정보에 반영될 수 있다.In this case, the n voice recognition terminals 220, 230, and 240 are terminals located in a specific region such as one province, city, or county, and common features of the collected voices may be reflected in voice information of the specific region.

이때, 공통된 특징이 반영된 음성 정보는 해당 특정 지역에 위치한 음성 인식 단말에서 음성 인식을 하기 위하여 사용될 수 있다.In this case, the voice information reflecting the common feature may be used for voice recognition in the voice recognition terminal located in the specific region.

도 3은 본 발명의 일실시예에 따른 음성 인식 방법을 도시한 플로우차트이다.3 is a flowchart illustrating a speech recognition method according to an embodiment of the present invention.

단계(S310)에서 위치 식별부(110)는 음성 인식을 수행하는 단말기의 지리적 위치를 판단할 수 있다.In step S310, the location identification unit 110 may determine the geographical location of the terminal performing the voice recognition.

단계(S320)에서 음성 인식부(120)는 단계(S310)에서 판단된 단말기의 지리적 위치에 따라 음성 인식에 사용될 정보를 식별할 수 있다.In operation S320, the speech recognition unit 120 may identify information to be used for speech recognition according to the geographical position of the terminal determined in operation S310.

구체적으로, 억양 정보 식별부(121), 방언 정보 식별부(123), 및 언어 정보 식별부(124)는 단계(S310)에서 판단된 단말기의 지리적 위치에 따라 해당하는 억양 정보, 방언 정보, 및 언어 정보를 식별할 수 있다.In detail, the intonation information identification unit 121, the dialect information identification unit 123, and the language information identification unit 124 correspond to the intonation information, the dialect information, and the like according to the geographical position of the terminal determined in step S310. Language information can be identified.

단계(S330)에서 음성 인식부(120)는 단계(S320)에서 식별된 정보에 따라 사용자가 발언한 음성에 포함된 문장을 인식할 수 있다.In operation S330, the voice recognition unit 120 may recognize a sentence included in the voice spoken by the user according to the information identified in operation S320.

구체적으로 문장 판단부(122)는 단계(S320)에서 식별된 억양 정보, 방언 정보, 및 언어 정보 중 적어도 하나를 사용하여 사용자의 음성에 포함된 문장의 의미를 판단할 수 있다. In more detail, the sentence determination unit 122 may determine the meaning of the sentence included in the user's voice using at least one of the intonation information, the dialect information, and the language information identified in operation S320.

단계(S340)에서 검색 결과 제공부(130)는 웹 사이트나 기 설정된 광고에서 단계(S330)에서 인식된 문장을 검색할 수 있다.In operation S340, the search result providing unit 130 may search for a sentence recognized in operation S330 in a web site or a preset advertisement.

단계(S350)에서 검색 결과 제공부(130)는 단계(S340)에서 검색된 결과를 사용자에게 제공할 수 있다. In operation S350, the search result providing unit 130 may provide the user with the results searched in operation S340.

도 4는 본 발명의 일실시예에 따른 음성 정보 업데이트 방법을 도시한 플로우차트이다.4 is a flowchart illustrating a method of updating voice information according to an embodiment of the present invention.

단계(S410)에서 음성 인식부(120)는 업데이트할 정보를 설정할 수 있다. 구체적으로, 음성 인식부(120)는 사용자에게 입력 받은 음성의 특징 정보를 억양 정보, 방언 정보, 및 언어 정보 중에 어디에 업데이트할 지 설정할 수 있다.In operation S410, the speech recognition unit 120 may set information to be updated. In detail, the voice recognition unit 120 may set where to update the feature information of the voice input by the user among the intonation information, the dialect information, and the language information.

이때, 음성 인식부(120)는 억양 정보, 방언 정보, 및 언어 정보 중 적어도 하나를 업데이트할 것으로 설정할 수 있다.In this case, the voice recognition unit 120 may set to update at least one of the intonation information, the dialect information, and the language information.

단계(S420)에서 음성 인식부(120)는 사용자로부터 음성을 입력 받을 수 있다.In operation S420, the voice recognition unit 120 may receive a voice from the user.

단계(S430)에서 음성 인식부(120)는 단계(S320), 단계(S330)을 실행하여 사용자가 발언한 음성에 포함된 문장을 인식할 수 있다.In operation S430, the speech recognizer 120 may recognize sentences included in the voice spoken by the user by executing operations S320 and S330.

단계(S440)에서 음성 정보 업데이트부(140)는 단계(S430)에서 인식한 음성의 특징 정보를 단계(S410)에서 설정된 음성 정보에 업데이트할 수 있다.In operation S440, the voice information updater 140 may update the feature information of the voice recognized in operation S430 to the voice information set in operation S410.

단계(S450)에서 음성 인식부(120)는 사용자로부터 음성을 다시 입력 받는지 확인할 수 있다.In operation S450, the voice recognition unit 120 may check whether the voice is input again from the user.

단계(S460)에서 음성 인식부(120)는 단계(S440)에서 업데이트된 음성 정보를 사용하여 사용자가 발언한 음성에 포함된 문장을 인식할 수 있다.In operation S460, the voice recognition unit 120 may recognize a sentence included in the voice spoken by the user using the updated voice information in operation S440.

결국, 본 발명의 일실시예에 따르면, 지역별 억양 정보나 방언 정보를 사용하여 사용자의 음성을 인식함으로써 지역에 따라 다른 특징을 가진 음성에서도 사용자가 의도하는 문장을 인식할 수 있다.As a result, according to an embodiment of the present invention, the user's voice may be recognized by using the intonation information or the dialect information for each region, and thus the sentence intended by the user may be recognized even in the voice having different characteristics according to the region.

그리고, 본 발명의 일실시예에 따르면, 사용자의 음성 특징에 따라 음성 인식에 사용하는 정보를 업데이트 함으로써 사용자의 음성 인식에 특화된 음성 인식 시스템을 제공할 수도 있다.According to an embodiment of the present invention, a voice recognition system specialized for voice recognition of a user may be provided by updating information used for voice recognition according to a voice feature of the user.

이상과 같이 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다.As described above, the present invention has been described by way of limited embodiments and drawings, but the present invention is not limited to the above embodiments, and those skilled in the art to which the present invention pertains various modifications and variations from such descriptions. This is possible.

그러므로, 본 발명의 범위는 설명된 실시예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 한다.Therefore, the scope of the present invention should not be limited to the described embodiments, but should be determined not only by the claims below but also by the equivalents of the claims.

110: 위치 식별부
120: 음성 인식부
121: 억양 정보 식별부
122: 문장 판단부
123: 방언 정보 식별부
124: 언어 정보 식별부
110: location identification unit
120: speech recognition unit
121: intonation information identification unit
122: sentence judgment
123: dialect information identification unit
124: language information identification unit

Claims (12)

음성 인식을 수행하는 단말기의 지리적 위치를 판단하는 위치 식별부; 및
상기 단말기의 지리적 위치에 따라 상기 사용자가 발언한 음성을 인식하는 음성 인식부
를 포함하는 음성 인식 시스템.
A location identifier for determining a geographical location of a terminal performing speech recognition; And
A voice recognition unit for recognizing the voice spoken by the user according to the geographical location of the terminal
Speech recognition system comprising a.
제1항에 있어서,
상기 음성 인식부는,
상기 단말기의 지리적 위치에 기초하여 지역별로 분류된 억양 정보를 식별하는 억양 정보 식별부; 및
상기 식별된 억양 정보를 이용하여 상기 사용자의 음성에 포함된 문장을 판단하는 문장 판단부
를 포함하는 음성 인식 시스템.
The method of claim 1,
The speech recognition unit,
Intonation information identification unit for identifying intonation information classified by region based on a geographical location of the terminal; And
Sentence determination unit for determining a sentence included in the user's voice using the identified intonation information
Speech recognition system comprising a.
제1항에 있어서,
상기 음성 인식부는,
상기 단말기의 지리적 위치에 대응하는 방언 정보를 식별하는 방언 정보 식별부;
상기 식별된 방언 정보를 이용하여 상기 사용자의 음성에 포함된 문장을 판단하는 문장 판단부
를 포함하는 음성 인식 시스템.
The method of claim 1,
The speech recognition unit,
A dialect information identification unit identifying dialect information corresponding to a geographical position of the terminal;
Sentence determination unit for determining the sentences included in the user's voice using the identified dialect information
Speech recognition system comprising a.
제1항에 있어서,
상기 음성 인식부는,
상기 단말기의 지리적 위치에 대응하는 국가에 기초한 언어 정보를 식별하는 언어 정보 식별부; 및
상기 식별된 언어 정보를 이용하여 상기 사용자의 음성에 포함된 문장을 판단하는 문장 판단부
를 포함하는 음성 인식 시스템.
The method of claim 1,
The speech recognition unit,
A language information identification unit for identifying language information based on a country corresponding to the geographical location of the terminal; And
Sentence determination unit for determining a sentence included in the user's voice using the identified language information
Speech recognition system comprising a.
제2항에 있어서,
상기 음성 인식부는,
상기 단말기의 위치를 판단하지 못한 경우, 최적화된 음성 인식률을 나타내는 표준 억양 정보와 상기 사용자의 음성에 따른 억양을 비교하여 문장을 판단하는 것을 특징으로 하는 음성 인식 시스템.
The method of claim 2,
The speech recognition unit,
And when the location of the terminal cannot be determined, the sentence is judged by comparing the standard intonation information indicating the optimized speech recognition rate with the intonation according to the user's voice.
제1항에 있어서,
상기 사용자가 발언한 음성으로부터 추출한 문장에 대응하는 검색 결과를 제공하는 검색 결과 제공부
를 더 포함하는 음성 인식 시스템.
The method of claim 1,
A search result providing unit providing a search result corresponding to a sentence extracted from the voice spoken by the user
Speech recognition system further comprising.
음성 인식을 수행하는 단말기의 지리적 위치를 판단하는 단계; 및
상기 단말기의 지리적 위치에 따라 상기 사용자가 발언한 음성을 인식하는 단계
를 포함하는 음성 인식 방법.
Determining a geographical location of a terminal performing speech recognition; And
Recognizing the voice spoken by the user according to the geographical location of the terminal
Speech recognition method comprising a.
제7항에 있어서,
상기 음성을 인식하는 단계는,
상기 단말기의 지리적 위치에 기초하여 지역별로 분류된 억양 정보를 식별하는 단계; 및
상기 식별된 억양 정보를 이용하여 상기 사용자의 음성에 포함된 문장을 판단하는 단계
를 포함하는 음성 인식 방법.
The method of claim 7, wherein
Recognizing the voice,
Identifying intonation information classified by region based on a geographical location of the terminal; And
Determining a sentence included in the voice of the user by using the identified intonation information
Speech recognition method comprising a.
제7항에 있어서,
상기 음성을 인식하는 단계는,
상기 단말기의 지리적 위치에 대응하는 방언 정보를 식별하는 단계; 및
상기 식별된 방언 정보를 이용하여 상기 사용자의 음성에 포함된 문장을 판단하는 단계
를 포함하는 음성 인식 방법.
The method of claim 7, wherein
Recognizing the voice,
Identifying dialect information corresponding to a geographical location of the terminal; And
Determining a sentence included in the voice of the user by using the identified dialect information
Speech recognition method comprising a.
제7항에 있어서,
상기 음성을 인식하는 단계는,
상기 단말기의 지리적 위치에 대응하는 국가에 기초한 언어 정보를 식별하는 단계; 및
상기 식별된 언어 정보를 이용하여 상기 사용자의 음성에 포함된 문장을 판단하는 단계
를 포함하는 음성 인식 방법.
The method of claim 7, wherein
Recognizing the voice,
Identifying language information based on a country corresponding to the geographic location of the terminal; And
Determining a sentence included in the voice of the user by using the identified language information
Speech recognition method comprising a.
제8항에 있어서,
상기 음성을 인식하는 단계는,
상기 단말기의 위치를 판단하지 못한 경우, 최적화된 음성 인식률을 나타내는 표준 억양 정보와 상기 사용자의 음성에 따른 억양을 비교하여 문장을 판단하는 것을 특징으로 하는 음성 인식 방법.
The method of claim 8,
Recognizing the voice,
And when the location of the terminal cannot be determined, the sentence is determined by comparing the standard intonation information representing the optimized speech recognition rate with the intonation according to the user's voice.
제7항에 있어서,
상기 사용자가 발언한 음성으로부터 추출한 문장에 대응하는 검색 결과를 제공하는 단계
를 더 포함하는 음성 인식 방법.
The method of claim 7, wherein
Providing a search result corresponding to a sentence extracted from the voice spoken by the user
Speech recognition method further comprising.
KR1020100048112A 2010-05-24 2010-05-24 Speech recognition system and method based on location information KR20110128587A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020100048112A KR20110128587A (en) 2010-05-24 2010-05-24 Speech recognition system and method based on location information

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020100048112A KR20110128587A (en) 2010-05-24 2010-05-24 Speech recognition system and method based on location information

Related Child Applications (1)

Application Number Title Priority Date Filing Date
KR1020120151638A Division KR101397825B1 (en) 2012-12-24 2012-12-24 Speech recognition system and method based on location information

Publications (1)

Publication Number Publication Date
KR20110128587A true KR20110128587A (en) 2011-11-30

Family

ID=45396749

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020100048112A KR20110128587A (en) 2010-05-24 2010-05-24 Speech recognition system and method based on location information

Country Status (1)

Country Link
KR (1) KR20110128587A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105609101A (en) * 2014-11-14 2016-05-25 现代自动车株式会社 Speech recognition system and speech recognition method

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105609101A (en) * 2014-11-14 2016-05-25 现代自动车株式会社 Speech recognition system and speech recognition method

Similar Documents

Publication Publication Date Title
US11817101B2 (en) Speech recognition using phoneme matching
US9742912B2 (en) Method and apparatus for predicting intent in IVR using natural language queries
EP2863300B1 (en) Function execution instruction system, function execution instruction method, and function execution instruction program
US9020819B2 (en) Recognition dictionary system and recognition dictionary system updating method
CN105895103B (en) Voice recognition method and device
US8521539B1 (en) Method for chinese point-of-interest search
JP5089955B2 (en) Spoken dialogue device
US8996385B2 (en) Conversation system and conversation software
KR100792208B1 (en) Method and Apparatus for generating a response sentence in dialogue system
CN103065630A (en) User personalized information voice recognition method and user personalized information voice recognition system
JP2001005488A (en) Voice interactive system
US20150081294A1 (en) Speech recognition for user specific language
Meena et al. Automatic detection of miscommunication in spoken dialogue systems
US10741178B2 (en) Method for providing vehicle AI service and device using the same
JP2002123290A (en) Speech recognition device and speech recognition method
JP7279636B2 (en) Information processing device, information processing method, and program
Gandhe et al. Using web text to improve keyword spotting in speech
KR102017229B1 (en) A text sentence automatic generating system based deep learning for improving infinity of speech pattern
JP7096199B2 (en) Information processing equipment, information processing methods, and programs
KR101397825B1 (en) Speech recognition system and method based on location information
KR20210130024A (en) Dialogue system and method of controlling the same
US20200372110A1 (en) Method of creating a demographic based personalized pronunciation dictionary
KR20110128587A (en) Speech recognition system and method based on location information
JP5696638B2 (en) Dialog control apparatus, dialog control method, and computer program for dialog control
KR20060098673A (en) Method and apparatus for speech recognition

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
AMND Amendment
E90F Notification of reason for final refusal
AMND Amendment
E601 Decision to refuse application
AMND Amendment
E801 Decision on dismissal of amendment
A107 Divisional application of patent