KR20030097309A - 한국어 철자 발화에 따른 음성인식 방법 - Google Patents

한국어 철자 발화에 따른 음성인식 방법 Download PDF

Info

Publication number
KR20030097309A
KR20030097309A KR1020020034627A KR20020034627A KR20030097309A KR 20030097309 A KR20030097309 A KR 20030097309A KR 1020020034627 A KR1020020034627 A KR 1020020034627A KR 20020034627 A KR20020034627 A KR 20020034627A KR 20030097309 A KR20030097309 A KR 20030097309A
Authority
KR
South Korea
Prior art keywords
syllable
vocabulary
korean
spelling
speech recognition
Prior art date
Application number
KR1020020034627A
Other languages
English (en)
Other versions
KR100931786B1 (ko
Inventor
최영재
Original Assignee
주식회사 케이티
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 케이티 filed Critical 주식회사 케이티
Priority to KR1020020034627A priority Critical patent/KR100931786B1/ko
Publication of KR20030097309A publication Critical patent/KR20030097309A/ko
Application granted granted Critical
Publication of KR100931786B1 publication Critical patent/KR100931786B1/ko

Links

Classifications

    • EFIXED CONSTRUCTIONS
    • E03WATER SUPPLY; SEWERAGE
    • E03CDOMESTIC PLUMBING INSTALLATIONS FOR FRESH WATER OR WASTE WATER; SINKS
    • E03C1/00Domestic plumbing installations for fresh water or waste water; Sinks
    • E03C1/12Plumbing installations for waste water; Basins or fountains connected thereto; Sinks
    • E03C1/26Object-catching inserts or similar devices for waste pipes or outlets
    • E03C1/262Object-catching inserts or similar devices for waste pipes or outlets combined with outlet stoppers
    • AHUMAN NECESSITIES
    • A47FURNITURE; DOMESTIC ARTICLES OR APPLIANCES; COFFEE MILLS; SPICE MILLS; SUCTION CLEANERS IN GENERAL
    • A47KSANITARY EQUIPMENT NOT OTHERWISE PROVIDED FOR; TOILET ACCESSORIES
    • A47K1/00Wash-stands; Appurtenances therefor
    • A47K1/10Detachable frames with hand basins mountable on baths
    • EFIXED CONSTRUCTIONS
    • E03WATER SUPPLY; SEWERAGE
    • E03CDOMESTIC PLUMBING INSTALLATIONS FOR FRESH WATER OR WASTE WATER; SINKS
    • E03C1/00Domestic plumbing installations for fresh water or waste water; Sinks
    • E03C1/12Plumbing installations for waste water; Basins or fountains connected thereto; Sinks
    • E03C1/14Wash-basins connected to the waste-pipe
    • EFIXED CONSTRUCTIONS
    • E03WATER SUPPLY; SEWERAGE
    • E03CDOMESTIC PLUMBING INSTALLATIONS FOR FRESH WATER OR WASTE WATER; SINKS
    • E03C1/00Domestic plumbing installations for fresh water or waste water; Sinks
    • E03C1/12Plumbing installations for waste water; Basins or fountains connected thereto; Sinks
    • E03C1/22Outlet devices mounted in basins, baths, or sinks

Abstract

1. 청구범위에 기재된 발명이 속한 기술분야
본 발명은 한국어 철자 발화에 따른 음성인식 방법 및 상기 방법을 실현시키기 위한 프로그램 및 데이터 구조를 기록한 컴퓨터로 읽을 수 있는 기록매체에 관한 것임.
2. 발명이 해결하려고 하는 기술적 과제
본 발명은, 음성인식의 정확도를 높이고 음성인식 결과를 빠른 시간내에 사용자에게 피드백시키기 위한 한국어 철자 발화에 따른 음성인식 방법 및 상기 방법을 실현시키기 위한 프로그램 및 데이터 구조를 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하고자 함.
3. 발명의 해결방법의 요지
본 발명은, 음성인식 시스템에 적용되는 음성인식 방법에 있어서, 한국어 자음, 모음, 음절 구분자, 어휘끝 구분자로 고립단어 음성음 사전을 구축하는 제 1 단계; 및 검색하고자 하는 입력 어휘의 철자 발음시, 상기 고립단어 음성음 사전을 바탕으로 인식된 철자들을 음절 및 어휘로 조합하여 텍스트로 인식결과를 출력하는 제 2 단계를 포함함.
4. 발명의 중요한 용도
본 발명은 음성인식 시스템 등에 이용됨.

Description

한국어 철자 발화에 따른 음성인식 방법{Method of korean utterance recognition using spelling pronunciation}
본 발명은 한국어 자음 19개, 모음 10개, 그리고 음절과 음절 사이를 구분해주는 말 1개와, 입력 음성의 끝을 표시하는 말 1개의 총 31개 고립단어를 이용하여 발화된 한국어 음절, 단어, 또는 문장을 인식하는 음성인식 방법 및 상기 방법을 실현시키기 위한 프로그램 및 데이터 구조를 기록한 컴퓨터로 읽을 수 있는 기록매체에 관한 것이다.
음성인식 전화정보 시스템은 전화망을 통해 음성을 입력시켜 어떤 정보를 요구했을 때, 이를 인식하여 관련된 정보를 제공하는 시스템이다. 예를 들면, 증권정보 안내 시스템에 있어서, 음성인식 시스템을 사용하면 사용자는 원하는 회사명에 해당되는 코드 번호를 암기할 필요없이, 회사명만을 말하면 그 회사의 주식 정보를 들을 수 있다.
일반적으로, 널리 알려진 음성인식 방법으로 은닉 마르코프 모델(HMM : Hidden Markov Model)을 사용하는 방법이 있다. 여기서, 음성인식 과정으로 비터비(Viterbi) 탐색을 실시하는데, 이는 인식대상 후보 단어들에 대한 미리 훈련하여 구축한 HMM과 현재 입력된 음성의 특징들과의 차이를 비교하여 가장 유사한 후보단어를 결정하는 과정이다.
그런데, 음성인식 과정에서는 많은 계산량을 필요로 하므로 인식할 수 있는 단어가 증가할수록 음성인식의 오율이 높아지고 응답 시간이 느려지기 때문에, 종래에는 사용자가 원하는 정보를 정확하고 신속하게 제공받을 수 없는 단점이 있었다.
즉, 현재의 한국어 음성인식 시스템의 경우, 음성인식 가능한 최대 어휘수가2천 ~ 3천 단어 정도이다. 인명 또는 상호명 114 자동안내 서비스와 같이 인식 대상 어휘수가 1만 단어를 넘거나, 인식 대상 어휘간에 유사 명칭이 많이 있는 서비스의 경우에는 현재의 한국어 음성인식 시스템으로 실용성있는 서비스를 제공하는 것이 어려운 실정이다. 또한, 인식 대상 어휘수가 2 ~ 3천 단어 이하로 이루어지는 서비스인 경우에도 지하철이나 극장 매표소, 고속버스터미널과 같이 비교적 주변 잡음이 큰 경우, 올바른 음성인식 결과를 얻기가 어려운 문제점이 있었다.
본 발명은, 상기한 바와 같은 문제점을 해결하기 위하여 제안된 것으로, 음성인식의 정확도를 높이고 음성인식 결과를 빠른 시간내에 사용자에게 피드백시키기 위한 한국어 철자 발화에 따른 음성인식 방법 및 상기 방법을 실현시키기 위한 프로그램 및 데이터 구조를 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하는데 그 목적이 있다.
도 1 은 본 발명이 적용되는 음성인식 시스템의 구성 예시도.
도 2 는 본 발명에 따른 한국어 철자 발화에 따른 음성인식 방법에 대한 일실시예 흐름도.
도 3 은 본 발명에 따라 음성인식 서비스 구현예를 나타낸 일실시예 흐름도.
도 4 는 본 발명에 따라 상기 도 3의 구체적인 서비스 구현예를 나타낸 일실시예 상세 흐름도.
* 도면의 주요 부분에 대한 부호의 설명
11 : 끝점검출기 12 : 특징추출기
13 : 비터비 탐색기 14 : 사전
상기 목적을 달성하기 위한 본 발명은, 음성인식 시스템에 적용되는 음성인식 방법에 있어서, 한국어 자음, 모음, 음절 구분자, 어휘끝 구분자로 고립단어 음성음 사전을 구축하는 제 1 단계; 및 검색하고자 하는 입력 어휘의 철자 발음시, 상기 고립단어 음성음 사전을 바탕으로 인식된 철자들을 음절 및 어휘로 조합하여 텍스트로 인식결과를 출력하는 제 2 단계를 포함하여 이루어진 것을 특징으로 한다.
또한, 본 발명은 상기 제 2 단계 수행후에, 인식결과의 텍스트 어휘를 사용해 정보를 검색하여, 검색된 텍스트 결과를 음성합성기로 음성 출력하는 제 3 단계를 더 포함하여 이루어진 것을 특징으로 한다.
또한, 본 발명은 상기 제 3 단계 수행후에, 음성 출력 결과로서의 전화번호를 사용자의 요구에 따라 자동 다이얼링하는 제 4 단계를 더 포함하여 이루어진 것을 특징으로 한다.
한편, 본 발명은 프로세서를 구비한 전자사전 시스템에, 한국어 음절의 일부(적어도 하나가 사용됨)를 구성하는 자음 구조; 상기 자음 구조와 연계하여(상기 음절에서 하나가 사용됨) 상기 음절을 구현하는 모음 구조; 상기 음절과 타 음절 사이의 관계를 밝혀, 상기 음절과 상기 타 음절을 구별하는 제1 구분자 구조; 및 상기 음절, 혹은 상기 음절 및 상기 타 음절로 이루어진 어휘의 끝을 구별하는 제2 구분자를 가지는 데이터가 기록된 컴퓨터로 읽을 수 있는 기록매체를 제공한다.
다른 한편, 본 발명은 프로세서를 구비한 음성인식 시스템에, 한국어 자음, 모음, 음절 구분자, 어휘끝 구분자로 고립단어 음성음 사전을 구축하는 제 1 기능; 및 검색하고자 하는 입력 어휘의 철자 발음시, 상기 고립단어 음성음 사전을 바탕으로 인식된 철자들을 음절 및 어휘로 조합하여 텍스트로 인식결과를 출력하는 제 2 기능을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공한다.
또한, 본 발명은 상기 제 2 기능 수행후에, 인식결과의 텍스트 어휘를 사용해 정보를 검색하여, 검색된 텍스트 결과를 음성합성기로 음성 출력하는 제 3 기능을 더 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공한다.
또한, 본 발명은 상기 제 3 기능 수행후에, 음성 출력 결과로서의 전화번호를 사용자의 요구에 따라 자동 다이얼링하는 제 4 기능을 더 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공한다.
본 발명은 한국어 자음 19개, 모음 10개, 그리고 음절과 음절 사이를 구분해 주는 말 1개와 입력 음성의 끝을 표시하는 말 1개의 총 31개 고립단어를 이용하여, 한국어 음절, 단어, 또는 문장을 인식하는 것으로, 한국어 철자 음성인식 방법은 총 31개의 고립단어만을 사용하여, 무제한의 음절 음성, 단어 음성, 또는 문장 음성을 인식할 수가 있는 장점이 있다. 특히, 음성인식 114 전화번호 안내 서비스에서는 인명 또는 상호명의 어휘 길이가 한 단어이기 때문에, 본 발명에서 제안하는 방법을 사용하면, 매우 정확한 전화번호 안내 서비스가 제공될 수 있다. 또한, 총 31개의 고립단어 음성음만 인식하면 되기 때문에, 주변 환경 잡음에 강인하며, 인식률이 거의 100%에 근접하는 대어휘 화자독립 고립단어 음성인식기의 개발이 가능하다.
상술한 목적, 특징들 및 장점은 첨부된 도면과 관련한 다음의 상세한 설명을 통하여 보다 분명해 질 것이다. 이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 일실시예를 상세히 설명한다.
도 1 은 본 발명이 적용되는 음성인식 시스템의 구성 예시도이다.
도 1에 도시된 바와 같이, 본 발명이 적용되는 음성인식시스템은, 음성이 입력되면 입력된 음성의 양끝점을 검출하는 끝점검출기(11)와, 끝점 검출된 음성신호로부터 음성의 특징을 추출하는 특징추출기(12)와, 사전(14)에 등록된 단어들에 대해 음성특징값을 이용하여 가장 유사한 단어를 선정하는 비터비 탐색기(13)를 포함한다.
여기서, 사전(14)은 한국어 자음 19개("기역(ㄱ)", "쌍기역(ㄲ)", "니은(ㄴ)", "디귿(ㄷ)", "쌍디귿(ㄸ)", "리을(ㄹ)", "미음(ㅁ)", "비읍(ㅂ)", "쌍비읍(ㅃ)", "시옷(ㅅ)", "쌍시옷(ㅆ)", "이응(ㅇ)", "지읒(ㅈ)", "쌍지읒(ㅉ)", "치읓(ㅊ)", "키읔(ㅋ)", "티읕(ㅌ)", "피읖(ㅍ)", "히읗(ㅎ)"의 19개임), 모음 10개("아(ㅏ)", "야(ㅑ)", "어(ㅓ)", "여(ㅕ)", "오(ㅗ)", "요(ㅛ)", "우(ㅜ)", "유(ㅠ)", "으(ㅡ)", "이(ㅣ)"의 10개임), 그리고 음절과 음절을 구분해 주는 말 1개(여기서는 "그리고"를 예로 사용함)와 입력 음성의 끝을 표시해주는 말 1개(여기서는 "이상"을 예로 사용함)의 총 31개 고립단어 음성음 사전이다.
비터비 탐색기(13)는 일반적인 방법으로 인식대상 후보 단어들에 대한 미리 훈련하여 구축한 HMM과 현재 입력된 음성의 특징들과의 차이를 비교하여 가장 유사한 후보단어를 결정한다.
상기한 바와 같은 구성을 갖는 본 발명이 적용되는 음성인식 시스템의 구성 및 동작은 당해 분야에서 이미 주지된 기술에 지나지 아니하므로 여기에서는 그에 관한 자세한 설명한 생략하기로 한다.
그럼, 유/무선 전화기를 통해 114 전화번호 안내 서비스 등과 같은 수만 어휘를 갖는 서비스를 음성인식에 의해, 운용자(안내원)를 통하지 않고 빠르고 정확하게 서비스할 수 있는 방안에 대해 설명하기로 한다. 예를 들면, 114 전화번호 안내 서비스의 경우, 한국어의 철자음성을 인식하여, 인식한 결과를 텍스트(text) 검색한 후, 검색 결과 전화번호를 음성합성기를 통하여 음성으로 전달해 주거나, 직접 다이얼링할 수 있게 해준다.
도 2 는 본 발명에 따른 한국어 철자 발화에 따른 음성인식 방법에 대한 일실시예 흐름도이다.
먼저, 사용자(음성 발화자)가 한국어 자음 19개("기역(ㄱ)", "쌍기역(ㄲ)", "니은(ㄴ)", "디귿(ㄷ)", "쌍디귿(ㄸ)", "리을(ㄹ)", "미음(ㅁ)", "비읍(ㅂ)", "쌍비읍(ㅃ)", "시옷(ㅅ)", "쌍시옷(ㅆ)", "이응(ㅇ)", "지읒(ㅈ)", "쌍지읒(ㅉ)", "치읓(ㅊ)", "키읔(ㅋ)", "티읕(ㅌ)", "피읖(ㅍ)", "히읗(ㅎ)"의 19개임), 모음 10개("아(ㅏ)", "야(ㅑ)", "어(ㅓ)", "여(ㅕ)", "오(ㅗ)", "요(ㅛ)", "우(ㅜ)", "유(ㅠ)", "으(ㅡ)", "이(ㅣ)"의 10개임), 그리고 음절과 음절을 구분해 주는 말 1개(여기서는 "그리고"를 예로 사용함)와 입력 음성의 끝을 표시해주는 말 1개(여기서는 "이상"을 예로 사용함)를 사용하여, 입력 어휘를 철자 발음하면(201), 이 발음은 끝점검출기(11), 특징추출기(12), 비터비 탐색기(13)를 거쳐 철자 발음을 음성인식하며(202~204), 만약 음절 끝 표시음(예를 들어, 여기서는 "그리고"를 사용함)이 인식되면(206) 현재의 입력 음절음을 저장한 후(207) 계속해서 입력되는 철자 발음을 음성인식하여(201~204) 어휘 끝 표시음(예를 들어, 여기서는 "이상"을 사용함)이 인식되면(205), 이전에 인식된 철자들을 음절 및 어휘로 조합하여 text로 인식 결과를 출력한다(208).
예를 들면, "홍길동"을 입력하려면, "히읗", "오", "이응", "그리고", "기역", "이", "리을", "그리고", "디귿", "오", "이응", "이상"을 순차적으로 철자 발음한다.
따라서, "홍길동" 입력시, 사용자가 "히읗", "오", "이응"을 순차적으로 발화하고 음절 끝 표시음인 "그리고"를 발화하면(206), "히읗, 오, 이응"이 음절 단위로 인식되어 저장되고(207), 이후 "기역", "이", "리을"을 순차적으로 발화하고 음절 끝 표시음인 "그리고"를 발화하면(206) "기역, 이, 리을"이 음절 단위로 인식되어 저장되며(207), "디귿", "오", "이응"을 순차적으로 발화하고 어휘 끝 표시음인 "이상"을 발화하면(205), "디귿, 오, 이응"을 음절 단위로 인식한 후 "히읗, 오, 이응", "기역, 이, 리을", "디귿, 오, 이응"을 각 음절 단위로 한 "홍길동"을 출력한다(208).
도 3 은 본 발명에 따라 음성인식 서비스 구현예를 나타낸 일실시예 흐름도이다.
먼저, 본 서비스를 이용하려는 사용자에게 한국어 자음 19개, 모음 10개, 그리고 음절과 음절 사이를 구분해 주는 말 1개와 입력 음성의 끝을 표시하는 말 1개의 총 31개 고립단어를 이용해 철자 발음하는 시스템 사용법을 안내한다(301). 이때, 특히 음절 끝 표시음(예를 들어, 여기서는 "그리고"를 사용함)과 어휘 끝 표시음(예를 들어, 여기서는 "이상"을 사용함)에 대해서는 사용자가 인지할 수 있도록명확하게 안내멘트를 송출한다.
상기 도 2에서의 결과로 출력된 텍스트(text) 형태의 어휘는 한국어 무제한 음성합성기를 이용하여, 텍스트를 음성으로 출력하여 입력자에게 들려 주어, 인식 결과 어휘가 정확한지의 확인 과정(303)을 거친다.
입력자가 인식 어휘가 틀린 것으로 확인하면(303), 철자 발음 재입력을 요청하여(304) 철자 발음에 의한 한국어 음성인식 과정(302)(도 2 참조)과 인식 결과 확인 과정(303)을 맞는 것으로 확인할 때까지 반복 수행하며, 인식 결과가 맞는 것으로 확인이 되면(303), 인식 결과의 텍스트 어휘를 사용하여 정보 검색을 수행한 후(305), 검색된 텍스트 결과를 입력자에게 무제한 음성합성기를 이용하여 음성 안내해 주거나, 검색 정보 안내시 자동 다이얼링할 수 있도록 해준다(306).
도 4 는 본 발명에 따라 상기 도 3의 구체적인 서비스 구현예를 나타낸 일실시예 상세 흐름도로서, 철자 음성에 의한 한국어 음성인식 방법을 이용한 한미르 전화번호 안내 서비스의 유/무선 전화번호 검색예를 나타낸다.
먼저, 서비스 이용자가 음성인식 한미르 전화번호 안내 서비스로 전화를 하면, 서비스 시스템에서 서비스 제공 방법에 대한 안내멘트를 송출한다(401)(상기 도 3의 "301" 단계 참조). 서비스 이용 방법을 아는 경우, 서비스에 대한 안내멘트를 송출하는 도중에, 언제라도 음성은 입력할 수 있다.
만약, 정확한 상호명을 알고 있는 경우에는(402), 상호명에 대한 철자 입력을 한 후(403) 정확히 되었는지 확인을 하고, 이어서 상호명의 주소지를 철자 입력한 후(404) 앞에서와 마찬가지의 확인 절차를 거친다. 이 두가지 검색어를 사용하여, 한미르 전화번호 안내 서비스에서 검색을 한다(405).
검색 결과의 상호명 업종을 한미르의 최상위 단위 업종 구분(현재, 한미르 전화번호 검색 서비스에서는 "생활서비스업", "의료서비스업", "부동산,임대업", "여행,숙박업", "정보,통신업", "연구,개발업", "전기,가스및수도사업", "식음서비스업", '금융,보험업", "운동,오락서비스업", "무역업,상품중개업", "운수관련업", "언론및광고업", "사회서비스업", "사업관련서비스업", "교육문화서비스업", "외국기관,사회단체", "제조업,도매업,소매업", "행정,국방,사회보장", "금속,재생재료,가공", "임업,농축,광업,어업", "건설업"의 총 22종의 업종 구분이 있음)에 따른 업종 종류를 무제한 한국어 음성합성기를 이용해, 안내하여 선택 요청한다(406). 그리고 나서, 검색 결과 전화국번을 모두 무제한 음성합성기를 이용해 안내하여 선택토록 요청한다(407). 이렇게 선택된 전화국번내의 동일 상호명의 전화번호가 1개인 경우에는 음성합성기를 이용하여 전화번호를 안내해 주고, 2-3초후에 자동 연결해 준다(408). 그러나, 만약에 동일한 전화국번내의 동일 상호명의 전화번호가 2개 이상이 나오면, 모두 안내해 주고 선택하도록 요청을 한다(407). 그리고, 선택된 전화번호로 2-3초후 자동 연결해 주는 것으로(408) 서비스는 종료된다.
한편, 정확한 상호명을 모르는 경우에는 업종명(한미르에서 취급하는 업종명을 숙지하고 있어야 함)을 철자 입력한 후(409) 정확히 입력되었는지 확인을 하고, 이어서 상호명의 주소지를 철자 입력한 후(410) 앞에서와 마찬가지의 확인 절차를 거친다. 이 두가지 검색어를 사용하여, 한미르 전화번호 안내 서비스에서 검색을 한다(411). 검색 결과를 바탕으로, 업종을 한미르의 최하위 단위 업종 구분에 따른업종 종류를 한국어 음성합성기를 이용해 안내하여 선택 요청한다(412). 그 결과로 나오는 모든 상호명을 안내해 주고 선택을 요청한다(413). 그리고 나서, 검색 결과의 전화국번을 모두 음성합성기를 이용해 안내하여 선택토록 요청한다(407). 이렇게 선택된 전화국번내의 동일 상호명의 전화번호가 1개인 경우에는 음성합성기를 이용하여 전화번호를 안내해 주고, 2-3초후에 자동 연결해 준다(408). 그러나, 만약에 동일한 전화국번내의 동일 상호명의 전화번호가 2개 이상이 나오면, 모두 안내해 주고 선택하도록 요청을 한다(407). 그리고, 선택된 전화번호로 2-3초후 자동 연결해 주는 것으로(408) 서비스는 종료된다.
사용자가 정확한 상호명을 모르면서 찾고자 하는 상호명의 전화번호를 성공적으로 제공받기 위해서, 사용자는 한미르 전화번호 검색서비스의 업종 분류를 잘 알고 있어야 한다.
상술한 바와 같은 본 발명의 방법은 프로그램으로 구현되어 컴퓨터로 읽을 수 있는 기록매체(씨디롬, 램, 롬, 플로피 디스크, 하드 디스크, 광자기 디스크 등)에 저장될 수 있다.
이상에서 설명한 본 발명은 전술한 실시예 및 첨부된 도면에 의해 한정되는 것이 아니고, 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능하다는 것이 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 있어 명백할 것이다.
상기한 바와 같은 본 발명은, 총 31개의 고립단어만을 이용하여, 대어휘 화자독립 음성인식을 효과적으로 수행할 수 있는데, 예를 들면 수만 어휘를 사용하는 114 전화번호 안내 서비스에서 인명 또는 상호명은 그 어휘 길이가 한 단어이기 때문에 이와 유사한 서비스에 매우 유용하며, 특히 유/무선 전화기를 이용한 음성인식 인터넷 정보 검색 서비스의 입력 기술로 활용할 수 있는 효과가 있다.
특히, 주변의 소음이 많은 자동차 운전중에는 눈과 손을 쓸 수 없는 상황이어서 원하는 사람/회사에 전화를 하고자 할 때에는, 오로지 음성만으로 전화를 걸고자 하는 사람 또는 회사의 이름을 정확하게 입력해야 하는데, 본 발명은 31개의 고립단어 음성음만 인식하면 되기 때문에, 잡음에 강한 음성인식 기능을 수행할 수 있어, 매우 유용한 입력 방식을 제공할 수 있는 효과가 있다.

Claims (8)

  1. 음성인식 시스템에 적용되는 음성인식 방법에 있어서,
    한국어 자음, 모음, 음절 구분자, 어휘끝 구분자로 고립단어 음성음 사전을 구축하는 제 1 단계; 및
    검색하고자 하는 입력 어휘의 철자 발음시, 상기 고립단어 음성음 사전을 바탕으로 인식된 철자들을 음절 및 어휘로 조합하여 텍스트로 인식결과를 출력하는 제 2 단계
    를 포함하는 한국어 철자 발화에 따른 음성인식 방법.
  2. 제 1 항에 있어서,
    상기 제 2 단계 수행후에, 인식결과의 텍스트 어휘를 사용해 정보를 검색하여, 검색된 텍스트 결과를 음성합성기로 음성 출력하는 제 3 단계
    를 더 포함하는 한국어 철자 발화에 따른 음성인식 방법.
  3. 제 2 항에 있어서,
    상기 제 3 단계 수행후에, 음성 출력 결과로서의 전화번호를 사용자의 요구에 따라 자동 다이얼링하는 제 4 단계
    를 더 포함하는 한국어 철자 발화에 따른 음성인식 방법.
  4. 제 1 항 내지 제 3 항 중 어느 한 항에 있어서,
    상기 고립단어 음성음 사전은,
    한국어 자음 19개("기역(ㄱ)", "쌍기역(ㄲ)", "니은(ㄴ)", "디귿(ㄷ)", "쌍디귿(ㄸ)", "리을(ㄹ)", "미음(ㅁ)", "비읍(ㅂ)", "쌍비읍(ㅃ)", "시옷(ㅅ)", "쌍시옷(ㅆ)", "이응(ㅇ)", "지읒(ㅈ)", "쌍지읒(ㅉ)", "치읓(ㅊ)", "키읔(ㅋ)", "티읕(ㅌ)", "피읖(ㅍ)", "히읗(ㅎ)"의 19개임), 모음 10개("아(ㅏ)", "야(ㅑ)", "어(ㅓ)", "여(ㅕ)", "오(ㅗ)", "요(ㅛ)", "우(ㅜ)", "유(ㅠ)", "으(ㅡ)", "이(ㅣ)"의 10개임), 그리고 음절과 음절을 구분해 주는 말 1개(바람직하게는 "그리고")와 입력 음성의 끝을 표시해주는 말 1개(바람직하게는 "이상")의 총 31개 고립단어 음성음 사전인 것을 특징으로 하는 한국어 철자 발화에 따른 음성인식 방법.
  5. 프로세서를 구비한 전자사전 시스템에,
    한국어 음절의 일부(적어도 하나가 사용됨)를 구성하는 자음 구조;
    상기 자음 구조와 연계하여(상기 음절에서 하나가 사용됨) 상기 음절을 구현하는 모음 구조;
    상기 음절과 타 음절 사이의 관계를 밝혀, 상기 음절과 상기 타 음절을 구별하는 제1 구분자 구조; 및
    상기 음절, 혹은 상기 음절 및 상기 타 음절로 이루어진 어휘의 끝을 구별하는 제2 구분자
    를 가지는 데이터가 기록된 컴퓨터로 읽을 수 있는 기록매체.
  6. 프로세서를 구비한 음성인식 시스템에,
    한국어 자음, 모음, 음절 구분자, 어휘끝 구분자로 고립단어 음성음 사전을 구축하는 제 1 기능; 및
    검색하고자 하는 입력 어휘의 철자 발음시, 상기 고립단어 음성음 사전을 바탕으로 인식된 철자들을 음절 및 어휘로 조합하여 텍스트로 인식결과를 출력하는 제 2 기능
    을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
  7. 제 6 항에 있어서,
    상기 제 2 기능 수행후에, 인식결과의 텍스트 어휘를 사용해 정보를 검색하여, 검색된 텍스트 결과를 음성합성기로 음성 출력하는 제 3 기능
    을 더 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
  8. 제 7 항에 있어서,
    상기 제 3 기능 수행후에, 음성 출력 결과로서의 전화번호를 사용자의 요구에 따라 자동 다이얼링하는 제 4 기능
    을 더 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
KR1020020034627A 2002-06-20 2002-06-20 한국어 철자 발화에 따른 음성인식 방법 KR100931786B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020020034627A KR100931786B1 (ko) 2002-06-20 2002-06-20 한국어 철자 발화에 따른 음성인식 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020020034627A KR100931786B1 (ko) 2002-06-20 2002-06-20 한국어 철자 발화에 따른 음성인식 방법

Publications (2)

Publication Number Publication Date
KR20030097309A true KR20030097309A (ko) 2003-12-31
KR100931786B1 KR100931786B1 (ko) 2009-12-14

Family

ID=32387862

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020020034627A KR100931786B1 (ko) 2002-06-20 2002-06-20 한국어 철자 발화에 따른 음성인식 방법

Country Status (1)

Country Link
KR (1) KR100931786B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200105264A (ko) 2019-02-28 2020-09-07 춘해보건대학교 산학협력단 구어압력측정 장치 및 방법

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR0136426B1 (ko) * 1995-01-26 1998-05-15 조백제 히든 마르코프 모델링 방식(hmm)의 음성인식 시스템에서의 음성인식 방법
KR0157026B1 (ko) * 1996-06-01 1999-02-18 이준 한국어 기본음소단위군으로 구성한 한국어 형태소 발음사전을 사용한 한국어 연속음성 인식시스템 및 그 방법
KR100323595B1 (ko) * 1998-12-17 2002-03-08 이계철 전자사전의표제어에대한결합구조정보구성방법및그를이용한전자사전검색방법
KR100304788B1 (ko) * 1999-06-16 2001-11-01 채문식 연속 음성 인식을 이용한 전화번호 안내 방법

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200105264A (ko) 2019-02-28 2020-09-07 춘해보건대학교 산학협력단 구어압력측정 장치 및 방법

Also Published As

Publication number Publication date
KR100931786B1 (ko) 2009-12-14

Similar Documents

Publication Publication Date Title
US6856956B2 (en) Method and apparatus for generating and displaying N-best alternatives in a speech recognition system
US6618702B1 (en) Method of and device for phone-based speaker recognition
Zissman et al. Automatic language identification
US6910012B2 (en) Method and system for speech recognition using phonetically similar word alternatives
Reddy Speech recognition by machine: A review
JP5014785B2 (ja) 表音ベース音声認識システム及び方法
Czech A System for Recognizing Natural Spelling of English Words
Campbell et al. Phonetic speaker recognition with support vector machines
US6067520A (en) System and method of recognizing continuous mandarin speech utilizing chinese hidden markou models
US6973427B2 (en) Method for adding phonetic descriptions to a speech recognition lexicon
US20180137109A1 (en) Methodology for automatic multilingual speech recognition
EP1617409B1 (en) Multimodal method to provide input to a computing device
US7676364B2 (en) System and method for speech-to-text conversion using constrained dictation in a speak-and-spell mode
JP2001296880A (ja) 固有名の複数のもっともらしい発音を生成する方法および装置
US20130289987A1 (en) Negative Example (Anti-Word) Based Performance Improvement For Speech Recognition
US7406408B1 (en) Method of recognizing phones in speech of any language
Menacer et al. An enhanced automatic speech recognition system for Arabic
US6963832B2 (en) Meaning token dictionary for automatic speech recognition
Hirschberg et al. Generalizing prosodic prediction of speech recognition errors
KR20130126570A (ko) 핵심어에서의 음소 오류 결과를 고려한 음향 모델 변별 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체
US7430503B1 (en) Method of combining corpora to achieve consistency in phonetic labeling
KR100931786B1 (ko) 한국어 철자 발화에 따른 음성인식 방법
Levow Adaptations in spoken corrections: Implications for models of conversational speech
Pranjol et al. Bengali speech recognition: An overview
Wong et al. Automatic language identification using discrete hidden markov model

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20121203

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20131202

Year of fee payment: 5

LAPS Lapse due to unpaid annual fee