KR101696555B1

KR101696555B1 - 영상 또는 지리 정보에서 음성 인식을 통한 텍스트 위치 탐색 시스템 및 그 방법

Info

Publication number: KR101696555B1
Application number: KR1020150140428A
Authority: KR
Inventors: 양일호; 유하진
Original assignee: 서울시립대학교 산학협력단
Priority date: 2015-10-06
Filing date: 2015-10-06
Publication date: 2017-02-02

Abstract

본 발명은, 음성인식을 이용해서 복수의 텍스트에서 인식된 음성이 지칭하는 텍스트의 위치를 탐색하는 시스템 및 그 방법에 관한 발명이다. 보다 구체적으로 사용자로부터 음성신호를 수신하는 마이크, 수신된 음성신호를 이진화하여 검색용 음성 데이터로 변환하는 음성인식부, 복수의 텍스트에서 상기 검색용 음성 데이터에 일치하는 제1 검색결과를 추출하는 제어부 및 상기 제1 검색결과를 하이라이트 처리하여 표시하는 디스플레이부를 포함하는 것을 특징으로 한다.

Description

영상 또는 지리 정보에서 음성 인식을 통한 텍스트 위치 탐색 시스템 및 그 방법 {TEXT LOCATION SEARCH SYSTEM IN IMAGE INFORMATION OR GEOGRAPHIC INFORMATION USING VOICE RECOGNITION FUNCTION AND METHOD THEREOF}

본 발명은, 음성인식을 이용해서 복수의 텍스트에서 인식된 음성이 지칭하는 텍스트의 위치를 탐색하는 시스템 및 그 방법에 관한 발명이다.

최근 스마트폰의 발달과 보급으로 인해 스마트폰을 이용하는 사람이 크게 증가하였다. 스마트폰의 하드웨어 및 소프트웨어는 비약적으로 발전하고 있으며, 각종 애플리케이션을 활용함으로써 우리의 생활은 상상하기 어려운 수준으로 다양화되고 있다.

스마트폰은 단순히 핸드폰 이외에도 컴퓨터, mp3, 동영상 플레이어 등 많은 기능을 갖으며, 원하는 정보를 언제, 어디서든 쉽게 얻을 수 있다는 장점과 오락성을 포함한 여러 가지 이점 때문에 현대인들의 전폭적인 사랑을 받고 있다.

특히 스마트폰은 최근 급격한 성능의 발달을 통해 종래의 PC를 이용해야 했던 서비스를 대체 이용할 수 있으며, 언제 어디서든 사용가능하다는 편의성을 통해 사용자가 더욱 빈번하게 사용하는 특징이 있다.

사용자들은 스마트폰을 전화, 문자메세지 외에 일정관리, 사진 동영상 음악, 이메일, 게임 및 인터넷 등 다양한 방식으로 사용을 할 수 있게 되어, 하루에 스마트폰을 이용하는 시간 비율이 높아지고 있다.

스마트폰의 이용인구가 늘어나게 되면서 다양한 방식의 애플리케이션도 개발이 되고 있으며, 그에 맞게 사용자에게 제공되는 서비스도 다양해지는 장점이 있다.

특히, 최근 스마트폰은 실시간 번역기능도 제공하고 있으며, 사용자의 음성인식을 통해 스마트폰을 제어하는 서비스도 제공되고 있다.

다만, 이러한 기능들은 스마트폰에서 각각 개별적으로 이용되고 있으며, 실사용자의 요구에 맞게 제공되고 있지 않은 실정이다.

일례로서, 해외여행을 하는 경우, 해외의 지도, 지하철 노선도와 같은 지리 정보에서 외국어가 미숙한 사용자는 목적지를 빠르게 검색할 수 없다. 또한, 인명록에서 원하는 사람의 이름을 빠르게 검색하지 못하는 것과 같이, 대량의 텍스트에서 필요한 대상의 위치를 빠르게 검색할 필요가 있다. 이는 텍스트가 많거나, 사용자가 해당 텍스트의 언어에 익숙하지 않을수록 더욱 심한 문제가 있어, 이를 해결하기 위한 요구가 있다.

대한민국 특허청 공개특허공보 제10-2010-0001063호

본 발명은 상기와 같은 문제점을 해결하기 위해 안출된 것으로서, 사용자의 음성을 인식하여 사용자의 발화에 일치하는 텍스트를 검색하는 장치 및 방법을 사용자에게 제공하는데 그 목적이 있다.

또한, 카메라를 통해 촬영한 영상 데이터에서 사용자의 발화에 일치하는 텍스트를 검색하는 장치 및 방법을 사용자에게 제공하는데 그 목적이 있다.

한편, 본 발명에서 이루고자 하는 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급하지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.

상기 안출된 문제점을 해결하기 위한 음성인식을 통한 텍스트 위치 탐색 시스템 일례는, 사용자로부터 음성신호를 수신하는 마이크, 수신된 음성신호를 이진화하여 검색용 음성 데이터로 변환하는 음성인식부, 복수의 텍스트에서 상기 검색용 음성 데이터에 일치하는 제1 검색결과를 추출하는 제어부 및 상기 제1 검색결과를 하이라이트 처리하여 표시하는 디스플레이부를 포함할 수 있다.

또한, 촬영을 통해 영상 이미지를 획득하는 카메라를 포함하고 상기 복수의 텍스트는 획득된 상기 영상 이미지에서 추출될 수 있다.

또한, 획득된 상기 영상 이미지는, 전처리를 통해 흔들림, 기울어짐을 보정하여 상기 영상 이미지에서 문자를 추출하는 문자 추출부를 포함할 수 있다.

또한, 데이터의 저장 및 관리를 위한 메모리를 더 포함하고, 상기 복수의 텍스트는 상기 메모리에 저장된 지리 정보에 포함된 텍스트일 수 있다.

또한, 상기 제어부는, 상기 복수의 텍스트를 상기 음성 데이터와 일치하는 정도에 따라 순차적으로 목록화할 수 있다.

또한, 상기 제어부는, 목록화된 상기 복수의 텍스트에서 일치하는 정도가 가장 높은 텍스트를 상기 제1 검색결과로 결정하고, 상기 복수의 텍스트에서 상기 음성 데이터와 일치하는 텍스트가 2개이상인 경우, 상기 디스플레이부는, 상기 제1 검색결과를 하이라이트 처리하지 않고, 목록화된 상기 복수의 텍스트를 표시할 수 있다.

또한, 상기 사용자가 목록화된 상기 복수의 텍스트 중 하나를 선택하는 경우, 상기 제어부는 선택된 텍스트를 상기 제1 검색결과로 결정할 수 있다.

또한, 상기 제어부는, 음성인식률을 향상하기 위해, 결정된 상기 제1 검색결과와 상기 음성 데이터를 차기 음성인식을 통한 텍스트 위치 탐색에 이용할 수 있다.

또한, 상기 음성인식부는, 상기 음성신호에서 중요부를 추출하고, 상기 제어부는, 상기 복수의 텍스트에서 상기 중요부가 일치하는 텍스트를 1차 추출하고, 1차 추출된 상기 텍스트에서 상기 제1 검색결과를 2차 추출할 수 있다.

또한, 상기 음성인식부는, 상기 음성신호에서 음절 사이의 간격을 이용하여 중요부를 추출하거나, 상기 음성신호에서 고유명사와 보통명사를 분리하여 상기 고유명사를 중요부로 추출하거나, 상기 음성신호에서 강세를 이용하여 중요부를 추출할 수 있다.

또한, 복수 국가에서의 상기 복수의 텍스트의 발음행태를 저장하는 메모리를 포함하고, 상기 제어부는, 저장된 복수 국가에서 발음행태 중 적어도 하나가 상기 음성 데이터와 일치하는 제1 검색결과를 추출할 수 있다.

또한, 인터넷을 통해 서버와 연결되는 무선통신부를 포함하고, 상기 제어부는, 상기 무선통신부를 통해 상기 서버에서 복수 국가에서의 상기 복수의 텍스트의 발음행태를 검색하고, 검색된 복수 국가에서 발음행태 중 적어도 하나가 상기 음성 데이터와 일치하는 제1 검색결과를 추출할 수 있다.

한편, 상기와 같은 문제점을 해결하기 위한 음성인식을 통한 텍스트 위치 탐색 방법 일례는, 스마트 디바이스가 사용자로부터 마이크를 통해 음성신호를 입력받는 제1 단계, 음성인식부가 상기 입력받은 음성신호를 이진화하여 검색용 음성 데이터로 변환하는 제2 단계, 제어부가 복수의 텍스트에서 상기 검색용 음성 데이터에 일치하는 제1 검색결과를 추출하는 제3 단계 및 디스플레이부가 상기 제1 검색결과를 하이라이트 처리하여 표시하는 제4 단계를 포함할 수 있다.

또한, 상기 제1 단계 이전에, 카메라를 통해 영상 데이터를 촬영하는 단계 및 촬영된 영상 데이터에서 상기 복수의 텍스트를 추출하는 단계를 포함할 수 있다.

또한, 상기 제3 단계는, 제어부가 상기 복수의 텍스트를 상기 음성 데이터와 일치하는 정도에 따라 순차적으로 목록화하는 제3-1 단계, 제어부가 목록화된 상기 복수의 텍스트에서 일치하는 정도가 가장 높은 텍스트를 상기 제1 검색결과로 결정하는 제3-2 단계 및 제어부가 상기 제1 검색결과와 상기 음성 데이터가 일치하는지 판단하는 제3-3 단계를 포함할 수 있다.

또한, 상기 제3-3 단계에서, 상기 제1 검색결과와 상기 음성 데이터가 일치하지 않거나, 상기 복수의 텍스트에서 상기 음성 데이터와 일치하는 텍스트가 2개이상인 경우, 상기 제4 단계는, 상기 디스플레이부가 상기 제1 검색결과를 하이라이트 처리하지 않고, 목록화된 상기 복수의 텍스트를 표시할 수 있다.

또한, 상기 제4 단계는, 목록화된 상기 복수의 텍스트 중 하나를 선택하는 상기 사용자의 행위에 대응하여 상기 제어부가 선택된 텍스트를 상기 제1 검색결과로 결정하는 제4-1 단계를 포함할 수 있다.

본 발명은 사용자의 음성을 인식하여 사용자의 발화에 일치하는 텍스트를 검색하는 장치 및 방법을 사용자에게 제공할 수 있다. 일례로서 지리 정보에서 해당되는 지명을 검색하거나, 인명록에서 해당되는 인물을 검색할 수 있다.

또한, 카메라를 통해 촬영한 영상 데이터에서 사용자의 발화에 일치하는 텍스트를 검색하는 장치 및 방법을 사용자에게 제공할 수 있다. 일례로서, 지하철 노선도를 카메라를 통해 촬영한 영상 데이터에서 지명과 같은 정보를 추출하여 사용자의 음성에 대응하는 지명을 검색할 수 있다.

한편, 본 발명에서 얻을 수 있는 효과는 이상에서 언급한 효과들로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.

본 명세서에 첨부되는 다음의 도면들은 본 발명의 바람직한 일 실시례를 예시하는 것이며, 발명의 상세한 설명과 함께 본 발명의 기술적 사상을 더욱 이해시키는 역할을 하는 것이므로, 본 발명은 그러한 도면에 기재된 사항에만 한정되어 해석되어서는 아니 된다.
도 1은 본 발명에 적용될 수 있는, 스마트 디바이스(100)의 블록도 일례를 도시한 것이다.
도 2는 본 발명에 적용될 수 있는, 음성인식을 통한 텍스트 위치 탐색 방법에 관한 흐름도이다.
도 3a 내지 도 3f는 본 발명에 적용될 수 있는, 지하철 노선도에서 사용자가 원하는 역명을 찾는 과정 일례를 나타낸 것이다.

이하, 도면을 참조하여 본 발명의 바람직한 일 실시례에 대해서 설명한다. 또한, 이하에 설명하는 일 실시례는 특허청구범위에 기재된 본 발명의 내용을 부당하게 한정하지 않으며, 본 실시 형태에서 설명되는 구성 전체가 본 발명의 해결 수단으로서 필수적이라고는 할 수 없다.

또한, 명세서 전체에서 어떤 부분이 다른 부분과 연결되어 있다고 할 때, 이는 직접적으로 연결되어 있는 경우 외에도 중간에 다른 소자를 사이에 두고 전기적으로 연결되어 있는 경우도 포함한다. 그리고 어떤 부분이 어떤 구성요소를 포함한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.

<구성>

도 1은 본 발명에 적용될 수 있는, 스마트 디바이스(100)의 블록도 일례를 도시한 것이다.

스마트 디바이스(100)는 인터넷(300)을 통해 서버(200)에 접속할 수 있는 단말기로서, 개인용 컴퓨터(100a), 스마트폰(100b), 모바일 태블릿(100c), 웨어러블 디바이스 등이 포함될 수 있다.

최근에는 기술의 발달로 인하여 스마트폰(100b)의 성능이 높아지고 있고, 언제 어느 곳에서든 인터넷에 용이하게 접속할 수 있으며, 개인용 컴퓨터(100a)에 비하여 사용자가 소지하기 편하므로, 스마트폰(100b)이 본 발명의 시스템에 접속하기 위한 스마트 디바이스(100)에 가장 적합하다.

도 1을 참조하면, 본 발명에 적용될 수 있는 스마트 디바이스(100)는 무선통신부(110), 카메라(120), 사용자 입력부(130), 음성 인식부(140), 출력부(150), 메모리(160), 문자 인식부(170), 제어부(180), 전원공급부(190)를 포함할 수 있다.

무선 통신부(110)는 스마트 디바이스(100)와 무선 통신 시스템 사이 또는 스마트 디바이스(100)와 스마트 디바이스(100)가 위치한 네트워크 사이의 무선 통신을 가능하게 하는 하나 이상의 모듈을 포함할 수 있다.

예를 들어, 무선 통신부(110)는 이동통신 모듈(112), 무선 인터넷 모듈(113), 근거리 통신 모듈(114) 및 위치정보 모듈(115) 등을 포함할 수 있다.

이동통신 모듈(112)은, 이동 통신망 상에서 기지국, 외부의 스마트 디바이스(100), 서버(200) 중 적어도 하나와 무선 신호를 송수신한다. 무선 인터넷 모듈(113)은 무선 인터넷 접속을 위한 모듈을 말하는 것으로, 스마트 디바이스(100)에 내장되거나 외장될 수 있다.

무선 인터넷 모듈(113)은 무선 인터넷 접속을 위한 모듈을 말하는 것으로, 스마트 디바이스(100)에 내장되거나 외장될 수 있다.

상기 무선 인터넷의 기술로는 WLAN(Wireless LAN)(Wi-Fi), Wibro(Wireless broadband), Wimax(World Interoperability for Microwave Access), HSDPA(High Speed Downlink Packet Access) 등이 이용될 수 있다.

근거리 통신 모듈(114)은 근거리 통신을 위한 모듈을 말한다. 상기 근거리 통신(short range communication)의 기술로는 블루투스(Bluetooth), RFID(Radio Frequency Identification), 적외선 통신(IrDA, infrared Data Association), UWB(Ultra Wideband), ZigBee 등이 이용될 수 있다.

위치 정보 모듈(115)은 스마트 디바이스(100)의 위치를 획득하기 위한 모듈로서, 그의 대표적인 예로는 GPS(Global Position System) 모듈이 있다.

현재 기술에 의하면, GPS모듈(115)은 3개 이상의 위성으로부터 떨어진 거리 정보와 정확한 시간 정보를 산출한 다음 상기 산출된 정보에 삼각법을 적용함으로써, 위도, 경도, 및 고도에 따른 3차원의 현 위치 정보를 정확히 산출할 수 있다.

현재, 3개의 위성을 이용하여 위치 및 시간 정보를 산출하고, 또 다른 1개의 위성을 이용하여 상기 산출된 위치 및 시간 정보의 오차를 수정하는 방법이 널리 사용되고 있다. 또한, GPS 모듈(115)은 현 위치를 실시간으로 계속 산출함으로써 속도 정보를 산출할 수 있다.

카메라(120)는 화상 통화모드 또는 촬영 모드에서 이미지 센서에 의해 얻어지는 정지영상 또는 동영상 등의 화상 프레임을 처리한다. 처리된 화상 프레임은 디스플레이부(151)에 표시될 수 있다.

카메라(120)를 통해 판매물품의 이미지를 획득할 수 있고, 제어부(180)는 획득된 이미지를 이용하여 판매물품에 관한 정보를 추출할 수 있다. 이때 추출되는 정보에는 상품의 형태, 상태, 분류, 제품명, 범주 등을 포함할 수 있다.

사용자 입력부(130)는 스마트 디바이스(100)의 동작 제어를 위한 입력 데이터를 발생시킨다.

사용자 입력부(130)는 본 발명에 따라 표시되는 컨텐트들 중 두 개 이상의 컨텐트를 지정하는 신호를 사용자로부터 수신할 수 있다. 그리고, 두 개 이상의 컨텐트를 지정하는 신호는, 터치입력을 통하여 수신되거나, 하드키 및 소프트 키입력을 통하여 수신될 수 있다.

사용자 입력부(130)는 상기 하나 또는 둘 이상의 컨텐트들을 선택하는 입력을 사용자로부터 수신할 수 있다. 또한, 사용자로부터 스마트 디바이스(100)가 수행할 수 있는 기능과 관련된 아이콘을 생성하는 입력을 수신할 수 있다.

사용자 입력부(130)는 방향키, 키 패드(key pad), 돔 스위치 (dome switch), 터치 패드(정압/정전), 조그 휠, 조그 스위치 등으로 구성될 수 있다.

음성 인식부(140)는 사용자로부터 입력된 소리 데이터를 전처리하고 음성을 추출하는 전처리부(141), 추출된 음성을 분석하는 음성분석부(142)를 포함할 수 있다.

전처리부(141)는 소리 데이터를 전처리할 수 있다. 이때 전처리는 기 설정된 음원 방향을 제외한 타 음원 방향에서 발생한 신호를 제거할 수 있고, 소리 데이터에서 모음 특징을 이용하여 음성 구간을 검출할 수 있으며, 특정 방향에서 발생한 신호만을 음성으로 결정할 수 있다. 이때, 음향 위치를 추적하는 방법은 SRP(steered response power)와 같은 조향된 빔 형성기(steered beamformer)를 이용하거나, MUSIC(multiple signal classification)과 같은 고해상도 스펙트럼 추정(high resolution spectral estimation)을 이용하거나, GCC(generalized cross correlation)과 같은 도착 지연 시간(time delay of arrival)을 이용하는 방법 등이 활용될 수 있다.

또한 스마트 디바이스(100)에 포함된 마이크를 통해 입력되는 소리 데이터는 스피커를 통해 출력된 소리가 마이크로 입력되는 때 발생하는 음향 반향을 제거할 수 있다. 스피커로 인가되는 출력 신호를 특정필터로 사용하여 마이크를 통해 입력된 소리 데이터에서 스피커의 출력 신호를 제거하는 방법을 통해 음향 반향을 제거할 수 있다. 사용되는 알고리즘은 LMS(least mean square), NLMS(normalised least mean square), RLS(recursive least square) 등이 있고, 이를 이용한 음향 반향 제거에 관한 자세한 설명은 생략한다.

전처리부(141)는 소리 데이터에서 음성 인식에 불필요한 잡음을 제거할 수 있다. 일례로서, 신호들에 대한 빔 패턴(beam pattern) 중에서 미리 설정된 음원 방향에 해당하는 메인 로브(main lobe)를 제외한 사이드 로브(side lobe)에 대한 제거 신호를 생성하는 방법이 고려될 수 있다. 이때, 빔 패턴은 스피커 및 마이크 등의 신호 입출력 장치에서 입사 또는 방사되는 전자기파의 전계강도(electric field strength)를 측정하여 그래프로 표시한 것을 의미하고, 그래프의 기준점으로부터 멀리 떨어져 있을수록 전계강도가 크며, 이는 해당 방향으로 지향성을 갖는다는 것을 의미한다. 빔 패턴에서는 중앙의 메인 로브(main lobe)를 중심으로 좌우로 작고 가는 빔 패턴들이 나타나고, 지향성이 강하게 나타나는 메인 로브를 제외한 작고 가는 빔 패턴들을 사이드 로브(sibe lobe)라고 하며, 사이드 로브는 방사 패턴에서의 불균일 방사 패턴으로서 나타나게 된다. 사이드 로브 또는 불균일 방사 패턴은 음향 기기에서의 지향성과 같은 음장 특성이 수렴하는 것을 방해한다. 그러므로 신호에 독립적인 빔 형성 기법의 출력 신호에 존재하는 사이드 로브 신호를 적응적으로 제거함으로서 대상 신호에 대한 지향성을 향상시킬 수 있다. 음성 신호와 잡음이 포함된 혼합 신호가 입력되면 우선, 고정 필터(fixed filter)를 이용하여 고정 빔 형성(fixed beamforming)함으로써 신호를 증폭시킨다. 한편, 블록킹 매트릭스(blocking matrix)를 통해 혼합 신호로부터 잡음 신호만을 추출하여 이를 제거 신호로 선택하고, 혼합 신호와 생성된 제거 신호를 합성함으로써 잡음 신호를 제거할 수 있다.

전처리부(141)는 소리 데이터에서 모음 특징을 이용하여 음성 구간을 검출할 수 있으며, 이를 위해 미리 학습 단계를 통해 모음의 주파수 스펙트럼에서 특징 피크(characteristic peak)가 위치한 피크대역(peak band)을 나타내는 모음 특징 정보를 저장할 수 있다. 모음의 스펙트럼에서 특징 피크를 추출함에 있어서, 연산의 단순화를 위해 모음의 스펙트럼 피크들 중 미리 결정된 문턱값(threshold)보다 큰 에너지를 지니는 피크를 특징 피크로 추출할 수 있다. 모음의 스펙트럼에서 특징 피크가 위치한 피크 대역을 나타내는 모음 특징 정보를 미리 저장할 수 있으며, 모음의 전체 스펙트럼 대역을 일정 개수의 단위 대역으로 구별하여, 모음의 스펙트럼에서 피크 대역에 해당하는 단위 대역을 1로 나타내고, 피크 대역 이외의 대역인 밸리 대역(valley band)에 해당하는 단위 대역을 0으로 나타냄으로써 모음 특징 정보를 생성할 수 있다. 저장된 모음 특징 정보가 나타내는 피크 대역에 대응하는 대응 대역 및 대응 대역을 제외한 비대응 대역의 평균 에너지를 이용하여 강화된 대상 신호들 중 음성에 해당하는 구간을 검출할 수 있다.

음성분석부(142)는 전처리된 소리 데이터에서 추출된 음성신호를 분석할 수 있다. 이때 음성신호에서 어휘 인식은, 음성신호에 대응하는 특징벡터열을 생성하고, 각 음소가 임의의 어휘에서 배열되는 위치에 따라 가변되는 음소 전이 확률이 반영된 음소 언어모델을 이용하여 특징벡터열에 대응하는 음소열을 인지할 수 있으며, 음소열에 대응하는 어휘를 인지하는 방법을 이용할 수 있다. 특히 음소 언어모델은 임의의 시간에 인지되는 각 음소가 적어도 하나의 이전 음소에 이어 도출될 확률을 정의한 것일 수 있다. 또한, 각 음소로부터 임의의 특징벡터열이 관측될 확률에 해당하는 음소조건을 이용하여 음소열을 인지할 수 있다. 또한, 음소조건 및 음소 언어모델을 이용하여 음성신호에 대응하는 특징벡터열에 대해 최대 사후 확률을 보이는 음소열을 인지할 수 있다. 그리고, 복수의 어휘 각각에 대한 어휘 발생 횟수에 해당하는 어휘조건, 복수의 어휘 각각을 발음 변환한 복수의 비교음소열 및 편집 거리를 토대로 음소열과 최대 사후 확률을 보이는 비교어휘를 복수의 어휘 중에서 검색하여 음소열을 인지할 수 있다. 또한, 비교음소열에 포함된 각 음소와 상기 음소열에 포함된 각 음소에 의한 탐색 공간에서 편집거리를 인지하는 것을 이용하여 음소열을 인지할 수 있다. 그리고, 비교음소열을 연속하는 복수의 연결음소로 구분하고, 음소열을 연속하는 복수의 연결음소로 구분하며, 비교음소열에 포함된 각 연결음소와 음소열에 포함된 각 연결음소에 의한 탐색 공간에서 편집거리를 인지하는 것을 이용하여 음소열을 인지할 수 있다.

출력부(150)는 시각, 청각 또는 촉각 등과 관련된 출력을 발생시키기 위한 것으로, 이에는 디스플레이부(151), 음향 출력 모듈(152), 알람부(153), 햅틱 모듈(154) 등이 포함될 수 있다.

디스플레이부(151)는 스마트 디바이스(100)에서 처리되는 정보를 표시한다.

예를 들어, 스마트 디바이스(100)의 단속과 관련된 UI(User Interface) 또는 GUI(Graphic User Interface)를 표시한다.

또한, 본 발명에 따른 디스플레이부(151)는 2D 및 3D 표시 모드를 지원한다.

또한, 디스플레이부(151)는 제어부(180)의 제어에 따라, 3D 표시 모드인 상태에서는 상기 스위치 액정(151b)과, 광학 시차 장벽 및 디스플레이 장치(151a)를 구동시켜 상기 디스플레이 장치(151a)만을 구동시켜 3D 표시 동작을 수행한다.

한편, 상기와 같은 디스플레이부(151)는 액정 디스플레이(liquid crystal display, LCD), 박막 트랜지스터 액정 디스플레이(thin film transistor-liquid crystal display, TFT LCD), 유기 발광 다이오드(organic light-emitting diode, OLED), 플렉시블 디스플레이(flexible display), 3차원 디스플레이(3D display) 중에서 적어도 하나를 포함할 수 있다.

이들 중 일부 디스플레이는 그를 통해 외부를 볼 수 있도록 투명형 또는 광투과형으로 구성될 수 있다. 이는 투명 디스플레이라 호칭될 수 있는데, 상기 투명 디스플레이의 대표적인 예로는 TOLED(Transparant OLED) 등이 있다. 디스플레이부(151)의 후방 구조 또한 광 투과형 구조로 구성될 수 있다. 이러한 구조에 의하여, 사용자는 스마트 디바이스(100) 바디의 디스플레이부(151)가 차지하는 영역을 통해 스마트 디바이스(100) 바디의 후방에 위치한 사물을 볼 수 있다.

음향 출력 모듈(152)은 녹음 모드, 음성인식 모드, 방송수신 모드 등에서 무선 통신부(110)로부터 수신되거나 메모리(160)에 저장된 오디오 데이터를 출력할 수 있다.

음향 출력 모듈(152)은 스마트 디바이스(100)에서 수행되는 기능과 관련된 음향 신호를 출력하기도 한다. 이러한 음향 출력 모듈(1152)에는 리시버(Receiver), 스피커(speaker), 버저(Buzzer) 등이 포함될 수 있다.

알람부(153)는 스마트 디바이스(100)의 이벤트 발생을 알리기 위한 신호를 출력한다.

알람부(153)는 비디오 신호나 오디오 신호 이외에 다른 형태, 예를 들어 진동으로 이벤트 발생을 알리기 위한 신호를 출력할 수도 있다. 상기 비디오 신호나 오디오 신호는 디스플레이부(151)나 음성 출력 모듈(152)을 통해서도 출력될 수 있으므로, 이 경우 상기 디스플레이부(151) 및 음성출력모듈(152)은 알람부(153)의 일종으로 분류될 수도 있다.

햅틱 모듈(haptic module)(154)은 사용자가 느낄 수 있는 다양한 촉각 효과를 발생시킨다. 햅틱 모듈(154)이 발생시키는 촉각 효과의 대표적인 예로는 진동이 있다.

햅틱 모듈(154)이 발생하는 진동의 세기와 패턴 등은 제어 가능하다. 예를 들어, 서로 다른 진동을 합성하여 출력하거나 순차적으로 출력할 수도 있다.

햅틱 모듈(154)은, 진동 외에도, 접촉 피부면에 대해 수직 운동하는 핀 배열, 분사구나 흡입구를 통한 공기의 분사력이나 흡입력, 피부 표면에 대한 스침, 전극(eletrode)의 접촉, 정전기력 등의 자극에 의한 효과와, 흡열이나 발열 가능한 소자를 이용한 냉온감 재현에 의한 효과 등 다양한 촉각 효과를 발생시킬 수 있다.

햅틱 모듈(154)은 직접적인 접촉을 통해 촉각 효과의 전달할 수 있을 뿐만 아니라, 사용자가 손가락이나 팔 등의 근 감각을 통해 촉각 효과를 느낄 수 있도록 구현할 수도 있다.

메모리(160)는 제어부(180)의 처리 및 제어를 위한 프로그램이 저장될 수도 있고, 입/출력되는 데이터들의 임시 저장을 위한 기능을 수행할 수도 있다. 상기 메모리(160)에는 상기 데이터들 각각에 대한 사용 빈도도 함께 저장될 수 있다. 또한, 상기 메모리부(160)에는 상기 터치스크린 상의 터치 입력시 출력되는 다양한 패턴의 진동 및 음향에 관한 데이터를 저장할 수 있다.

상기와 같은 메모리(160)는 플래시 메모리 타입(flash memory type), 하드디스크 타입(hard disk type), 멀티미디어 카드 마이크로 타입(multimedia card micro type), 카드 타입의 메모리(예를 들어 SD 또는 XD 메모리 등), 램(Random Access Memory, RAM), SRAM(Static Random Access Memory), 롬(Read-Only Memory, ROM), EEPROM(Electrically Erasable Programmable Read-Only Memory), PROM(Programmable Read-Only Memory), 자기 메모리, 자기 디스크, 광디스크 중 적어도 하나의 타입의 저장매체를 포함할 수 있다. 스마트 디바이스(100)는 인터넷(internet)상에서 메모리(160)의 저장 기능을 수행하는 웹 스토리지(web storage)와 관련되어 동작할 수도 있다.

문자 인식부(170)는 카메라를 통해 촬영된 영상 데이터에서 문자부분을 특정하고, 특정된 문자를 인식할 수 있다. 문자 인식부는 카메라를 통해 촬영된 영상 데이터를 전처리하고 추출하는 문자 전처리부(171), 추출된 문자를 정확한 문자로 결정하는 문자 결정부(172), 결정된 문자의 음성 기호를 확인하는 문자 발음 확인부(173)을 포함할 수 있다.

문자 전처리부(171)는 카메라를 통해 촬영된 영상 데이터를 전처리할 수 있다. 이때 촬영된 영상 데이터를 디지털 데이터로 변환 및 압축 부호화할 수 있으며, 촬영된 영상 데이터에서 노이즈를 제거할 수 있다. 또한, 촬영된 영상 데이터의 흔들림 여부를 판정할 수 있고, 피사체의 기울어짐을 판정할 수 있으며, 수정할 수 있다.

문자 전처리부(171)는 영상 데이터의 흔들림 여부 판정시, 영상 데이터를 글자와 배경 블럭으로 분류하고, 글자가 포함되어 있는 영역만을 이용하여 흔들림 여부를 판정한다. 이때 글자 블럭의 평균 에너지 비율을 계산할 수 있고, 계산된 평균 에너지 비율을 기설정된 기준값에 비해 크거나 같은 경우 흔들림으로 인정하는 판단할 수 있다.

또한, 문자 전처리부(171)는 영상 데이터 상의 피사체 기울기를 판단할 수 있다. 이때, 글자 블럭 및 배경 블럭으로 분류하고, 글자 블럭은 후보스트라이프 생성과정에서 글자열이 스트라이프 형태로 뭉쳐지도록 하기 위해 수평방향으로 서브샘플링한다. 축소된 영상에서 글자열의 기울어진 각도를 구하기 위해 모포로지컬 필터링한 이진화 영상의 수직방향의 화소들을 서브샘플링한다. 영상 데이터에서 후보스트라이프들에 대한 번호를 부여하며, 각 후보스트라이프들의 이심율 및 블럽 크기를 계산하여 방향각을 계산하기 위한 스트라이프들을 선택하고, 선택된 스트라이프들에 대한 방향각을 계산하여 그 개수를 누적한다. 상기 선택된 스트라이프들에 대한 방향각의 계산을 완료하면, 개수가 누적된 방향각들 중에서 개수가 가장 많이 누적된 방향각을 영상화면의 회전각(skew angle)으로 결정한다. 회전각이 결정되면, 입력 영상화면을 결정된 회전각으로 회전시켜 영상화면의 피사체의 기울기를 보정한다.

그리고 문자 전처리부(171)는 노이즈를 제거할 수 있다. 대표적인 노이즈 성분은 가우시안 노이즈가 될 수 있다. 상기와 같은 가우시안 노이즈를 제거하는데는 필터를 사용하는 방법이 일반적이며, 상기 가우시안 노이즈를 제거하기 위한 다양한 종류의 필터들이 있다. 그러나 영상화면 내에서 글자 영역의 에지 부분에 많은 정보를 가지므로, 단순한 잡음 제거 필터만을 사용하여 잡음을 제거는 경우 경우에는 글자 정보의 심각한 손상을 일으킬 수 있어 글자의 에지 정보를 잘 보존하면서 동시에 영상의 잡음을 잘 제거하기 위해 방향 리 필터(directional Lee filter)를 사용할 수 있다.

문자 결정부(172)는 문자 전처리부(171)를 통해서 전처리된 영상 데이터에서 글자 블럭으로 처리된 영역을 이용하여 문자를 추출하고, 추출된 문자형태를 기저장된 데이터와 비교하여 기설정된 비율이상 일치하는 경우 해당 문자로 결정하게 된다. 이때 결정되는 문자는 한글, 영문자, 숫자, 특수기호, 한문, 다른 언어들을 포함할 수 있는바 다양한 언어 및 글자에 대해 데이터가 기 저장되어 있음이 바람직하다.

문자 발음 확인부(173)는 영상데이터에서 결정된 문자의 발음을 확인할 수 있다. 이때, 결정된 문자의 음성학 기호를 확인하여 문자의 발음을 확인할 수 있고, 타국어인 경우 해당 국가 언어로서의 발음 및 이를 번역한 경우의 발음을 모두 고려하여 확인할 수 있다. 또한 묵음과 같은 변형되는 형태에 관한 데이터를 기저장하여 매칭할 수 있다. 그리고, 무선통신부(110)를 통해 인터넷(200)을 이용하여 검색하여 문자 발음을 확인할 수 있으며, 서버(300)에 접속하여 해당 문자 발음을 검색하거나, 저장할 수 있다.

제어부(controller)(180)는 통상적으로 스마트 디바이스(100)의 전반적인 동작을 제어한다.

제어부(180)는 멀티 미디어 재생을 위한 멀티미디어 모듈을 구비할 수도 있다. 멀티미디어 모듈은 제어부(180) 내에 구현될 수도 있고, 제어부(180)와 별도로 구현될 수도 있다.

제어부(180)는 음성인식부(140)를 통해 인식된 사용자의 음성정보와 스마트 디바이스(100)의 디스플레이부(150)에 표시된 텍스트 정보를 매칭할 수 있다. 일례로서, 디스플레이부(150)에 표시된 인명부에서, 사용자의 음성으르 통해 입력된 제3자의 성명을 검색하여 해당 위치를 표시할 수 있다. 또한, 디스플레이부(150)에 표시된 지리 정보(일례로서 지도)에서 사용자의 음성을 통해 입력된 지명의 위치를 표시할 수 있다. 지명 외에 건물의 명칭을 사용자의 음성을 통해 입력받아서 지리 정보에 표시할 수 있다. 또한, 스마트 디바이스의 카메라를 통해 획득된 영상 데이터에서 문자인식부(170)를 통해 인식된 텍스트를 사용자의 음성을 통해 입력된 음성 데이터와 매칭할 수 있다.

사용자의 음성을 통해 입력된 음성 데이터와 텍스트를 매칭할때, 제어부(180)는 사용자의 음성 데이터에서 음절과 음절사이의 시간간격을 이용해 중요도를 판단할 수 있고, 중요도가 높은 음절을 이용하여 텍스트를 매칭할 수 있다. 일례로서, 신원빌딩을 검색하고자 할 때, 사용자들이 건물명을 의미하는 '신원' 부분을 강조하여 발음하는 것을 검토할 수 있으며, '신원빌딩'을 발음시 '신원'과 '빌딩' 사이를 띄어 읽기 하는 경우, 이를 고려하여 '신원'의 중요도를 높게 판단할 수 있으며, '빌딩' 부분의 중요도를 낮게 판단할 수 있다. 또한, 띄어 읽기가 없는 경우도, 인식된 '신원빌딩'에서 앞뒤 음소를 이용하여 고유명칭과 일반명칭을 분리할 수 있고, 분리된 명칭에서 중요도를 판단할 수 있다. 또한 고유명칭에 있어서, 첫음절에 중요도 판단을 높일 수 있다. 일례로 '신원빌딩'과 '상원빌딩'의 경우 첫음절상 차이가 크게 발생하고, 중요도 판단시 첫음절의 발음을 더욱 고려하여 유사여부를 판단할 수 있는 것이다. 중요도 판단이 된 경우, 중요도가 높은 명칭을 우선적으로 텍스트와 매칭할 수 있다. 일부가 일치하는 경우도 일치 정도를 고려하여 우선순위를 정해서 매칭할 수 있다.

또한, 제어부(180)는 사용자의 음성 데이터와 텍스트를 매칭시 다국어를 고려하여 매칭할 수 있다. 특히 각국의 다양한 발음과 발음방식을 고려하여 매칭할 수 있다. 일례로서, '東京'을 국어로 읽는 경우 '동경'으로 발음하게 되고, 일본어로 발음하는 경우 '도쿄'로 발음하며, 이를 '도오쿄오', '토쿄', '토오쿄오', '또꾜" 등의 다양한 형태로 발음할 수 있음을 고려하여 매칭할 수 있다. 또한, 'washington d.c.' 를 '워싱턴', '와싱턴' 등으로 발음하는 것 같이 일부 생략을 고려하여 매칭할 수 있다.

그리고 제어부(180)는 지명 또는 건물명의 변형을 고려하여 사용자의 음성 데이터와 텍스트를 매칭할 수 있다. 일례로서 유사한 의미를 갖는 '빌딩'과 '건물' / '아파트'와 '빌라' 같은 유사한 의미를 고려하여 매칭할 수 있다. 또한, 병원, 의원, 피부과 등 유사 카테고리를 고려하여 음성 데이터와 텍스트를 매칭할 수 있다.

제어부(180)는 사용자의 음성 데이터와 텍스트를 매칭시, 텍스트 중 음성 데이터와 유사한 순위를 결정할 수 있고, 그 중 가장 유사도가 높은 텍스트를 선택하는 1-best 인식을 통해서 텍스트를 선택할 수 있다. 만약 1-best 인식이 실패하거나 동일한 발음의 다른 어휘가 존재하는 경우(일례로서 '아마나역'과 '암아나역'), 유사도가 높은 순으로서, n-best 인식 결과의 텍스트를 순차적으로 사용자에게 제시할 수 있다. 또한, 사용자의 선택에 대응하여 해당 텍스트의 위치를 표시할 수 있도록 제어할 수 있다.

또한, 전원 공급부(190)는 제어부(180)의 제어에 의해 외부의 전원, 내부의 전원을 인가받아 각 구성요소들의 동작에 필요한 전원을 공급한다.

<방법>

도 2는 본 발명에 적용될 수 있는, 음성인식을 통한 텍스트 위치 탐색 방법에 관한 흐름도이고, 도 3a 내지 도 3f는 본 발명에 적용될 수 있는, 지하철 노선도에서 사용자가 원하는 역명을 찾는 과정 일례를 나타낸 것이다.

도 2와 도 3a 내지 도 3f를 참조하여, 음성인식을 통해 텍스트 위치 탐색하는 방법을 검토해 본다.

스마트 디바이스(100)의 카메라를 통해 영상데이터 획득(S110)하는 단계로 시작한다. 다만 이것은 필수적인 것은 아니다. 스마트 디바이스(100)의 메모리(160)에 저장되거나 디스플레이부(150)에 출력되어 있는 데이터는 카메라를 통해 획득되지 않은 경우여도 본 발명에 이용될 수 있다.

도 3a를 참조하면, 한국인이 일본에 관광을 가서 지하철을 탑승하여 이동하고자 하는데 지하철 노선도가 복잡한 경우, 해당 목적지를 신속하고 용이하게 확인하지 못하는 문제가 발생한다. 또한 한국어인 경우도 지나치게 복잡한 노선도나 텍스트가 많은 경우도 신속하고 용이하게 해당위치를 검색하지 못하는 문제가 발생한다.

도 3b를 참조하면, 해당 지하철 노선도를 스마트 디바이스(100)를 통해 촬영할 수 있다. 이때 촬영된 영상 데이터는 사용자에게 필요한 부분만 추출하여 촬영할 수 있다. 글자 인식을 위해 피사체에 포함된 글씨가 명확하게 인식될 수 있어야 하고, 저조도에서 촬영인 경우 스마트 디바이스(100)에 포함된 플래쉬를 이용하여 조명을 공급할 수 있다. 또한, 주명 광량에 따라 텍스트를 포함한 영상 데이터 획득이 어려운 경우 복수의 영상 데이터를 획득 후 합성할 수 있다.

영상데이터를 획득한 후, 획득한 영상 데이터에서 텍스트 인식(S120)하는 단계가 진행된다. 획득한 영상 데이터는 전처리를 통해 영상 데이터의 흔들림, 기울어짐을 판단할 수 있고, 흔들림이 존재하는 경우 사용자에게 알려서 재촬영을 요구할 수 있으며, 기울어짐이 인정되는 경우 이를 보정할 수 있다. 또한, 이미지 상에 노이즈가 존재하는 경우 이를 제거할 수 있다. 이러한 전처리 방법은 상기한 바와 같은 방법을 통해서 구현될 수 있으며, 상기한 방법 외에도 당해 발명의 통상의 기술자에게 자명한 기술을 적용할 수 있다. 전처리가 된 영상 데이터에서 글자 부분을 인식한 후, 글자 부분을 텍스트로 변환하는 과정을 처리할 수 있다.

도 3c를 참조하면, 촬영된 이미지내 존재하는 다수의 글자 각각을 텍스트로 변환하여 인식 대상 목록을 형성함을 알 수 있다. 이때, 텍스트로 변환은 한국어, 영어, 일본어, 한자, 특수기호 등을 모두 포함해야 목적하는 효과를 달성할 수 있다.

텍스트를 인식 한 후, 사용자의 음성 데이터 획득(S130)하는 단계가 진행된다. 이때 획득되는 사용자의 음성 데이터는 스마트 디바이스(100)의 마이크를 통해서 입력됨이 바람직하다. 입력된 사용자의 음성 데이터는 전처리를 통해서 타 음원 방향에서 발생한 신호, 스피커에서 발생된 음향이 다시 마이크로 입력되는 음향반향등을 포함하는 노이즈를 제거하여 사용자의 음성 신호만이 검출될 수 있다.

도 3d를 참조하면, 사용자의 목적지인 아마나역을 사용자의 음성 신호로 받아들이게 된다.

사용자의 음성 데이터를 획득한 후, 획득한 음성 데이터에서 음성 인식(S140)하는 단계가 진행된다. 사용자의 음성 신호를 검출 한 후, 검출된 사용자의 음성 신호를 검색을 위한 음성 데이터로 변환하여 음성 인식을 진행할 수 있다.

음성 인식을 진행 한 후, 인식된 음성으로 텍스트 검색(S150)하는 단계가 진행된다. 이때, 텍스트를 검색시, 제어부(180)는 사용자의 음성 데이터에서 음절과 음절사이의 시간간격을 이용해 중요도를 판단할 수 있고, 중요도가 높은 음절을 이용하여 텍스트를 매칭할 수 있다. 이때 중요도는 상기한 바와 같이, 음절의 띄어읽기, 고유 명칭 판단, 첫음절 등을 이용하여 판단할 수 있고, 이를 고려하여 우선순위를 정할 수 있다. 또한, 상기와 같이 다국어를 고려하여 매칭할 수 있고, 다양한 발음 방식을 고려할 수 있다. 또한, 지명 또는 건물의 유사한 의미를 고려하여 검색할 수 있다.

인식된 음성으로 텍스트를 검색한 후, N-best 검색 결과 획득(S160)하는 단계가 진행된다. S120단계에서 얻어진 인식 대상 목록에서, 인식된 음성으로 텍스트를 검색하며, 가장 유사한 검색 결과 순으로 정렬하여 검색결과를 획득하게 된다.

N-best 검색 결과를 획득한 후, 1-best 검색 결과의 위치 선택(S170)하는 단계가 진행된다. 도 3e를 참조하면, 사용자의 목적지인 아마나역을 하이라이트 처리하여 위치를 나타내게 된다.

1-best 검색 결과의 위치 선택한 후, 검색 결과의 정확여부를 판단(S180)하는 단계가 진행된다. 만약 음성 인식이 실패하거나, 동일한 발음의 텍스트가 추가적으로 존재하는지를 판단하는 것이다.

검색 결과가 정확하지 않은 경우, 2-best 이하 검색 결과에서 정정(S190)하는 단계가 진행된다. 이는 도 3f를 참조하면, 스마트 디바이스(100)의 디스플레이부(150) 일부에 표시된 n-best 인식 결과가 표시되고, 사용자가 이를 선택하여 정정할 수 있다.

상기와 같은 방법을 통해 음성인식을 통하여 스마트 디바이스를 이용하여 영상 데이터 또는 지리 정보에서 해당 음성 데이터에 맞는 텍스트를 검색할 수 있다.

여기에 설명되는 다양한 실시례는 예를 들어, 소프트웨어, 하드웨어 또는 이들의 조합된 것을 이용하여 컴퓨터 또는 이와 유사한 장치로 읽을 수 있는 기록매체 내에서 구현될 수 있다.

하드웨어적인 구현에 의하면, 여기에 설명되는 실시예는 ASICs (application specific integrated circuits), DSPs (digital signal processors), DSPDs (digital signal processing devices), PLDs (programmable logic devices), FPGAs (field programmable gate arrays, 프로세서(processors), 제어기(controllers), 마이크로 컨트롤러(micro-controllers), 마이크로 프로세서(microprocessors), 기타 기능 수행을 위한 전기적인 유닛 중 적어도 하나를 이용하여 구현될 수 있다. 일부의 경우에 본 명세서에서 설명되는 실시예들이 제어부(180) 자체로 구현될 수 있다.

소프트웨어적인 구현에 의하면, 본 명세서에서 설명되는 절차 및 기능과 같은 실시예들은 별도의 소프트웨어 모듈들로 구현될 수 있다. 상기 소프트웨어 모듈들 각각은 본 명세서에서 설명되는 하나 이상의 기능 및 작동을 수행할 수 있다. 적절한 프로그램 언어로 쓰여진 소프트웨어 어플리케이션으로 소프트웨어 코드가 구현될 수 있다. 상기 소프트웨어 코드는 메모리(160)에 저장되고, 제어부(180)에 의해 실행될 수 있다.

100 : 스마트 디바이스,
200 : 사용자,
300 : 피사체,
400 : 인식 대상 어휘 목록,
500 : 1-best 인식결과,
600 : n-best 인식결과.

Claims

촬영을 통해 영상 이미지를 획득하는 카메라;
상기 영상 이미지에서 복수의 텍스트를 추출하고, 상기 텍스트 각각의 음성기호를 추출하는 문자 인식부;
사용자로부터 음성신호를 수신하는 마이크;
수신된 음성신호를 이진화하여 검색용 음성 데이터로 변환하는 음성인식부;
상기 문자 인식부에 의해 추출된 복수의 텍스트 중 상기 음성기호를 통해 인식된 발음이 상기 검색용 음성 데이터에 일치하는 제1 검색결과를 추출하는 제어부; 및
상기 제1 검색결과를 상기 획득된 영상 이미지 상에 하이라이트 처리하여 표시하는 디스플레이부;를 포함하는 것을 특징으로 하는, 음성인식을 통한 텍스트 위치 탐색 시스템.
삭제
제 1 항에 있어서,
상기 문자 인식부는
획득된 상기 영상 이미지의 전처리를 통해, 흔들림, 기울어짐을 보정하는 것을 특징으로 하는, 음성인식을 통한 텍스트 위치 탐색 시스템.
제 1 항에 있어서,
데이터의 저장 및 관리를 위한 메모리;를 더 포함하고,
상기 복수의 텍스트는 상기 메모리에 저장된 지리 정보에 포함된 텍스트인 것을 특징으로 하는, 음성인식을 통한 텍스트 위치 탐색 시스템.
제 1 항에 있어서,
상기 제어부는,
상기 복수의 텍스트를 상기 음성 데이터와 일치하는 정도에 따라 순차적으로 목록화하는 것을 특징으로 하는, 음성인식을 통한 텍스트 위치 탐색 시스템.
제 5 항에 있어서,
상기 제어부는,
목록화된 상기 복수의 텍스트에서 일치하는 정도가 가장 높은 텍스트를 상기 제1 검색결과로 결정하고,
상기 복수의 텍스트에서 상기 음성 데이터와 일치하는 텍스트가 2개이상인 경우,
상기 디스플레이부는,
상기 제1 검색결과를 하이라이트 처리하지 않고,
목록화된 상기 복수의 텍스트를 표시하는 것을 특징으로 하는, 음성인식을 통한 텍스트 위치 탐색 시스템.
제 6 항에 있어서,
상기 사용자가 목록화된 상기 복수의 텍스트 중 하나를 선택하는 경우,
상기 제어부는 선택된 텍스트를 상기 제1 검색결과로 결정하는 것을 특징으로 하는, 음성인식을 통한 텍스트 위치 탐색 시스템.
제 7 항에 있어서,
상기 제어부는,
음성인식률을 향상하기 위해, 결정된 상기 제1 검색결과와 상기 음성 데이터를 차기 음성인식을 통한 텍스트 위치 탐색에 이용하는 것을 특징으로 하는, 음성인식을 통한 텍스트 위치 탐색 시스템.
제 1 항에 있어서,
상기 음성인식부는,
상기 음성신호에서 중요부를 추출하고,
상기 제어부는,
상기 복수의 텍스트에서 상기 중요부가 일치하는 텍스트를 1차 추출하고,
1차 추출된 상기 텍스트에서 상기 제1 검색결과를 2차 추출하는 것을 특징으로 하는, 음성인식을 통한 텍스트 위치 탐색 시스템.
제 8 항에 있어서,
상기 음성인식부는,
상기 음성신호에서 음절 사이의 간격을 이용하여 중요부를 추출하거나,
상기 음성신호에서 고유명사와 보통명사를 분리하여 상기 고유명사를 중요부로 추출하거나,
상기 음성신호에서 강세를 이용하여 중요부를 추출하는 것을 특징으로 하는, 음성 인식을 통한 텍스트 위치 탐색 시스템.
제 1 항에 있어서,
복수 국가에서의 상기 복수의 텍스트의 발음행태를 저장하는 메모리;를 포함하고,
상기 제어부는,
저장된 복수 국가에서 발음행태 중 적어도 하나가 상기 음성 데이터와 일치하는 제1 검색결과를 추출하는 것을 특징으로 하는, 음성 인식을 통한 텍스트 위치 탐색 시스템.
제 1 항에 있어서,
인터넷을 통해 서버와 연결되는 무선통신부;를 포함하고,
상기 제어부는,
상기 무선통신부를 통해 상기 서버에서 복수 국가에서의 상기 복수의 텍스트의 발음행태를 검색하고, 검색된 복수 국가에서 발음행태 중 적어도 하나가 상기 음성 데이터와 일치하는 제1 검색결과를 추출하는 것을 특징으로 하는, 음성 인식을 통한 텍스트 위치 탐색 시스템.
카메라를 통해 영상 데이터를 획득하는 단계; 및
문자 인식부가 촬영된 영상 데이터에서 복수의 텍스트를 추출하고, 상기 텍스트 각각의 음성기호를 추출하는 단계;
스마트 디바이스가 사용자로부터 마이크를 통해 음성신호를 입력받는 제1 단
계;
음성인식부가 상기 입력받은 음성신호를 이진화하여 검색용 음성 데이터로
변환하는 제2 단계;
제어부가 상기 문자 인식부에 의해 추출된 복수의 텍스트 중, 상기 음성기호를 통해 인식된 발음이 상기 검색용 음성 데이터에 일치하는 제1 검색
결과를 추출하는 제3 단계; 및
디스플레이부가 상기 제1 검색결과를 상기 획득된 영상 이미지 상에 하이라이트 처리하여 표시하는 제4 단계;를 포함하는 것을 특징으로 하는, 음성인식을 통한 텍스트 위치 탐색 방법.
삭제
제 13 항에 있어서,
상기 제3 단계는,
제어부가 상기 복수의 텍스트를 상기 음성 데이터와 일치하는 정도에 따라 순차적으로 목록화하는 제3-1 단계;
제어부가 목록화된 상기 복수의 텍스트에서 일치하는 정도가 가장 높은 텍스트를 상기 제1 검색결과로 결정하는 제3-2 단계; 및
제어부가 상기 제1 검색결과와 상기 음성 데이터가 일치하는지 판단하는 제3-3 단계;를 포함하는 것을 특징으로 하는, 음성인식을 통한 텍스트 위치 탐색 방법.
제 15 항에 있어서,
상기 제3-3 단계에서,
상기 제1 검색결과와 상기 음성 데이터가 일치하지 않거나, 상기 복수의 텍스트에서 상기 음성 데이터와 일치하는 텍스트가 2개이상인 경우,
상기 제4 단계는,
상기 디스플레이부가 상기 제1 검색결과를 하이라이트 처리하지 않고, 목록화된 상기 복수의 텍스트를 표시하는 것을 특징으로 하는, 음성인식을 통한 텍스트 위치 탐색 방법.
제 16 항에 있어서,
상기 제4 단계는,
목록화된 상기 복수의 텍스트 중 하나를 선택하는 상기 사용자의 행위에 대응하여 상기 제어부가 선택된 텍스트를 상기 제1 검색결과로 결정하는 제4-1 단계;를 포함하는 것을 특징으로 하는, 음성인식을 통한 텍스트 위치 탐색 방법.