KR20210042853A - 음성 인식에 기반한 페이지 조작 방법, 장치, 전자장비, 저장 매체 및 컴퓨터 프로그램 - Google Patents
음성 인식에 기반한 페이지 조작 방법, 장치, 전자장비, 저장 매체 및 컴퓨터 프로그램 Download PDFInfo
- Publication number
- KR20210042853A KR20210042853A KR1020210040285A KR20210040285A KR20210042853A KR 20210042853 A KR20210042853 A KR 20210042853A KR 1020210040285 A KR1020210040285 A KR 1020210040285A KR 20210040285 A KR20210040285 A KR 20210040285A KR 20210042853 A KR20210042853 A KR 20210042853A
- Authority
- KR
- South Korea
- Prior art keywords
- control element
- speech recognition
- recognition result
- pinyin
- page
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 72
- 238000004590 computer program Methods 0.000 title claims abstract description 17
- 230000014509 gene expression Effects 0.000 claims abstract description 124
- 230000015654 memory Effects 0.000 claims description 20
- 230000004044 response Effects 0.000 claims description 18
- 230000003993 interaction Effects 0.000 abstract description 6
- 238000003058 natural language processing Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 9
- 230000009471 action Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000013500 data storage Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/451—Execution arrangements for user interfaces
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/221—Announcement of recognition results
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Multimedia (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Machine Translation (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
본 발명은 음성 인식에 기반한 페이지 조작 방법, 장치, 전자장비, 저장 매체 및 컴퓨터 프로그램을 개시한다. 본 발명은 자연 언어 처리 분야에 관한 것으로서, 구체적으로는, 음성 인식, 음성 인터액션, 클라우드 컴퓨팅 등 분야에 관한 것이다. 음성 인식에 기반한 페이지 조작 방법에 있어서, 상기 페이지는 적어도 하나의 제어 요소를 포함하고, 상기 방법은, 수신된 음성을 인식하여 음성 인식 결과를 취득하는 것, 각 제어 요소에 대해 설정한 중국어 형식의 문자적 표현을 취득하는 것, 적어도 하나의 제어 요소로부터 문자적 표현의 병음이 음성 인식 결과의 병음과 매칭되는 타겟 제어 요소를 확정하는 것, 타겟 제어 요소와 연관된 제어 동작을 실행하여 음성 인식 결과를 표시하는 것을 포함하고, 음성 인식 결과와 타겟 제어 요소의 문자적 표현이 매칭되지 않을 경우, 음성 인식 결과를 타겟 제어 요소의 문자적 표현으로 교체하여 표시한다.
Description
본 발명은 자연 언어 처리 분야에 관한 것으로서, 구체적으로는,음성 인식, 음성 인터액션, 클라우드 컴퓨팅 분야에 관한 것이고, 보다 구체적으로는, 음성 인식에 기반한 페이지 조작 방법, 장치, 전자장비, 저장 매체 및 컴퓨터 프로그램에 관한 것이다.
페이지의 제어 요소에 대해 제어 동작을 진행할 경우, 사용자는 페이지의 제어 요소를 직접 클릭하거나, 또는 음성을 통해 페이지의 제어 요소에 대해 제어 동작을 진행할 수 있다. 하지만, 관련 기술에 있어서, 음성을 통해 페이지의 제어 요소에 대한 제어 동작을 진행할 경우, 음성 인식 결과의 오류로 인해 인식률이 낮은 문제가 존재하므로, 사용자의 사용 체험이 떨어지게 된다.
본 발명은 음성 인식에 기반한 페이지 조작 방법, 장치, 전자장비, 저장 매체, 및 컴퓨터 프로그램을 제공한다.
본 발명의 제1측면에 의하면, 음성 인식에 기반한 페이지 조작 방법에 있어서, 상기 페이지는 적어도 하나의 제어 요소를 포함하고, 상기 방법은, 수신된 음성을 인식하여 음성 인식 결과를 취득하는 것, 각 제어 요소에 대한 중국어 형식의 문자적 표현을 취득하는 것, 상기 적어도 하나의 제어 요소로부터 문자적 표현의 병음이 상기 음성 인식 결과의 병음과 매칭되는 타겟 제어 요소를 확정하는 것, 상기 타겟 제어 요소와 연관된 제어 동작을 실행하여 상기 음성 인식 결과를 표시하는 것을 포함하고, 상기 음성 인식 결과와 상기 타겟 제어 요소의 문자적 표현이 매칭되지 않을 경우, 상기 음성 인식 결과를 상기 타겟 제어 요소의 문자적 표현으로 교체하여 표시하는 음성 인식에 기반한 페이지 조작 방법을 제공한다.
본 발명의 제2측면에 의하면, 음성 인식에 기반한 페이지 조작 장치에 있어서, 상기 페이지는 적어도 하나의 제어 요소를 포함하고, 상기 장치는, 수신된 음성을 인식하여 음성 인식 결과를 취득하기 위한 인식 모듈, 각 제어 요소에 대한 중국어 형식의 문자적 표현을 취득하기 위한 취득 모듈, 상기 적어도 하나의 제어 요소로부터 문자적 표현의 병음이 상기 음성 인식 결과의 병음과 매칭되는 타겟 제어 요소를 확정하기 위한 확정 모듈, 상기 타겟 제어 요소와 연관된 제어 동작을 실행하여 상기 음성 인식 결과를 표시하기 위한 표시 모듈을 포함하고, 상기 음성 인식 결과와 상기 타겟 제어 요소의 문자적 표현이 매칭되지 않을 경우, 상기 음성 인식 결과를 상기 타겟 제어 요소의 문자적 표현으로 교체하여 표시하는 음성 인식에 기반한 페이지 조작 장치를 제공한다.
본 발명의 제3측면에 의하면, 적어도 하나의 프로세서, 및 상기 적어도 하나의 프로세서와 통신 연결되는 메모리를 포함하고, 상기 메모리에는 상기 적어도 하나의 프로세서에 의해 실행 가능한 명령이 저장되어 있고, 상기 명령이 상기 적어도 하나의 프로세서에 의해 실행될 경우, 상기 적어도 하나의 프로세서로 하여금 상기와 같은 방법을 실행하게 하는 전자장비를 제공한다.
본 발명의 제4측면에 의하면, 컴퓨터 프로그램이 저장되어 있는 비 일시적 컴퓨터 판독가능 저장 매체에 있어서, 상기 프로그램이 프로세서에 의해 실행될 경우, 상기와 같은 방법을 구현하는 비 일시적 컴퓨터 판독가능 저장 매체를 제공한다.
본 발명의 제5측면에 의하면, 컴퓨터 판독가능 저장 매체에 저장된 컴퓨터 프로그램에 있어서, 상기 컴퓨터 프로그램의 명령이 프로세서에 의해 실행될 경우, 상기와 같은 방법을 구현하는 컴퓨터 판독가능 저장 매체에 저장된 컴퓨터 프로그램을 제공한다.
본 명세서에 기술된 내용은 그 목적이 본 발명의 실시예의 핵심 또는 중요한 특징을 지정하기 위한 것이 아니고, 또한, 본 발명의 범위는 이에 한정되지 아니함을 이해하여야 한다. 본 발명의 다른 특징들은 하기 설명으로부터 용이하게 이해할 수 있을 것이다.
본 발명의 실시예에 따르면, 인식 요류를 정정하기 위해, 음성 인식 결과와 타겟 제어 요소의 문자적 표현이 매칭되지 않을 경우, 음성 인식 결과를 타겟 제어 요소의 문자적 표현으로 교체하고, 교체된 후의 음성 인식 결과를 페이지에 표시할 수 있다. 이때, 페이지에 표시된 교체후의 음성 인식 결과는 사용자의 의도에 부합되므로, 페이지에 표시된 음성 인식 결과가 사용자의 의도에 부합되지 않는 경우를 방지할 수 있다. 따라서, 본 발명의 실시예의 기술방안을 통해, 페이지 표시의 정확도를 높일 수 있다. 즉, 페이지에 정확한 음성 인식 결과를 표시함으로써 사용자의 사용 체험을 향상시킬수 있다.
본 발명의 일 실시예에 따르면, 음성 인식 결과의 병음과 제어 요소의 문자적 표현의 병음을 매칭하여 타겟 제어 요소를 확정한 후, 타겟 제어 요소와 연관된 제어 동작을 바로 실행할 수 있다. 병음이 매칭될 경우, 제어 동작을 바로 실행함으로써, 페이지 조작의 응답 속도를 높이고 페이지 조작의 응답 시간을 줄일 수 있다.
본 발명의 다른 일 실시예에 따르면, 음성 인식 결과와 타겟 제어 요소의 문자적 표현이 매칭되지 않을 경우, 음성 인식 결과를 타겟 제어 요소의 문자적 표현으로 교체하여 페이지에 표시하고, 이와 동시에 또는 이후에 타겟 제어 요소와 연관된 제어 동작을 실행한다. 즉, 정확한 음성 인식 결과를 표시할 때 제어 동작을 실행함으로써, 사용자로 하여금 정확한 음성 인식 결과 표시와 페이의 제어동작이 거의 동시에 이루어짐을 느끼도록 하여, 정확한 음성 인식 결과 표시와 페이지의 제어동작간의 지연을 감소시켜, 사용자의 사용체험을 향상시킬 수 있다.
첨부된 도면은 본 발명을 보다 쉽게 이해하기 위한 것이며, 본 발명은 이에 한정되지 않는다.
도1은 본 발명의 실시예에 따른 음성 인식에 기반한 페이지 조작의 응용장면을 개략적으로 나타낸다.
도2는 본 발명의 일 실시예에 따른 음성 인식에 기반한 페이지 조작 방법의 흐름도를 개략적으로 나타낸다.
도3은 본 발명의 실시예에 따른 타겟 제어 요소를 확정하는 흐름도를 개략적으로 나타낸다.
도4는 본 발명의 일 실시예에 따른 음성 인식 결과를 교체하는 것을 개략적으로 나타낸다.
도5는 본 발명의 다른 일 실시예에 따른 음성 인식 결과를 교체하는 것을 개략적으로 나타낸다.
도6은 본 발명의 다른 일 실시예에 따른 음성 인식 결과를 교체하는 것을 개략적으로 나타낸다.
도7은 본 발명의 다른 일 실시예에 따른 음성 인식 결과를 교체하는 것을 개략적으로 나타낸다.
도8은 본 발명의 다른 일 실시예에 따른 음성 인식에 기반한 페이지 조작 방법의 흐름도를 개략적으로 나타낸다.
도9는 본 발명의 다른 일 실시예에 따른 음성 인식 결과를 교체하는 것을 개략적으로 나타낸다.
도10은 본 발명의 일 실시예에 따른 페이지 개략도이다.
도11은 본 발명의 다른 일 실시예에 따른 페이지 개략도이다.
도12는 본 발명의 실시예에 따른 음성 인식에 기반한 페이지 조작 장치의 블록도를 개략적으로 나타낸다.
도13은 본 발명의 실시예에 따른 음성 인식에 기반한 페이지 조작 방법을 구현하기 위한 전자장비의 블록도이다.
도1은 본 발명의 실시예에 따른 음성 인식에 기반한 페이지 조작의 응용장면을 개략적으로 나타낸다.
도2는 본 발명의 일 실시예에 따른 음성 인식에 기반한 페이지 조작 방법의 흐름도를 개략적으로 나타낸다.
도3은 본 발명의 실시예에 따른 타겟 제어 요소를 확정하는 흐름도를 개략적으로 나타낸다.
도4는 본 발명의 일 실시예에 따른 음성 인식 결과를 교체하는 것을 개략적으로 나타낸다.
도5는 본 발명의 다른 일 실시예에 따른 음성 인식 결과를 교체하는 것을 개략적으로 나타낸다.
도6은 본 발명의 다른 일 실시예에 따른 음성 인식 결과를 교체하는 것을 개략적으로 나타낸다.
도7은 본 발명의 다른 일 실시예에 따른 음성 인식 결과를 교체하는 것을 개략적으로 나타낸다.
도8은 본 발명의 다른 일 실시예에 따른 음성 인식에 기반한 페이지 조작 방법의 흐름도를 개략적으로 나타낸다.
도9는 본 발명의 다른 일 실시예에 따른 음성 인식 결과를 교체하는 것을 개략적으로 나타낸다.
도10은 본 발명의 일 실시예에 따른 페이지 개략도이다.
도11은 본 발명의 다른 일 실시예에 따른 페이지 개략도이다.
도12는 본 발명의 실시예에 따른 음성 인식에 기반한 페이지 조작 장치의 블록도를 개략적으로 나타낸다.
도13은 본 발명의 실시예에 따른 음성 인식에 기반한 페이지 조작 방법을 구현하기 위한 전자장비의 블록도이다.
이하, 도면을 참조하여 본 발명의 예시적인 실시예들을 설명한다. 쉽게 이해할 수 있도록, 본 명세서에서 설명한 각 실시예의 세부사항을 포함하게 되는데, 이들은 단지 예시적인 것에 불과하다. 따라서, 당업자라면 본 발명의 범위 및 취지를 벗어나지 않으면서 본 발명의 실시예에 대해 여러가지 변경 및 수정이 이루어질 수 있음을 이해할 것이다. 또한, 명확성과 간결성을 위해 하기의 설명에 있어서, 공지된 기능 및 구성에 대한 설명은 생략한다.
본 명세서에서 사용되는 용어는 단지 구체적인 실시예를 설명하기 위한 것으로서, 본 발명을 한정하기 위한 취지로 해석되어서는 아니된다. 본 명세서에서 사용되는 "포함", "구비" 등 용어는 언급된 특징, 단계, 동작 및/또는 부품의 존재를 의미하고, 하나 또는 복수의 다른 특징, 단계, 동작 또는 부품의 존재 또는 추가를 배제하지는 않는다.
본 명세서에서 사용되는 모든 용어(기술적 및 과학적 용어 포함)는 별도로 정의되지 않는 한, 당업자가 통상적으로 이해하는 의미를 갖는다. 본 명세서에서 사용되는 용어는 본 명세서의 문맥과 일치하는 의미를 갖는 것으로 해석되어야 하며, 이상적이거나 과도하게 사전상의 의미로 해석되어서는 아니되는 점에 유의해야 한다.
"A, B 및 C중 적어도 하나"와 같은 표현을 사용할 경우, 당업자가 통상으로 이해하는 해당 표현의 의미에 따라 해석되어야 한다(예를 들어, "A, B 및 C중 적어도 하나를 구비한 시스템"에는, A만 구비한 시스템, B만 구비한 시스템, C만 구비한 시스템, A 및 B를 구비한 시스템, A 및 C를 구비한 시스템, B 및 C를 구비한 시스템, 및/또는 A, B, C를 구비한 시스템이 포함되는데, 이에 한정되지는 않는다).
본 발명의 실시예에 따르면, 음성 인식에 기반한 페이지 조작 방법에 있어서, 페이지는 적어도 하나의 제어 요소를 포함하고, 상기 방법은, 수신된 음성을 인식하여 음성 인식 결과를 취득하는 것, 각 제어 요소에 대한 중국어 형식의 문자적 표현을 취득하는 것, 적어도 하나의 제어 요소로부터 문자적 표현의 병음이 음성 인식 결과의 병음과 매칭되는 타겟 제어 요소를 확정하는 것, 타겟 제어 요소와 연관된 제어 동작을 실행하여 음성 인식 결과를 표시하는 것을 포함하고, 음성 인식 결과와 타겟 제어 요소의 문자적 표현이 매칭되지 않을 경우, 음성 인식 결과를 타겟 제어 요소의 문자적 표현으로 교체하여 표시하는 음성 인식에 기반한 페이지 조작 방법을 제공한다.
도1은 본 발명의 실시예에 따른 음성 인식에 기반한 페이지 조작의 응용장면을 개략적으로 나타낸다.
도 1에 도시된 바와 같이, 본 발명의 실시예에 따른 응용장면(100)은 예를 들어, 페이지(110)를 포함한다. 페이지(110)는 전자장비에 표시된 페이지일 수 있다. 전자장비는 스마트 폰, 컴퓨터, 스마트 스피커 등을 포함할 수 있는데, 이에 한정되지는 않는다.
페이지(110)에는 예를 들어, 복수의 제어 요소가 표시되어 있다. 전자장비는 제어 요소에 대한 사용자의 클릭 또는 터치 동작에 응답하여, 제어 요소와 연관된 제어 동작을 실행할 수 있다. 클릭 동작은 예를 들어, 마우스와 같은 입력장치에 의해 실행될 수 있다. 전자장비가 터치 스크린을 포함할 경우, 터치 동작은 예를 들어, 사용자의 손가락을 통해 실행될 수도 있다.
일 실시예에 따르면, 제어 요소는 문자 또는 이미지일 수 있다. 예를 들어, 제어 요소(111, 112, 113)는 문자이고, 제어 요소(114, 115)는 이미지이다. 사용자는 각 제어 요소를 클릭 또는 터치할 수 있고, 전자장비는 사용자의 클릭 또는 터치 동작에 응답하여, 제어 요소와 연관된 제어 동작을 실행할 수 있다.
예를 들어, 제어 요소(111)는 문자 "영화"일 수 있고, 제어 요소(112)는 문자 "드라마"일 수 있고, 제어 요소(113)는 문자 "다큐멘터리"일 수 있으며, 제어 요소(114)는 어느 영화(예를 들어, 영화 "히어로(HERO)")의 이미지일 수 있고, 제어 요소(115)는 어느 드라마(예를 들어, 드라마 "서유기")의 이미지일 수 있다.
사용자가 제어 요소(111)를 클릭 또는 터치할 경우, 전자장비는 제어 요소(111)에 대한 사용자의 클릭 또는 터치 동작에 응답하여, 사용자에게 영화 리스트를 추천할 수 있다. 사용자가 제어 요소(112)를 클릭 또는 터치할 경우, 전자장비는 제어 요소(112)에 대한 사용자의 클릭 또는 터치 동작에 응답하여, 사용자에게 드라마 리스트를 추천할 수 있다. 사용자가 제어 요소(113)를 클릭 또는 터치할 경우, 전자장비는 제어 요소(113)에 대한 사용자의 클릭 또는 터치 동작에 응답하여, 사용자에게 다큐멘트리 리스트를 추천할 수 있다. 사용자가 제어 요소(114)를 클릭 또는 터치할 경우, 전자장비는 제어 요소(114)에 대한 사용자의 클릭 또는 터치 동작에 응답하여, 사용자에게 영화 "히어로"를 재생할 수 있고, 사용자가 제어 요소(115)를 클릭 또는 터치할 경우, 전자장비는 제어 요소(115)에 대한 사용자의 클릭 또는 터치 동작에 응답하여, 사용자에게 드라마 "서유기"를 재생할 수 있다.
다른 일 실시예에 따르면, 사용자는 음성 인터액션의 방식으로 각 제어 요소에 대해 조작을 완성할 수 있다. 예를 들어, 사용자가 영화 재생 리스트를 보고자 할 경우, 사용자는 "영화"라고 발음할 수 있고, 전자장비는 사용자의 "영화"라는 음성에 응답하여 제어 요소(111)와 연관된 제어 동작을 실행하여, 사용자에게 영화 리스트를 추천할 수 있다. 사용자가 드라마 재생 리스트를 보고자 할 경우, 사용자는 "드라마"라고 발음할 수 있고, 전자장비는 사용자의 "드라마"라는 음성에 응답하여 제어 요소(112)와 연관된 제어 동작을 실행하여, 사용자에게 드라마 리스트를 추천할 수 있다. 사용자가 다큐멘트리 리스트를 보고자 할 경우, 사용자는 "다큐멘트리"라고 발음할 수 있고, 전자장비는 사용자의 "다큐멘트리"라는 음성에 응답하여 제어 요소(113)와 연관된 제어 동작을 실행하여, 사용자에게 다큐멘트리 리스트를 추천할 수 있다. 사용자가 영화 "히어로"를 재생하고자 할 경우, 사용자는 "히어로"라고 발음할 수 있고, 전자장비는 사용자의 "히어로"라는 음성에 응답하여 제어 요소(114)와 연관된 제어 동작을 실행하여, 사용자에게 영화 "히어로"를 재생할 수 있다. 사용자가 드라마 "서유기"를 재생하고자 할 경우, 사용자는 "서유기"라고 발음할 수 있고, 전자장비는 사용자의 "서유기"라는 음성에 응답하여 제어 요소(115)와 연관된 제어 동작을 실행하여, 사용자에게 드라마 "서유기"를 재생할 수 있다.
본 발명의 실시예에 따르면, 음성을 통해 페이지의 제어 요소를 조작하므로, 사용자가 페이지에 대한 조작 효율을 향상시킬 수 있다. 또한, 음성 인터액션 방식으로 페이지를 조작함으로써, 페이지 조작의 번거로움을 해소시켜 사용자의 사용 체험을 향상시킬 수 있다.
본 발명의 실시예에 따르면, 음성 인식에 기반한 페이지 조작 방법을 제공한다. 이하, 도1의 응용장면에 기초하여, 도2 내지 도11을 참조하여 본 발명의 예시적인 실시 형태에 따른 음성 인식에 기반한 페이지 조작 방법을 설명한다.
도2는 본 발명의 일 실시예에 따른 음성 인식에 기반한 페이지 조작 방법의 흐름도를 개략적으로 나타낸다.
본 발명의 실시예에 따르면, 전자장비의 페이지는 적어도 하나의 제어 요소를 포함할 수 있고, 각 제어 요소는 해당 제어 요소에 대한 문자적 표현을 포함할 수 있다. 사용자는 음성을 통해 페이지의 제어 요소를 조작할 수 있다.
도 2에 도시된 바와 같이, 본 발명의 실시예에 따른 음성 인식에 기반한 페이지 조작 방법(200)은 예를 들어, 동작(S210)~동작(S240)을 포함할 수 있다.
동작(S210)은, 수신된 음성을 인식하여, 음성 인식 결과를 취득한다.
동작(S220)은, 각 제어 요소에 대해 설정한 중국어 형식의 문자적 표현을 취득한다.
동작(S230)은, 적어도 하나의 제어 요소로부터 문자적 표현의 병음이 음성 인식 결과의 병음과 매칭되는 타겟 제어 요소를 확정한다.
동작(S240)은, 타겟 제어 요소와 연관된 제어 동작을 실행하여 음성 인식 결과를 표시하고, 음성 인식 결과와 타겟 제어 요소의 문자적 표현이 매칭되지 않을 경우, 음성 인식 결과를 타겟 제어 요소의 문자적 표현으로 교체하여 표시한다.
본 발명의 실시예에 따르면, 제어 요소의 문자적 표현은 제어 요소를 정의할 수 있는데, 해당 문자적 표현은 중국어일 수 있다. 본 발명의 제어 요소는 문자, 이미지 또는 이들의 조합을 포함할 수 있는데, 이에 한정되지는 않는다. 제어 요소가 문자일 경우, 해당 제어 요소의 문자적 표현은 제어 요소 그 자체일 수 있는데, 예를 들어, 제어 요소가 문자 "영화"일 경우, 해당 제어 요소의 문자적 표현은 "영화"일 수 있으며, 해당 문자적 표현인 "영화"를 페이지에 표시할 수 있다. 제어 요소가 이미지일 경우, 해당 제어 요소의 문자적 표현은 해당 제어 요소를 설명하기 위한 문자일 수 있는데, 예를 들어, 제어 요소가 영화 "히어로"의 이미지일 경우, 상기 제어 요소의 문자적 표현은 "히어로"일 수 있고, 해당 문자적 표현 "히어로"는 하층에 저장되어 페이지에 표시되지 않을 수 있다. 제어 요소가 이미지 및 문자의 조합일 경우, 해당 제어 요소의 문자적 표현은 제어 요소에 포함된 문자 그 자체일 수 있는데, 예를 들어, 제어 요소가 영화 "히어로"의 이미지 및 문자(해당 문자는 이미지에 인접하여 표시되는 문자 "히어로"일 수 있음)일 경우, 해당 제어 요소의 문자적 표현은 문자 "히어로"일 수 있고, 해당 문자적 표현 "히어로"는 페이지에 표시될 수 있다.
본 발명의 실시예에 따르면, 사용자의 음성을 수신하게 되면, 수신된 음성을 인식 처리함으로써, 음성 인식 결과를 취득할 수 있는데, 여기서, 음성 인식 결과는 텍스트 정보일 수 있다. 음성을 인식하여 음성 인식 결과를 취득한 후, 음성 인식 결과의 병음을 적어도 하나의 제어 요소의 문자적 표현의 병음과 매칭하여, 적어도 하나의 제어 요소중의 문자적 표현의 병음이 음성 인식 결과의 병음과 매칭되는 제어 요소를 타겟 제어 요소로 확정할 수 있다.
음성 인식 결과에는 텍스트 정보가 포함될 수 있으므로, 타겟 제어 요소를 확정한 후, 타겟 제어 요소의 문자적 표현과 음성 인식 결과를 매칭할 수 있다. 음성 인식 결과와 타겟 제어 요소의 문자적 표현이 매칭되지 않을 경우, 음성 인식에 오류가 발생되었음을 의미하므로, 인식하여 얻은 음성 인식 결과를 직접 페이지에 표시할 경우, 사용자가 페이지를 열람할 때 잘못된 음성 인식 결과를 보게 되므로, 사용자의 사용 체험이 떨어질 수 있다. 따라서, 본 발명은, 음성 인식 결과의 병음이 타겟 제어 요소의 문자적 표현의 병음과 매칭될 경우, 사용자의 음성이 해당 타겟 제어 요소에 관한 것이고, 단지 인식 효과과 좋지 않아 음성 인식 결과와 사용자가 원하는 타겟 제어 요소의 문자적 표현이 일치하지 않게 되었음을 판단할 수 있으므로, 본 발명의 실시예에서는, 잘못된 음성 인식 결과를 정확한 음성 인식 결과로 교체한 후 표시함으로써, 사용자가 정확한 음성 인식 결과를 볼수 있도록 한다.
예를 들어, 음성 인식 결과가 "더라마("", "드라마"의 잘못된 중국어 표기법, 발음(병음)은 "드라마"의 정확한 중국어 표기법인 ""와 동일함.)"이고, 제어 요소의 문자적 표현이 "드라마"일 경우, 상기 "더라마()"의 중국어 병음 "dianshiju"가 "드라마()"의 중국어 병음 "dianshiju"와 매칭되므로, 문자적 표현이 "드라마"인 제어 요소를 타겟 제어 요소로 확정할 수 있다. 그 다음, 음성 인식 결과인 "더라마"와 타겟 제어 요소의 문자적 표현인 "드라마"를 매칭하는데, 음성 인식 결과인 "더라마"와 타겟 제어 요소의 문자적 표현인 "드라마"가 매칭되지 않으므로, "더라마"가 잘못된 음성 인식 결과임을 의미한다. 이때, 음성 인식 결과인 "더라마"를 타겟 제어 요소의 문자적 표현인 "드라마"로 교체하여 페이지에 표시할 수 있다. 즉, 교체후의 음성 인식 결과는 "드라마"이고, 정확한 음성 인식 결과인 "드라마"를 페이지에 표시함으로써 사용자가 열람할 때 정확한 음성 인식 결과를 볼수 있도록 하여 사용자의 사용 체험을 향상시킬 수 있다.
이로써, 본 발명의 실시예에 따르면, 인식 요류를 정정하기 위해, 음성 인식 결과와 타겟 제어 요소의 문자적 표현이 매칭되지 않을 경우, 음성 인식 결과를 타겟 제어 요소의 문자적 표현으로 교체하고, 교체된 후의 음성 인식 결과를 페이지에 표시할 수 있다. 이때, 페이지에 표시된 교체후의 음성 인식 결과는 사용자의 의도에 부합되므로, 페이지에 표시된 음성 인식 결과가 사용자의 의도에 부합되지 않는 경우를 방지할 수 있다. 따라서, 본 발명의 실시예의 기술방안을 통해, 페이지 표시의 정확도를 높일 수 있다. 즉, 페이지에 정확한 음성 인식 결과를 표시함으로써 사용자의 사용 체험을 향상시킬수 있다.
본 발명의 일 실시예에 따르면, 음성 인식 결과의 병음과 제어 요소의 문자적 표현의 병음을 매칭하여 타겟 제어 요소를 확정한 후, 타겟 제어 요소와 연관된 제어 동작을 바로 실행할 수 있다. 병음이 매칭될 경우, 제어 동작을 바로 실행함으로써, 페이지 조작의 응답 속도를 높이고 페이지 조작의 응답 시간을 줄일 수 있다.
본 발명의 다른 일 실시예에 따르면, 음성 인식 결과와 타겟 제어 요소의 문자적 표현이 매칭되지 않을 경우, 음성 인식 결과를 타겟 제어 요소의 문자적 표현으로 교체하여 페이지에 표시하고, 이와 동시에 또는 이후에 타겟 제어 요소와 연관된 제어 동작을 실행한다. 즉, 정확한 음성 인식 결과를 표시할 때 제어 동작을 실행함으로써, 사용자로 하여금 정확한 음성 인식 결과 표시와 페이의 제어동작이 거의 동시에 이루어짐을 느끼도록 하여, 정확한 음성 인식 결과 표시와 페이지의 제어동작간의 지연을 감소시켜, 사용자의 사용체험을 향상시킬 수 있다.
도3은 본 발명의 실시예에 따른 타겟 제어 요소를 확정하는 흐름도를 개략적으로 나타낸다.
도 3에 도시된 바와 같이, 본 발명의 일 실시예에 따르면, 적어도 하나의 제어 요소로부터 문자적 표현의 병음이 음성 인식 결과의 병음과 매칭되는 제어 요소를 타겟 제어 요소로 확정하는 것은, 예를 들어, 동작(S321) ~동작(S323)을 포함할 수 있다.
동작(S321)은, 음성 인식 결과를 병음으로 전환한다.
동작(S322)은, 각 제어 요소의 문자적 표현을 병음으로 전환한다.
동작(S323)은, 음성 인식 결과의 병음과 각 제어 요소의 문자적 표현의 병음을 매칭하고, 음성 인식 결과의 병음과 매칭되는 병음을 가진 제어 요소를 타겟 제어 요소로 확정한다.
본 발명의 일 실시예에 따르면, 인식하여 얻은 음성 인식 결과가 텍스트 정보이므로, 음성 인식 결과를 병음으로 전환하고, 각 제어 요소의 문자적 표현도 병음으로 전환할 수 있다. 그 다음, 전환된 음성 인식 결과의 병음과 전환된 각 제어 요소의 문자적 표현의 병음을 매칭함으로써, 적어도 하나의 제어 요소로부터 타겟 제어 요소를 확정한다. 확정된 타겟 제어 요소의 문자적 표현의 병음은 음성 인식 결과의 병음과 매칭된다.
본 발명의 실시예에 따르면, 음성 인식 결과와 각 제어 요소의 문자적 표현을 병음으로 전환한 후, 병음의 매칭을 통해 타겟 제어 요소를 확정함으로써, 매칭 정확도를 향상시키고, 사용자의 음성은 정확한데 음성 인식 결과의 오류로 인해 얻은 잘못된 음성 인식 결과가 각 제어 요소의 문자적 표현과 매칭되지 않는 것을 방지할 수 있다. 즉, 병음을 매칭시키는 방식을 통해 사용자 음성이 의미하는 타겟 제어 요소를 보다 신속하고 정확하게 확정할 수 있어, 타겟 제어 요소의 매칭 정확도 및 매칭 효율을 향상시킬 수 있다.
도4는 본 발명의 일 실시예에 따른 음성 인식 결과를 교체하는 것을 개략적으로 나타낸다.
도 4에 도시된 바와 같이, 페이지에 복수의 제어 요소가 표시되어 있는 것을 예로 들어 설명한다. 음성 인식 결과의 병음과 각 제어 요소의 문자적 표현의 병음을 매칭하여 타겟 제어 요소를 확정한 후, 음성 인식 결과와 타겟 제어 요소의 문자적 표현을 매칭하여, 일치하지 않을 경우, 음성 인식 결과를 타겟 제어 요소의 문자적 표현으로 교체한다.
예를 들어, 페이지에 표시된 복수의 제어 요소가 문자, 이미지를포함하는 경우를 예로 들어 설명한다. 예를 들어, 복수의 제어 요소(401, 402, 403, 404, 405)가 각각 문자 "영화", 문자 "드라마" 문자 "다큐멘터리", 어느 영화(예를 들어, 영화 "히어로")의 이미지, 어느 드라마(예를 들어, 드라마 "서유기")의 이미지이다. 문자 타입의 제어 요소 (401, 402, 403)일 경우, 각 제어 요소의 문자적 표현은 해당 제어 요소 그 자체이다. 이미지 타입의 제어 요소 (404, 405)일 경우, 제어 요소 (404, 405)의 문자적 표현은 예를 들어 각각 "히어로", "서유기"이다. 음성 인식 결과(406)는 예를 들어 "더라마"이다. 음성 인식 결과 "더라마"의 병음과 각 제어 요소의 문자적 표현의 병음을 매칭하여, 매칭되는 제어 요소를 타겟 제어 요소로 확정한다. 예를 들어, 제어 요소 "드라마()"의 중국어 병음 "dianshiju"와 음성 인식 결과 "더라마()"의 중국어 병음 "dianshiju"가 매칭되므로, 제어 요소 "드라마"를 타겟 제어 요소로 확정할 수 있다.
그 다음, 음성 인식 결과 "더라마"와 타겟 제어 요소의 문자적 표현 "드라마"를 매칭한다. 매칭 결과 일치하지 않으므로, 음성 인식 결과(406)를 타겟 제어 요소의 문자적 표현으로 교체하여, 교체된 후의 음성 인식 결과(406')를 취득한다. 교체된 후의 음성 인식 결과(406')는 예를 들어 "드라마"이다.
도5는 본 발명의 다른 일 실시예에 따른 음성 인식 결과를 교체하는 것을 개략적으로 나타낸다.
도 5에 도시된 바와 같이, 페이지에 복수의 제어 요소가 표시되어 있는 경우를 예로 들어 설명한다. 각 제어 요소의 문자적 표현은 복수의 서브 부분을 포함한다. 음성 인식 결과의 병음과 각 제어 요소의 복수의 서브 부분중의 각 서브 부분의 병음을 매칭한다. 그 다음, 적어도 하나의 서브 부분의 병음이 음성 인식 결과의 병음과 매칭되는 제어 요소를 타겟 제어 요소로 확정한다. 그 다음, 음성 인식 결과와 타겟 제어 요소의 적어도 하나의 서브 부분을 매칭하여, 일치하지 않을 경우, 음성 인식 결과를 타겟 제어 요소의 문자적 표현중 적어도 하나의 서브 부분으로 교체하여 표시한다.
예를 들어, 페이지에 표시된 복수의 제어 요소가 문자, 이미지를포함하는 경우를 예로 들어 설명한다. 예를 들어, 복수의 제어 요소 (501, 502, 503, 504, 505)가 각각 문자 "영화", 문자 "드라마" 문자 "다큐멘터리" 어느 영화(예를 들어, 영화 "히어로")의 이미지, 어느 드라마(예를 들어, 드라마 "서유기")의 이미지이다. 문자 타입의 제어 요소 (501, 502, 503)일 경우, 각 제어 요소의 문자적 표현은 해당 제어 요소 그 자체이다. 이미지 타입의 제어 요소 (504, 505)일 경우, 제어 요소 (504, 505) 각자의 문자적 표현은 예를 들어 복수의 서브 부분을 포함한다.
예를 들어, 제어 요소(505)의 경우, 제어 요소(505)의 문자적 표현은 예를 들어 복수의 서브 부분(505A, 505B, 505C)을 포함하고, 복수의 서브 부분(505A, 505B, 505C)은 예를 들어 각각 "서유기", "배우XXX", "25회"일 수 있다.
음성 인식 결과(506)는 예를 들어 "소유기("", "서유기"의 잘못된 중국어 표기법, 발음(병음)은 "서유기"의 정확한 중국어 표기법인 ""와 동일함.)"이다. 음성 인식 결과 "소유기"의 병음과 각 제어 요소의 복수의 서브 부분중의 각 서브 부분의 병음을 매칭한다. 예를 들어, 음성 인식 결과 "소유기"의 병음과 제어 요소(504)의 복수의 서브 부분중의 각 서브 부분의 병음을 매칭하여, 각 서브 부분의 병음과 모두 매칭되지 않을 경우, 계속하여 음성 인식 결과 "소유기"의 병음과 제어 요소(505)의 복수의 서브 부분중의 각 서브 부분의 병음을 매칭하여 매칭결과를 취득한다. 매칭 결과, 예를 들어, 제어 요소(505)의 서브 부분(505A)(예를 들어, "서유기")의 병음과 음성 인식 결과 "소유기"의 병음이 매칭되므로, 제어 요소(505)를 타겟 제어 요소로 확정한다.
그 다음, 음성 인식 결과 "소유기"와 타겟 제어 요소의 문자적 표현 "서유기"를 매칭한다. 매칭결과 일치하지 않으므로, 음성 인식 결과(506)를 타겟 제어 요소의 문자적 표현중의 서브 부분 "서유기"로 교체하여, 교체된 후의 음성 인식 결과(506')를 취득한다. 교체된 후의 음성 인식 결과(506')는 예를 들어 "서유기"이다.
지적해두어야 할 것은, 본 발명의 실시예에 따르면, 제어 요소의 문자적 표현은 복수의 서브 부분을 포함하고, 음성 인식 결과의 병음과 각 서브 부분의 병음을 매칭하여 타겟 제어 요소를 확정하고, 확정된 타겟 제어 요소의 문자적 표현에는 음성 인식 결과의 병음과 매칭되는 서브 부분이 포함되어 있고, 상기 서브 부분과 음성 인식 결과를 매칭하여, 일치하지 않을 경우, 음성 인식 결과를 상기 서브 부분으로 교체한다. 즉, 음성 인식 결과를 교체할 때, 해당 음성 인식 결과를 타겟 제어 요소의 문자적 표현의 서브 부분으로 교체함으로써, 지향성 있게 음성 인식 결과를 교체하여, 교체된 후의 음성 인식 결과가 사용자의 수요에 보다 부합되도록 할 수 있다.
도6은 본 발명의 다른 일 실시예에 따른 음성 인식 결과를 교체하는 것을 개략적으로 나타낸다.
도 6에 도시된 바와 같이, 음성 인식 결과에는 예를 들어 문자열이 포함되어 있다. 음성 인식 결과의 키워드를 확정하고, 키워드의 병음과 제어 요소의 문자적 표현의 병음을 매칭함으로써, 병음이 키워드의 병음과 매칭되는 제어 요소를 타겟 제어 요소로 확정한다. 그 다음, 음성 인식 결과의 키워드와 타겟 제어 요소의 문자적 표현을 매칭하여, 일치하지 않을 경우, 음성 인식 결과의 키워드를 타겟 제어 요소의 문자적 표현으로 교체하여 표시한다.
예를 들어, 페이지에 표시된 복수의 제어 요소가 문자, 이미지를포함하는 경우를 예로 들어 설명한다. 예를 들어, 복수의 제어 요소(601, 602, 603, 604, 605)가 각각 문자 "영화", 문자 "드라마", 문자 "다큐멘터리", 어느 영화(예를 들어, 영화 "히어로")의 이미지, 어느 드라마(예를 들어, 드라마 "서유기")의 이미지이다. 문자 타입의 제어 요소 (601, 602, 603)일 경우, 각 제어 요소의 문자적 표현은 해당 제어 요소 그 자체이다. 이미지 타입의 제어 요소 (604, 605)일 경우, 제어 요소 (604, 605)의 문자적 표현은 예를 들어 각각 "히어로", "서유기"이다.
음성 인식 결과(606)는 예를 들어 "소유기를 재생하세요"이고, 상기 음성 인식 결과(606)는 문자열이다. 여기서, 음성 인식 결과(606)의 키워드(606A)를 확정할 수 있다. 예를 들어, 음성 인식 결과(606)의 각 단어의 품사를 확정한 후, 음성 인식 결과(606)중의 명사를 키워드로 확정한다. 예를 들어, 음성 인식 결과(606)의 "소유기"를 키워드(606A)로 확정한다.
그 다음, 음성 인식 결과(606)의 키워드(606A)(즉, "소유기")의 병음과 각 제어 요소의 문자적 표현의 병음을 매칭하여, 매칭되는 제어 요소를 타겟 제어 요소로 확정한다. 예를 들어, 제어 요소(605)의 문자적 표현 "서유기()"의 중국어 병음 "xiyouji"와 음성 인식 결과(606)의 키워드 "소유기()"의 중국어 병음 "xiyouji"가 매칭되므로, 제어 요소(605)를 타겟 제어 요소로 확정한다.
다음, 음성 인식 결과(606)의 키워드 "소유기"와 타겟 제어 요소의 문자적 표현 "서유기"를 매칭한다. 매칭결과 일치하지 않으므로, 음성 인식 결과(606)의 키워드 "소유기"를 타겟 제어 요소의 문자적 표현 "서유기"로 교체하여 교체된 후의 음성 인식 결과(606')를 취득한다. 교체된 후의 음성 인식 결과(606')는 예를 들어 "서유기를 재생하세요"이고, 여기서, 교체된 후의 음성 인식 결과(606')의 명사 키워드(606A')는 "서유기"이다.
지적해두어야 할 것은, 음성 인식 결과에 문자열이 포함될 경우, 상기 음성 인식 결과중의 키워드를 제외한 기타 단어들은 일반적으로 통용 문자이므로, 키워드를 제외한 기타 단어에 대한 인식 정확도는 보편적으로 높으므로, 음성 인식 결과의 키워드를 확정하고, 키워드의 병음과 각 제어 요소의 문자적 표현의 병음을 매칭하여 타겟 제어 요소를 확정한 후, 타겟 제어 요소의 문자적 표현과 음성 인식 결과를 매칭하여, 일치하지 않을 경우, 음성 인식 결과를 타겟 제어 요소의 문자적 표현으로 교체한다. 즉, 음성 인식 결과를 교체할 때, 지향성 있게 음성 인식 결과의 키워드를 매칭 및 교체함으로써, 매칭 및 교체 효율을 향상시키고, 매칭 및 교체에 필요한 컴퓨팅량을 감소시킬 수 있으며, 교체 후의 음성 인식 결과가 교체 전의 음성 인식 결과에 비해 변동이 작도록 하여, 교체된 후의 음성 인식 결과가 사용자의 수요에 보다 부합되도록 할 수 있다.
도7은 본 발명의 다른 일 실시예에 따른 음성 인식 결과를 교체하는 것을 개략적으로 나타낸다.
도 7에 도시된 바와 같이, 음성 인식 결과에는 예를 들어 문자열이 포함되고, 각 제어 요소의 문자적 표현은 복수의 서브 부분을 포함한다. 음성 인식 결과의 키워드를 확정하고, 키워드의 병음과 각 제어 요소의 복수의 서브 부분중의 각 서브 부분의 병음을 매칭한다. 그 다음, 적어도 하나의 서브 부분의 병음이 음성 인식 결과의 키워드의 병음과 매칭되는 제어 요소를 타겟 제어 요소로 확정한다. 그 다음, 음성 인식 결과의 키워드와 타겟 제어 요소의 적어도 하나의 서브 부분을 매칭하여, 일치하지 않을 경우, 음성 인식 결과의 키워드를 타겟 제어 요소의 문자적 표현중 적어도 하나의 서브 부분으로 교체하여 표시한다.
예를 들어, 페이지에 표시된 복수의 제어 요소가 문자, 이미지를포함하는 경우를 예로 들어 설명한다. 예를 들어, 복수의 제어 요소(701, 702, 703, 704, 705)가 각각 문자 "영화", 문자 "드라마" 문자 "다큐멘터리", 어느 영화(예를 들어, 영화 "히어로")의 이미지, 어느 드라마(예를 들어, 드라마 "서유기")의 이미지이다. 문자 타입의 제어 요소 (701, 702, 703)일 경우, 각 제어 요소의 문자적 표현은 해당 제어 요소 그 자체이다. 이미지 타입의 제어 요소 (704, 705)일 경우, 제어 요소 (704, 705) 각자의 문자적 표현은 예를 들어 복수의 서브 부분을 포함할 수 있다.
예를 들어, 제어 요소(705)의 경우, 해당 제어 요소(705)의 문자적 표현은 예를 들어 복수의 서브 부분(705A, 705B, 705C)을 포함하고, 복수의 서브 부분(705A, 705B, 705C)은 예를 들어 각각 "서유기", "배우XXX", "25회"이다.
음성 인식 결과(706)가 예를 들어 "소유기를 재생하세요"이고, 상기 음성 인식 결과(706)는 문자열이다. 예를 들어, 음성 인식 결과(706)의 각 단어의 품사를 확정한 후, 음성 인식 결과(706)의 명사를 키워드(706A)로 확정한다. 예를 들어, 음성 인식 결과(706)의 "소유기"를 키워드(706A)로 확정한다.
그 다음, 음성 인식 결과(706)의 키워드(706A)(즉, "소유기")의 병음과 각 제어 요소의 복수의 서브 부분중의 각 서브 부분의 병음을 매칭한다. 예를 들어, 음성 인식 결과(706)의 키워드 "소유기"의 병음과 제어 요소(705)의 복수의 서브 부분중의 각 서브 부분의 병음을 매칭하여 매칭결과를 취득한다. 매칭 결과, 제어 요소(705)의 서브 부분 "서유기"의 병음과 음성 인식 결과(706)의 키워드 "소유기"의 병음이 매칭되므로, 제어 요소(705)를 타겟 제어 요소로 확정한다.
그 다음, 음성 인식 결과(706)의 키워드 "소유기"와 타겟 제어 요소의 문자적 표현 "서유기"를 매칭한다. 매칭결과 일치하지 않으므로, 음성 인식 결과(706)의 키워드 "소유기"를 타겟 제어 요소의 문자적 표현 "서유기"로 교체하여 교체된 후의 음성 인식 결과(706')를 취득한다. 교체된 후의 음성 인식 결과(706')는 예를 들어 "서유기를 재생하세요"이고, 여기서, 교체된 후의 음성 인식 결과(706')의 명사 키워드(606A')는 "서유기"이다.
지적해두어야 할 것은, 음성 인식 결과에 문자열이 포함될 경우, 상기 음성 인식 결과중의 키워드를 제외한 기타 단어들은 일반적으로 통용 문자이므로, 키워드를 제외한 기타 단어에 대한 인식 정확도는 보편적으로 높으므로, 음성 인식 결과의 키워드를 확정하고, 키워드의 병음과 각 제어 요소의 복수의 서브 부분의 병음을 매칭하여 타겟 제어 요소를 확정한 후, 타겟 제어 요소의 서브 부분과 음성 인식 결과를 매칭하여, 일치하지 않을 경우, 음성 인식 결과를 타겟 제어 요소의 서브 부분으로 교체한다. 즉, 음성 인식 결과를 교체할 때, 지향성 있게 음성 인식 결과의 키워드를 타겟 제어 요소의 문자적 표현의 서브 부분으로 교체함으로써, 매칭 및 교체 효율을 향상시키고, 매칭 및 교체에 필요한 컴퓨팅량을 감소시킬 수 있으며, 교체 후의 음성 인식 결과가 교체 전의 음성 인식 결과에 비해 변동이 작도록 하여, 교체된 후의 음성 인식 결과가 사용자의 수요에 보다 부합되도록 할 수 있다.
도8은 본 발명의 다른 일 실시예에 따른 음성 인식에 기반한 페이지 조작 방법의 흐름도를 개략적으로 나타낸다.
도 8에 도시된 바와 같이, 본 발명의 실시예에 따르면, 음성 인식에 기반한 페이지 조작 방법(800)은 예를 들어 동작(S810) ~동작(S880)을 포함할 수 있고, 동작(S840)은 예를 들어 동작(S841) ~동작(S843)을 포함할 수 있다.
동작(S810)은, 수신된 음성을 인식하여, 음성 인식 결과를 취득한다.
동작(S820)은, 각 제어 요소에 대해 설정한 중국어 형식의 문자적 표현을 취득한다.
동작(S830)은, 적어도 하나의 제어 요소로부터 문자적 표현의 병음이 음성 인식 결과의 병음과 매칭되는 타겟 제어 요소를 확정한다.
동작(S840)은, 상기 타겟 제어 요소와 연관된 제어 동작을 실행하여 상기 음성 인식 결과를 표시한다. 음성 인식 결과와 타겟 제어 요소의 문자적 표현이 매칭되지 않을 경우, 음성 인식 결과를 타겟 제어 요소의 문자적 표현으로 교체하여 표시한다. 동작(S840)은 예를 들어 동작(S841) ~동작(S843)을 포함한다.
동작(S841)은, 타겟 제어 요소와 연관된 제어 동작을 실행하여 음성 인식 결과를 표시한다.
동작(S842)은, 음성 인식 결과와 타겟 제어 요소의 문자적 표현의 매칭 여부를 확정한다. 매칭되지 않을 경우, 동작(S843)을 실행하고, 매칭되는 경우, 종료된다.
동작(S843)은, 음성 인식 결과를 타겟 제어 요소의 문자적 표현으로 교체하여 표시한다.
동작(S820)을 실행한 후, 동작(S830)을 실행하기 전에, 동작(S850) 및 동작(S860)을 실행할 수 있다.
동작(S850)은, 음성 인식 결과를 병음으로 전환하고, 각 제어 요소의 문자적 표현을 병음으로 전환한다.
동작(S860)은, 음성 인식 결과의 병음과 각 제어 요소의 문자적 표현의 병음을 매칭하여, 음성 인식 결과의 병음과 각 제어 요소의 문자적 표현의 병음의 매칭 여부를 확정한다. 매칭될 경우, 동작(S830)을 실행하고, 매칭되지 않을 경우, 동작(S870)을 실행한다.
동작(S870)은, 음성 인식 결과의 병음과 적어도 하나의 제어 요소중의 각 제어 요소의 문자적 표현의 병음이 매칭되지 않을 경우, 음성 인식 결과에 대해 시맨틱 분석을 진행하여 시맨틱 분석 결과를 취득한다.
동작(S880)은, 시맨틱 분석 결과에 기초하여, 시맨틱 분석 결과에 대응되는 애플리케이션을 작동시킨다.
예를 들어, 음성 인식 결과가 "내비게이션을 작동하세요"일 경우, 음성 인식 결과의 병음과 각 제어 요소의 문자적 표현의 병음이 모두 매칭되지 않을 경우, 해당 음성 인식 결과에 대해 시맨틱 분석을 진행하여 시맨틱 분석 결과를 취득할 수 있다. 시맨틱 분석 결과가 사용자가 맵 애플리케이션을 작동시켜 네비게이션을 진행할 필요가 있다는 것을 나타낼 때, 시맨틱 분석 결과에 기초하여 맵 애플리케이션을 작동시킬 수 있다.
지적해두어야 할 것은, 본 발명의 실시예에 따르면, 음성 인식 결과의 병음과 각 제어 요소의 문자적 표현의 병음이 모두 매칭되지 않을 경우, 음성 인식 결과에 대해 시맨틱 분석을 진행하여 사용자의 음성의 의도를 나타내는 시맨틱 분석 결과를 취득할 수 있고, 시맨틱 분석 결과에 기초하여 시맨틱 분석 결과에 대응되는 애플리케이션을 작동시켜, 다양한 방식으로 사용자의 음성에 응답하여 사용자의 요구를 만족시킴으로써, 사용자의 사용 체험을 향상시킬 수 있다.
도9는 본 발명의 다른 일 실시예에 따른 음성 인식 결과를 교체하는 것을 개략적으로 나타낸다.
도 9에 도시된 바와 같이, 수신된 음성을 인식하여, 음성 인식 결과를 취득한 후, 인식된 음성 인식 결과를 직접 페이지에 표시할 수 있다. 후속적으로, 음성 인식 결과와 타겟 제어 요소의 문자적 표현이 매칭되지 않음을 확정하였을 경우, 음성 인식 결과를 타겟 제어 요소의 문자적 표현으로 교체한 후, 교체된 후의 음성 인식 결과를 페이지에 표시하여 기존의 음성 인식 결과를 오버라이트할 수 있다. 구체적으로는, 교체하여 취득한 음성 인식 결과의 교체된 후의 키워드를 페이지에 표시하여 기존의 음성 인식 결과의 키워드를 오버라이트한다.
음성 인식 결과(901)가 "소유기를 재생하세요"인 경우를 예로 들면, 상기 "소유기를 재생하세요"를 페이지에 표시한다. 상기 음성 인식 결과(901)의 키워드(901A)(예를 들어, "소유기")는 타겟 제어 요소의 문자적 표현인 "서유기"와 매칭되지 않으므로, 음성 인식 결과(901)의 키워드인 "소유기"를 타겟 제어 요소의 문자적 표현인 "서유기"로 교체한다. 이렇게 얻은 교체 후의 음성 인식 결과(901')는 "서유기를 재생하세요"이고, 교체된 후의 음성 인식 결과 "서유기를 재생하세요"를 페이지에 표시한다. 여기서, 원래 페이지에 표시되어 있는 음성 인식 결과(901)(예를 들어, "소유기를 재생하세요")중의 "재생하세요"는 교체된 후의 음성 인식 결과(901')(예를 들어, "서유기를 재생하세요")중의 키워드(901A')(예를 들어, "서유기")와 함께 페이지에 표시할 수 있다. 즉, 페이지에 표시되어 있는 음성 인식 결과 "소유기를 재생하세요"중의 "재생하세요"는 교체되지 않고 항상 표시되고, 다만 지향성 있게 키워드만 교체하여 표시한다.
본 발명의 실시예에 따르면, 페이지는 전자장비의 터치 스크린 상에 표시된다. 사용자는 페이지의 제어 요소를 터치할 수 있고, 전자장비는 터치 스크린 상에서 페이지의 제어 요소에 대한 터치 동작에 응답하여 터치된 제어 요소와 연관된 제어 동작을 실행할 수 있다.
도10은 본 발명의 일 실시예에 따른 페이지 개략도이다.
도 10에 도시된 바와 같이, 본 발명의 실시예에 따르면, 페이지는 웹 페이지를 포함하고, 페이지의 제어 요소는 웹 주소(1001), 이미지(1002), 아이콘(1003) 및 문자(1004)중 적어도 하나를 포함하며, 타겟 제어 요소와 연관된 제어 동작은 웹 주소(1001), 이미지(1002), 아이콘(1003) 및 문자(1004)중 적어도 하나와 연관된 링크 주소에 접속하는 것을 포함한다.
예를 들어, 사용자가 웹 주소(1001)를 터치하면, 해당 웹 주소(1001)와 연관된 제어 동작을 실행하여, 예를 들어, 해당 웹 주소(1001)에 대응되는 웹 페이지로 이동한다. 사용자가 이미지(1002)(상기 이미지(1002)는 예를 들어 드라마 "서유기"의 이미지임)를 터치하면, 해당 이미지(1002)와 연관된 제어 동작을 실행하여, 예를 들어, 드라마 "서유기"와 연관된 정보를 보여주는 웹 페이지로 이동한다. 사용자가 아이콘(1003)(상기 아이콘(1003)은 예를 들어 재생 아이콘임)을 터치하면, 해당 아이콘(1003)과 연관된 제어 동작을 실행하여, 예를 들어, 드라마 "서유기"를 재생한다. 사용자가 문자(1004)를 터치하면, 해당 문자(1004)와 연관된 제어 동작을 실행하여, 예를 들어, 드라마 "홍루몽"을 재생하거나 드라마 "홍루몽"과 연관된 정보를 보여주는 웹 페이지로 이동한다.
도11은 본 발명의 다른 일 실시예에 따른 페이지 개략도이다.
도 11에 도시된 바와 같이, 본 발명의 실시예에 따르면, 페이지는 애플리케이션의 인터페이스를 포함하고, 제어 요소는 이미지(1101), 아이콘(1102), 문자(1103)중 적어도 하나를 포함하며, 타겟 제어 요소와 연관된 제어 동작은 동영상 재생, 오디오 재생, 리스트 표시중 적어도 하나를 포함한다.
사용자가 이미지(1101)를 터치하면, 해당 이미지(1101)와 연관된 제어 동작을 실행하여, 예를 들어, 뮤직 동영상을 재생한다. 사용자가 아이콘(1102)을 터치하면, 해당 아이콘(1102)과 연관된 제어 동작을 실행하여, 예를 들어, "XXX 뮤직"와 같은 오디오를 재생한다. 사용자가 문자(1103)를 터치하면, 해당 문자(1103)와 연관된 제어 동작을 실행하여, 예를 들어, 가수 리스트와 같은 리스트를 표시한다.
지적해두어야 할 것은, 상기의 페이지는 단지 본 발명의 실시예의 기술방안을 쉽게 이해할 수 있도록 제공한 실예이며, 본 발명의 실시예에 따른 페이지는 상기 페이지를 포함할 수 있는데, 이에 한정되지는 않는다. 본 발명의 실시예에 따른 페이지는 임의의 형태의 페이지를 포함할 수 있다.
본 발명의 실시예에 따른 음성 인식에 기반한 페이지 조작 방법은 클라우드 컴퓨팅을 통해 실행될 수 있고, 예를 들어, 음성 인식에 기반한 페이지 조작방법은 클라우드에서 실핼될 수 있다. 구체적으로는, 사용자의 음성에 대한 인식을 통해 음성 인식 결과를 취득하는 과정, 병음 전환 및 병음 매칭을 통해 타겟 제어 요소를 확정하는 과정, 음성 인식 결과와 타겟 제어 요소의 문자적 표현을 매칭하는 과정, 음성 인식 결과에 대한 음성 인식 과정 등은 모두 클라우드에서 실행하여 실행결과를 취득할 수 있다. 클라우드는 실행 결과를 전자장비로 전송하여 전자장비에 저장하고, 전자장비가 음성 인식 결과를 타겟 제어 요소의 문자적 표현으로 교체하여 페이지에 표시할 수 있다.
도12는 본 발명의 실시예에 따른 음성 인식에 기반한 페이지 조작 장치의 블록도를 개략적으로 나타낸다.
도 12에 도시된 바와 같이, 본 발명의 실시예에 따른 음성 인식에 기반한 페이지 조작 장치(1200)는 예를 들어 인식 모듈(1210), 취득 모듈(1220), 확정 모듈(1230) 및 표시 모듈(1240)을 포함한다.
인식 모듈(1210)은 수신된 음성을 인식하여, 음성 인식 결과를 취득할 수 있다. 본 발명의 실시예에 따르면, 인식 모듈(1210)은 예를 들어 앞에서 도2를 참조하여 설명한 동작(S210)을 실행할 수 있고, 여기서는 설명을 생략한다.
취득 모듈(1220)은 각 제어 요소에 대해 설정한 중국어 형식의 문자적 표현을 취득할 수 있다. 본 발명의 실시예에 따르면, 취득 모듈(1220)은 예를 들어 앞에서 도2를 참조하여 설명한 동작(S220)을 실행할 수 있고, 여기서는 설명을 생략한다.
확정 모듈(1230)은 적어도 하나의 제어 요소로부터 문자적 표현의 병음이 상기 음성 인식 결과의 병음과 매칭되는 타겟 제어 요소를 확정할 수 있다. 본 발명의 실시예에 따르면, 확정 모듈(1230)은 예를 들어 앞에서 도2를 참조하여 설명한 동작(S230)을 실행할 수 있고, 여기서는 설명을 생략한다.
표시 모듈(1240)은 상기 타겟 제어 요소와 연관된 제어 동작을 실행하여 상기 음성 인식 결과를 표시할 수 있다. 여기서, 음성 인식 결과와 타겟 제어 요소의 문자적 표현이 매칭되지 않을 경우, 음성 인식 결과를 타겟 제어 요소의 문자적 표현으로 교체하여 표시한다. 본 발명의 실시예에 따르면, 표시 모듈(1240)은 예를 들어 앞에서 도2를 참조하여 설명한 동작(S240)을 실행할 수 있고, 여기서는 설명을 생략한다.
본 발명의 실시예에 따르면, 본 발명은 전자장비 및 비 일시적 컴퓨터 판독가능 저장 매체를 더 제공한다.
도13은 본 발명의 실시예에 따른 음성 인식에 기반한 페이지 조작 방법을 구현하기 위한 전자장비의 블록도이다.
도 13에 도시된 바와 같이, 본 발명의 실시예에 따른 음성 인식에 기반한 페이지 조작 방법을 구현하기 위한 전자장비(1300)의 블록도이다. 전자장비(1300)는 예를 들어, 랩탑 컴퓨터, 데스크 탑 컴퓨터, 워크스테이션, PDA(Personal Digital Assistants), 서버, 블레이드 서버, 메인프레임 컴퓨터, 및 기타 적절한 컴퓨터와 같은 다양한 형태의 디지털 컴퓨터를 포함할 수 있다. 전자장비는 예를 들어, PDA (Personal Digital Assistants), 셀룰러 전화기, 스마트 폰, 웨어러블 장비, 및 기타 유사한 컴퓨팅 장비와 같은 다양한 형태의 모바일 장비를 포함할 수 있다. 본 명세서에 기재된 부품, 이들의 연결 및 관계, 그리고 이들의 기능은 단지 예시적인 것에 불과하며, 본 명세서에서 설명 및/또는 요구하는 본 발명의 범위를 한정하기 위한 것이 아니다.
도 13에 도시된 바와 같이, 상기 전자장비(1300)는, 하나 또는 복수의 프로세서(1310), 메모리(1320), 및 각 부품을 연결하기 위한 인터페이스를 포함하고, 상기 인터페이스에는 고속 인터페이스 및 저속 인터페이스가 포함된다. 각 부품들은 서로 다른 버스를 통해 서로 연결되고, 공공 메인보드에 장착되거나 또는 수요에 따라 기타 방식으로 장착될 수 있다. 프로세서는 전자장비(1300)에서 실행되는 명령들을 실행할 수 있고, 상기 명령은 메로리에 저장되어 외부 입력/출력 장치(예를 들어, 인터페이스에 접속된 표시 장치)에 GUI의 그래픽 정보를 표시하기 위한 명령을 포함할 수 있다. 다른 실시예에서는, 수요에 따라 복수의 프로세서 및/또는 복수의 버스를 복수의 메모리와 함께 사용될 수 있다. 마찬가지로, 복수의 전자장비(1300)를 연결하고, 각 전자장비에 의해 일부 필요한 동작을 제공할 수 있다(예를 들어, 서버 어레이, 한 세트의 블레이드 서버, 또는 멀티 프로세서 시스템). 도13에서는, 하나의 프로세서(1310)의 경우를 예로 들어 설명한다.
메모리(1320)는 본 발명에 의해 제공되는 비 일시적 컴퓨터 판독가능 저장 매체이다. 여기서, 메모리에는 적어도 하나의 프로세서에 의해 실행될 수 있는 명령이 저장될 수 있고, 상기 명령이 상기 적어도 하나의 프로세서에 의해 실행될 경우, 본 발명에 의해 제공되는 음성 인식에 기반한 페이지 조작 방법을 실행할 수 있다. 본 발명의 비 일시적 컴퓨터 판독가능 저장 매체에는 컴퓨터에 의해 실행될 경우 컴퓨터로 하여금 본 발명에 의해 제공되는 음성 인식에 기반한 페이지 조작 방법을 실행하도록 하는 컴퓨터 명령이 저장되어 있다.
메모리(1320)는 비 일시적 컴퓨터 판독가능 저장 매체로서, 예를 들어, 본 발명의 실시예에 따른 음성 인식에 기반한 페이지 조작 방법에 대응하는 프로그램 명령/모듈(예를 들어, 도12에 도시된 인식 모듈(1210), 취득 모듈(1220), 확정 모듈(1230) 및 표시 모듈(1240))과 같은 비 일시적 소프트웨어 프로그램, 비 일시적 컴퓨터 실행가능 프로그램 및 모듈을 저장할 수 있다. 프로세서(1310)는 메모리(1320)에 저장된 비 일시적 소프트웨어 프로그램, 명령 및 모듈을 실행함으로써, 서버의 다양한 기능 및 데이터 처리를 실행한다. 즉, 상기 방법 실시예에 따른 음성 인식에 기반한 페이지 조작 방법을 구현한다.
메모리(1320)는 프로그램 저장 영역 및 데이터 저장 영역을 포함할 수 있다. 여기서, 프로그램 저장 영역은 OS 시스템 및 적어도 하나의 기능에 필요한 애플리케이션을 저장할 수 있고, 데이터 저장 영역은 음성 인식에 기반한 페이지 조작 방법의 전자장비(1300)의 사용에 따라 생성된 데이터 등을 저장할 수 있다. 또한, 메모리(1320)는 고속 RAM(Random Access Memory)를 포함할 수도 있고, 예를 들어, 적어도 하나의 디스크 저장 디바이스, 플래시 메모리 디바이스, 또는 기타 비 일시적 고체 저장 디바이스와 같은 비 일시적 메모리를 포함할 수도 있다. 일부 실시예에 따르면, 메모리(1320)는 프로세서(1310)에 대해 원격으로 설치된 메모리를 포함할 수 있고, 이러한 원격 메모리는 네트워크를 통해 음성 인식에 기반한 페이지 조작 방법의 전자장비(1300)에 연결될 수 있다. 상기 네트워크의 실예로는 인터넷, 인트라넷, 근거리 통신망(LAN), 이동 통신망 및 이들의 조합을 포함할 수 있는데, 이에 한정되지는 않는다.
음성 인식에 기반한 페이지 조작 방법의 전자장비(1300)는, 입력장치(1330) 및 출력장치(1340)를 더 포함할 수 있다. 프로세서(1310), 메모리(1320), 입력장치(1330) 및 출력장치(1340)는 버스 또는 기타 방식으로 연결될 수 있는데, 도13에는 버스를 통해 연결되는 예를 도시한다.
입력장치(1330)는 입력된 숫자 또는 캐릭터 정보를 수신할 수 있고, 또한 음성 인식에 기반한 페이지 조작 방법의 전자장비(1300)의 사용자 설정 및 기능 제어와 연관된 키 신호입력을 생성할 수 있으며, 예를 들어, 터치 스크린, 키 패드, 마우스, 트랙 패드, 터치 패드, 인디케이터 로드, 하나 또는 복수의 마우스 버튼, 트랙 볼, 콘트로럴 로드 등과 같은 입력장치를 포함할 수 있다. 출력장치(1340)는 표시 장치, 보조 조명장치(예를 들어, LED) 및 햅틱 피드백 장치(예를 들어, 진동모터) 등을 포함할 수 있다. 상기 표시 장치는 액정 디스플레이(LCD), 발광 다이오드(LED) 디스플레이 및 플라스마 디스플레이를 포함할 수 있는데, 이에 한정되지는 않는다. 일부 실시 형태에 따르면, 표시 장치는 터치 스크린일 수 있다.
여기서 설명한 시스템 및 기술의 다양한 실시 형태는 디지털 전자 회로 시스템, 집적 회로 시스템, 주문형 ASIC(주문형 집적 회로), 컴퓨터 하드웨어, 펌웨어, 소프트웨어, 및/또는 이들의 조합으로 구현될 수 있다. 이러한 다양한 실시형태는 하나 또는 복수의 컴퓨터 프로그램을 통해 구현될 수 있고, 상기 하나 또는 복수의 컴퓨터 프로그램은 적어도 하나의 프로그램 가능 프로세서를 포함하는 프로그램 가능 시스템에서 실행 및/또는 해석될 수 있으며, 상기 프로그램 가능 프로세서는 전용 또는 범용 프로그램 가능 프로세서일 수 있고, 저장 시스템, 적어도 하나의 입력장치, 및 적어도 하나의 출력장치로부터 데이터 및 명령을 수신하고, 데이터 및 명령을 저장 시스템, 적어도 하나의 입력장치, 및 적어도 하나의 출력장치로 전송할 수 있다.
이러한 컴퓨터 프로그램(프로그램, 소프트웨어, 소프트웨어 응용 프로그램, 또는 코드라고도 함)은 프로그램 가능 프로세서의 기계언어 명령을 포함하고, 하이 라벨 프로시저 및/또는 객체 지향 프로그래밍 언어, 및/또는 어셈블러/기계언어를 사용하여 이러한 컴퓨터 프로그램을 실시할 수 있다. 본 명세서에서 사용되는 "기계 판독가능 매체" 및 "컴퓨터 판독가능 매체" 등과 같은 용어는, 기계언어 명령 및/또는 데이터를 프로그램 가능 프로세서의 임의의 컴퓨터 프로그램 제품, 장비, 및/또는 장치(예를 들어, 디스크, CD-ROM, 메모리, 프로그램 가능 논리 장치(PLD))에 제공하는데 사용되고, 기계 판독 가능 신호로서의 기계언어 명령을 수신하는 기계 판독가능 매체를 포함한다. "기계 판독가능 신호"라는 용어는 기계언어 명령 및/또는 데이터를 프로그램 가능 프로세서에 제공하기 위한 임의의 신호를 의미한다.
사용자와의 인터액션을 제공하기 위해서는, 컴퓨터를 통해 본 명세서에서 설명한 시스템 및 기술을 구현할 있는데, 상기 컴퓨터는, 사용자에게 정보를 표시하기 위한 표시 장치(예를 들어, CRT(음극선관) 또는 LCD(액정 디스플레이) 모니터), 및 사용자가 상기 컴퓨터에 입력을 제공할 수 있는 키보드 및 포인팅 디바이스(예를 들어, 마우스 또는 트랙 볼)를 포함한다. 기타 유형의 디바이스도 사용자와의 인터액션을 제공하는데 사용될 수 있다. 예를 들어, 사용자에게 제공되는 피드백은 임의의 형태의 센싱 피드백(예를 들어, 시각 피드백, 청각 피드백, 또는 촉각 피드백)일 수 있고, 임의의 형태(소리 입력, 음성 입력, 또는 촉각 입력을 포함)로 사용자로부터의 입력을 수신할 수 있다.
본 명세서에서 설명한 시스템 및 기술은, 백 그라운더 부품을 포함하는 컴퓨팅 시스템(예를 들어, 데이터 서버), 또는 미들웨어 부품을 포함하는 컴퓨팅 시스템(예를 들어, 애플리케이션 서버), 또는 프론트 앤드 부품을 포함하는 컴퓨팅 시스템(예를 들어, GUI 또는 웹 브라우저를 갖는 사용자 컴퓨터로서, 사용자는 상기 GUI 또는 상기 웹 브라우저를 통하여 본 명세서에서 설명한 상기 시스템 및 기술의 실시 형태와 인터액션을 할 수 있음), 또는 이러한 백 그라운더 부품, 미들웨어 부품, 또는 프론트 앤드 부품의 임의의 조합을 포함하는 컴퓨팅 시스템에서 구현될 수 있다. 시스템의 부품은 임의의 형태 또는 매체의 디지털 데이터 통신(예를 들어, 통신 네트워크)을 통해 서로 연결될 수 있다. 통신 네트워크는 예를 들어 근거리 통신망(LAN), 광역 통신망(WAN) 및 인터넷을 포함할 수 있다.
컴퓨터 시스템은 클라이언트 및 서버를 포함할 수 있다. 클라이언트 및 서버는 일반적으로 서로 멀리 떨어져 있고, 통상적으로 통신 네트워크를 통해 인터액션을 진행한다. 클라이언트와 서버의 관계는 대응하는 컴퓨터에서 실행되고 서로 클라이언트-서버의 관계를 갖는 컴퓨터 프로그램에 의해 생성된다.
상기에서 설명한 다양한 프로세스를 사용하여 각 단계의 순서를 조정하거나, 일부 단계를 추가 또는 삭제할 수 있다는 점을 이해하여야 한다. 예를 들어, 본 발명이 개시된 기술방안이 원하는 결과를 구현할 수 있는 한, 본 발명에 기재된 다양한 단계는 병렬적으로 또는 순차적으로, 또는 서로 다른 순서로 실행될 수 있고, 본 발명은 이에 대해 특별히 한정하지 않는다.
본 발명의 보호범위는 상기 다양한 실시 형태에 의해 제한되지 않는다. 당업자라면, 설계 요구 및 기타 요인에 의해, 다양한 수정, 조합, 서브 조합 및 교체가 이루어질 수 있음을 이해할 것이다. 본 발명의 취지 및 원칙내에서 이루어진 임의의 수정, 등가 교체 및 개선 등은 모두 본 발명의 보호범위에 속한다.
응용장면 : 100 페이지 : 110
제어 요소 : 111, 112, 113, 114, 115, 401, 402, 403, 404, 405, 501, 502, 503, 504, 505
음성인식결과 :506, 606, 706', 901 문자 타입의 제어요소 :701, 702, 703
이미지 타입의 제어요소 : 704, 705
웹 주소 : 1001 이미지 : 1002, 1101
아이콘 : 1003, 1102 문자 : 1004, 1103
페이지 조작 장치 : 1200 인식 모듈 : 1210
취득 모듈 : 1220 확정 모듈 : 1230
표시 모듈: 1240 전자 장비 : 1300
프로세서 : 1310 메모리 : 1320
입력장치 : 1330 출력장치 : 1340
제어 요소 : 111, 112, 113, 114, 115, 401, 402, 403, 404, 405, 501, 502, 503, 504, 505
음성인식결과 :506, 606, 706', 901 문자 타입의 제어요소 :701, 702, 703
이미지 타입의 제어요소 : 704, 705
웹 주소 : 1001 이미지 : 1002, 1101
아이콘 : 1003, 1102 문자 : 1004, 1103
페이지 조작 장치 : 1200 인식 모듈 : 1210
취득 모듈 : 1220 확정 모듈 : 1230
표시 모듈: 1240 전자 장비 : 1300
프로세서 : 1310 메모리 : 1320
입력장치 : 1330 출력장치 : 1340
Claims (15)
- 음성 인식에 기반한 페이지 조작 방법에 있어서, 상기 페이지는 적어도 하나의 제어 요소를 포함하고, 상기 방법은,
수신된 음성을 인식하여 음성 인식 결과를 취득하는 것,
각 제어 요소에 대한 중국어 형식의 문자적 표현을 취득하는 것,
상기 적어도 하나의 제어 요소로부터 문자적 표현의 병음이 상기 음성 인식 결과의 병음과 매칭되는 타겟 제어 요소를 확정하는 것,
상기 타겟 제어 요소와 연관된 제어 동작을 실행하여 상기 음성 인식 결과를 표시하는 것을 포함하고,
상기 음성 인식 결과와 상기 타겟 제어 요소의 문자적 표현이 매칭되지 않을 경우, 상기 음성 인식 결과를 상기 타겟 제어 요소의 문자적 표현으로 교체하여 표시하는
음성 인식에 기반한 페이지 조작 방법. - 제1항에 있어서,
상기 적어도 하나의 제어 요소로부터 타겟 제어 요소를 확정하는 것은,
상기 음성 인식 결과를 병음으로 전환하는 것,
각 제어 요소의 문자적 표현을 병음으로 전환하는 것, 및
상기 음성 인식 결과의 병음과 각 제어 요소의 문자적 표현의 병음을 매칭시켜 상기 음성 인식 결과의 병음과 매칭되는 병음을 가진 제어 요소를 타겟 제어 요소로 확정하는 것을 포함하는
음성 인식에 기반한 페이지 조작 방법. - 제2항에 있어서,
상기 적어도 하나의 제어 요소중, 각 제어 요소의 문자적 표현은 복수의 서브 부분을 포함하고,
상기 음성 인식 결과의 병음과 각 제어 요소의 문자적 표현의 병음을 매칭시키는 것은,
상기 음성 인식 결과의 병음과 각 제어 요소의 상기 복수의 서브 부분중의 각 서브 부분의 병음을 매칭시키는 것을 포함하고,
상기 음성 인식 결과의 병음과 매칭되는 병음을 가진 제어 요소를 타겟 제어 요소로 확정하는 것은,
적어도 하나의 서브 부분의 병음이 상기 음성 인식 결과의 병음과 매칭되는 제어 요소를 상기 타겟 제어 요소로 확정하는 것을 포함하는
음성 인식에 기반한 페이지 조작 방법. - 제3항에 있어서,
상기 음성 인식 결과를 상기 타겟 제어 요소의 문자적 표현으로 교체하여 표시하는 것은,
상기 음성 인식 결과를 상기 타겟 제어 요소의 문자적 표현중의 상기 적어도 하나의 서브 부분으로 교체하여 표시하는 것을 포함하는
음성 인식에 기반한 페이지 조작 방법. - 제2항에 있어서,
상기 음성 인식 결과의 병음과 각 제어 요소의 문자적 표현의 병음을 매칭시키는 것은,
상기 음성 인식 결과중의 키워드를 확정하고, 상기 키워드의 병음과 상기 제어 요소의 문자적 표현의 병음을 매칭시키는 것을 포함하고,
상기 음성 인식 결과의 병음과 매칭되는 병음을 가진 제어 요소를 타겟 제어 요소로 확정하는 것은,
상기 키워드의 병음과 매칭되는 병음을 가진 제어 요소를 타겟 제어 요소로 확정하는 것을 포함하는
음성 인식에 기반한 페이지 조작 방법. - 제5항에 있어서,
상기 음성 인식 결과중의 키워드를 확정하는 것은,
상기 음성 인식 결과중의 각 단어의 품사를 확정하는 것, 및
상기 음성 인식 결과중의 명사를 상기 키워드로 확정하는 것을 포함하는
음성 인식에 기반한 페이지 조작 방법. - 제5항에 있어서,
상기 음성 인식 결과를 상기 타겟 제어 요소의 문자적 표현으로 교체하여 표시하는 것은,
상기 음성 인식 결과중의 키워드를 상기 타겟 제어 요소의 문자적 표현으로 교체하여 표시하는 것을 포함하는
음성 인식에 기반한 페이지 조작 방법. - 제1항에 있어서,
상기 음성 인식 결과의 병음과 상기 적어도 하나의 제어 요소중의 각 제어 요소의 문자적 표현의 병음이 매칭되지 않을 경우, 상기 음성 인식 결과에 대한 시맨틱 분석을 진행하여 시맨틱 분석 결과를 취득하는 것, 및
상기 시맨틱 분석 결과에 기초하여, 상기 시맨틱 분석 결과에 대응되는 애플리케이션을 작동하는 것을 더 포함하는
음성 인식에 기반한 페이지 조작 방법. - 제1항 내지 제8항중 어느 한 항에 있어서,
상기 페이지는 터치 스크린 상에 표시되고,
상기 방법은,
터치 스크린 상에서 상기 페이지의 제어 요소에 대한 터치에 응답하여, 터치된 상기 제어 요소와 연관된 제어 동작을 실행하는 것을 더 포함하는
음성 인식에 기반한 페이지 조작 방법. - 제1항 내지 제8항중 어느 한 항에 있어서,
상기 페이지는 웹 페이지를 포함하고,
상기 제어 요소는 웹 주소, 이미지, 아이콘 및 문자중 적어도 하나를 포함하고,
상기 타겟 제어 요소와 연관된 제어 동작은 웹 주소, 이미지, 아이콘 및 문자중 적어도 하나와 연관된 링크 주소에 접속하는 것을 포함하는
음성 인식에 기반한 페이지 조작 방법. - 제1항 내지 제8항중 어느 한 항에 있어서,
상기 페이지는 애플리케이션의 인터페이스를 포함되고,
상기 제어 요소는 이미지, 아이콘, 문자중 적어도 하나를 포함하고,
상기 타겟 제어 요소와 연관된 제어 동작은 동영상 재생, 오디오 재생, 리스트 표시중 적어도 하나를 포함하는
음성 인식에 기반한 페이지 조작 방법. - 음성 인식에 기반한 페이지 조작 장치에 있어서, 상기 페이지는 적어도 하나의 제어 요소를 포함하고, 상기 장치는,
수신된 음성을 인식하여 음성 인식 결과를 취득하는 인식 모듈,
각 제어 요소에 대한 중국어 형식의 문자적 표현을 취득하는 취득 모듈,
상기 적어도 하나의 제어 요소로부터 문자적 표현의 병음이 상기 음성 인식 결과의 병음과 매칭되는 타겟 제어 요소를 확정하는 확정 모듈,
상기 타겟 제어 요소와 연관된 제어 동작을 실행하여 상기 음성 인식 결과를 표시하는 표시 모듈을 포함하고,
상기 음성 인식 결과와 상기 타겟 제어 요소의 문자적 표현이 매칭되지 않을 경우, 상기 음성 인식 결과를 상기 타겟 제어 요소의 문자적 표현으로 교체하여 표시하는
음성 인식에 기반한 페이지 조작 장치. - 적어도 하나의 프로세서, 및
상기 적어도 하나의 프로세서와 통신 연결되는 메모리를 포함하고,
상기 메모리에는 상기 적어도 하나의 프로세서에 의해 실행 가능한 명령이 저장되어 있고, 상기 명령이 상기 적어도 하나의 프로세서에 의해 실행될 경우, 상기 적어도 하나의 프로세서로 하여금 제1항 내지 제8항 중 어느 한 항의 방법을 실행하게 하는
전자장비. - 컴퓨터 프로그램이 저장되어 있는 비 일시적 컴퓨터 판독가능 저장 매체에 있어서,
상기 프로그램이 프로세서에 의해 실행될 경우, 제1항 내지 제8항중 어느 한 항의 방법을 구현하는
비 일시적 컴퓨터 판독가능 저장 매체. - 컴퓨터 판독가능 저장 매체에 저장된 컴퓨터 프로그램에 있어서,
상기 컴퓨터 프로그램의 명령이 프로세서에 의해 실행될 경우, 제1항 내지 제8항중 어느 한 항의 방법을 구현하는
컴퓨터 판독가능 저장 매체에 저장된 컴퓨터 프로그램.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011028860.8A CN112114926B (zh) | 2020-09-25 | 2020-09-25 | 基于语音识别的页面操作方法、装置、设备和介质 |
CN202011028860.8 | 2020-09-25 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20210042853A true KR20210042853A (ko) | 2021-04-20 |
Family
ID=73797022
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020210040285A KR20210042853A (ko) | 2020-09-25 | 2021-03-29 | 음성 인식에 기반한 페이지 조작 방법, 장치, 전자장비, 저장 매체 및 컴퓨터 프로그램 |
Country Status (3)
Country | Link |
---|---|
JP (1) | JP7242737B2 (ko) |
KR (1) | KR20210042853A (ko) |
CN (1) | CN112114926B (ko) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113284499A (zh) * | 2021-05-24 | 2021-08-20 | 湖北亿咖通科技有限公司 | 一种语音指令识别方法及电子设备 |
CN113723082A (zh) * | 2021-08-30 | 2021-11-30 | 支付宝(杭州)信息技术有限公司 | 从文本中检测中文拼音的方法和装置 |
CN114242047A (zh) * | 2021-12-15 | 2022-03-25 | 平安科技(深圳)有限公司 | 一种语音处理方法、装置、电子设备及存储介质 |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113674743A (zh) * | 2021-08-20 | 2021-11-19 | 云知声(上海)智能科技有限公司 | 用于自然语言处理中asr结果替换处理设备及处理方法 |
CN114049890A (zh) * | 2021-11-03 | 2022-02-15 | 杭州逗酷软件科技有限公司 | 语音控制方法、装置以及电子设备 |
CN113923295B (zh) * | 2021-11-17 | 2023-04-07 | Oppo广东移动通信有限公司 | 语音控制方法、装置、电子设备以及存储介质 |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004226881A (ja) | 2003-01-27 | 2004-08-12 | Casio Comput Co Ltd | 会話システム及び会話処理プログラム |
JP2009128675A (ja) | 2007-11-26 | 2009-06-11 | Toshiba Corp | 音声を認識する装置、方法およびプログラム |
CN104166462B (zh) * | 2013-05-17 | 2017-07-21 | 北京搜狗科技发展有限公司 | 一种文字的输入方法和系统 |
US9448991B2 (en) * | 2014-03-18 | 2016-09-20 | Bayerische Motoren Werke Aktiengesellschaft | Method for providing context-based correction of voice recognition results |
CN107507615A (zh) * | 2017-08-29 | 2017-12-22 | 百度在线网络技术(北京)有限公司 | 界面智能交互控制方法、装置、系统及存储介质 |
CN107919129A (zh) * | 2017-11-15 | 2018-04-17 | 百度在线网络技术(北京)有限公司 | 用于控制页面的方法和装置 |
CN109949814A (zh) * | 2017-12-20 | 2019-06-28 | 北京京东尚科信息技术有限公司 | 语音识别方法、系统、计算机系统及计算机可读存储介质 |
CN109145276A (zh) * | 2018-08-14 | 2019-01-04 | 杭州智语网络科技有限公司 | 一种基于拼音的语音转文字后的文本校正方法 |
JP2020056879A (ja) | 2018-10-01 | 2020-04-09 | 株式会社Fam−Time | 情報提供システム及び方法 |
CN111383631B (zh) * | 2018-12-11 | 2024-01-23 | 阿里巴巴集团控股有限公司 | 一种语音交互方法、装置及系统 |
US11017771B2 (en) | 2019-01-18 | 2021-05-25 | Adobe Inc. | Voice command matching during testing of voice-assisted application prototypes for languages with non-phonetic alphabets |
CN111540353B (zh) * | 2020-04-16 | 2022-11-15 | 重庆农村商业银行股份有限公司 | 一种语义理解方法、装置、设备及存储介质 |
CN111611468B (zh) * | 2020-04-29 | 2023-08-25 | 百度在线网络技术(北京)有限公司 | 页面交互方法、装置和电子设备 |
CN111696557A (zh) * | 2020-06-23 | 2020-09-22 | 深圳壹账通智能科技有限公司 | 语音识别结果的校准方法、装置、设备及存储介质 |
-
2020
- 2020-09-25 CN CN202011028860.8A patent/CN112114926B/zh active Active
-
2021
- 2021-03-19 JP JP2021046331A patent/JP7242737B2/ja active Active
- 2021-03-29 KR KR1020210040285A patent/KR20210042853A/ko not_active Application Discontinuation
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113284499A (zh) * | 2021-05-24 | 2021-08-20 | 湖北亿咖通科技有限公司 | 一种语音指令识别方法及电子设备 |
CN113723082A (zh) * | 2021-08-30 | 2021-11-30 | 支付宝(杭州)信息技术有限公司 | 从文本中检测中文拼音的方法和装置 |
CN114242047A (zh) * | 2021-12-15 | 2022-03-25 | 平安科技(深圳)有限公司 | 一种语音处理方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112114926A (zh) | 2020-12-22 |
CN112114926B (zh) | 2024-08-09 |
JP7242737B2 (ja) | 2023-03-20 |
JP2021099887A (ja) | 2021-07-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR20210042853A (ko) | 음성 인식에 기반한 페이지 조작 방법, 장치, 전자장비, 저장 매체 및 컴퓨터 프로그램 | |
JP7317791B2 (ja) | エンティティ・リンキング方法、装置、機器、及び記憶媒体 | |
US11403468B2 (en) | Method and apparatus for generating vector representation of text, and related computer device | |
JP7111682B2 (ja) | 非表音文字体系を使用する言語のための音声支援型アプリケーションプロトタイプの試験中の音声コマンドマッチング | |
US9299342B2 (en) | User query history expansion for improving language model adaptation | |
JP2021197137A (ja) | モデルを訓練するための方法、装置、電子機器、記憶媒体およびコンピュータプログラム | |
US9400775B2 (en) | Document data entry suggestions | |
KR20210037619A (ko) | 멀티 모달 콘텐츠 처리 방법, 장치, 기기 및 저장 매체 | |
JP2021099886A (ja) | イベント引数抽出方法、装置及び電子デバイス | |
TWI510965B (zh) | 輸入方法編輯器整合 | |
CN105468137B (zh) | 电子装置及用于多形态融合的方法 | |
EP3866166B1 (en) | Method and apparatus for predicting mouth-shape feature, electronic device, storage medium and computer program product | |
WO2008122243A1 (fr) | Procédé et système permettant d'appeler rapidement une commande de programme et système destiné à un procédé d'entrée | |
US11270669B2 (en) | Rendering method and apparatus, electronic device and storage medium | |
US10083174B2 (en) | Context enriched application text translation | |
KR20210157342A (ko) | 언어 모델의 훈련 방법, 장치, 전자 기기 및 판독 가능 기록 매체 | |
US11216615B2 (en) | Method, device and storage medium for predicting punctuation in text | |
KR102561951B1 (ko) | 모델링 매개 변수의 설정 방법, 장치, 전자 기기 및 기록 매체 | |
EP4047503A1 (en) | Navigation broadcast management method, apparatus, and device | |
US20210096814A1 (en) | Speech control method, speech control device, electronic device, and readable storage medium | |
US20210407479A1 (en) | Method for song multimedia synthesis, electronic device and storage medium | |
KR20210040318A (ko) | 유사도 처리 방법, 장치, 서버, 저장 매체 및 컴퓨터 프로그램 | |
RU2654789C2 (ru) | Способ (варианты) и электронное устройство (варианты) обработки речевого запроса пользователя | |
KR102531507B1 (ko) | 정보 출력 방법, 장치, 기기 및 저장 매체 | |
JP7146986B2 (ja) | 情報抽出方法、情報抽出装置及び電子機器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E902 | Notification of reason for refusal |