KR100714769B1 - 서면 텍스트로부터의 조정가능 신경망 기반 언어 식별 - Google Patents

서면 텍스트로부터의 조정가능 신경망 기반 언어 식별 Download PDF

Info

Publication number
KR100714769B1
KR100714769B1 KR1020057006862A KR20057006862A KR100714769B1 KR 100714769 B1 KR100714769 B1 KR 100714769B1 KR 1020057006862 A KR1020057006862 A KR 1020057006862A KR 20057006862 A KR20057006862 A KR 20057006862A KR 100714769 B1 KR100714769 B1 KR 100714769B1
Authority
KR
South Korea
Prior art keywords
alphabetic characters
string
language
languages
characters
Prior art date
Application number
KR1020057006862A
Other languages
English (en)
Other versions
KR20050070073A (ko
Inventor
질레이 티안
잔네 수온타우스타
Original Assignee
노키아 코포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 노키아 코포레이션 filed Critical 노키아 코포레이션
Publication of KR20050070073A publication Critical patent/KR20050070073A/ko
Application granted granted Critical
Publication of KR100714769B1 publication Critical patent/KR100714769B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/263Language identification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

신경망(20) 기반 언어 식별 시스템이 복수의 언어들 중에 어떤 알파벳 문자들의 스트링의 언어를 식별하는데 이용되는, 서면 텍스트로부터의 언어 식별 방법. 알파벳 문자들(22)의 표준 집합이 피매핑 알파벳 문자들의 스트링(10)으로 스트링을 매핑하는데 사용되어, NN-LID(20)으로 하여금 표준 집합(22)에 기반하여 피매핑 스트링이 언어들 중 하나일 가능성을 판단할 수 있게 한다. 표준 집합의 문자들은 언어별 집합의 알파벳 문자들로부터 선택된다. 점수화 시스템(30) 역시 언어별 집합들에 기반해 스트링이 언어들 중 하나일 가능성을 판단하는데 사용된다.

Description

서면 텍스트로부터의 조정가능 신경망 기반 언어 식별{Scalable neural network-based language identification from written text}
본 발명은 일반적으로 모바일 기기의 전화번호부에 있는 이름들과 같이 하나 이상의 소정 단어들로 주어진 언어를 식별하는 방법과 시스템, 그리고 목소리로 작동되는 이름 다이얼링이나 명령 제어 어플리케이션들의 다국어 음성 인식 시스템에 관한 것이다.
모바일 전화기의 전호 번호부나 연락 리스트는 서로 다른 언어들로 쓰여진 연락명들을 포함할 수 있다. 예를 들어, "Smith", "Poulenc", "Szablocs", "Mishima", 및 "Maalismaa"와 같은 이름들이 각각 영어, 불어, 헝가리어, 일본어 및 핀란드 어원일 가능성이 있다. 전화 번호부의 연락자가 속하는 것이 어떤 언어 그룹 또는 언어인지를 인식하는 것이 바람직하거나 필요하게 된다.
현재, 자동 음성 인식(ASR) 기술들이 모바일 전화기 및 기타 휴대형 통신 기기들에 채택되어 있다. 화자 훈련 이름 다이알러(speaker-trained name dialer)는 아마도 가장 광범위하게 배포된 ASR 어플리케이션 중 하나일 것이다. 이 화자 훈련 이름 다이알러에서, 사용자는 인식을 위한 모델들을 훈련해야 하고, 이것이 화자 종속 이름 다이얼링(speaker dependent name dialing, SDND)이다. 보다 진보한 기술에 의존하는 어플리케이션들은 사용자가 인식을 위한 어떤 모델들도 훈련하는 것을 요구하지 않는다. 대신, 인식 모델들이 다국어 단어들의 철자에 기반해 자동으로 생성된다. 다국어 단어들의 철자에 기반한 발음 모델링이, Viikki 등(2002년 미국, 유타주, 솔트레이크 시티에서 열린 음향학, 음성, 및 신호 처리에 대한 국제 회의 과정 가운데 "모바일 통신 시스템에 있어서 화자 및 언어에 독립적인 음성 인식")에 도시된 바와 같은, 다국어 화자 독립 이름 다이얼링(ML-SIND, multilingual speaker-independent name dialing) 등에서 사용되고 있다. 모바일 전화기 시장 및 미래의 어플리케이션들의 세계화(globalization) 및 국제적 특성으로 인해, 다국어의 음성 인식 시스템들이 급속하게 증가하고 있다. 자동 언어 식별은 다이내믹한 어휘들을 이용하는 다국어 시스템들의 핵심 파트이다. 일반적으로 다국어 음성 인식 엔진은 도 1에 도시된 바와 같이, 세 개의 핵심 모듈, 즉 자동 언어 식별(LID) 모듈, 온라인 언어 고유의 텍스트에서 음소로의 모델링(TTP) 모듈, 및 다국어 음향 모듈로 이뤄진다. 본 발명은 그 첫 번째 모듈에 관한 것이다.
사용자가 새로운 단어나 단어들의 집합을 사용 어휘에 추가할 때, 언어 태그들이 LID 모듈에 의해 각각의 단어에 먼저 할당된다. 이 언어 태그들에 기초해, 그 어휘 아이템의 쓰기 형식과 관련된 다국어 음소 시퀀스들을 생성하기 위한 적절한 언어 고유 TTP 모델들이 적용된다. 최종적으로, 음소 발음기호화(transcription)에 따라 다국어 음향 모델들을 연결함으로써 각각의 어휘 엔트리에 대한 인식 모델이 생성된다.
자동 LID는 음성 기반 LID 및 텍스트 기반 LID, 즉 음성이나 서면 텍스트로 부터의 언어 식별이라는 두 종류로 구분할 수 있다. 대부분의 음성 기반 LID 방법들은 음소배열 방식을 이용하는데, 여기서는 발음과 관련된 음소들의 시퀀스가 표준 음성 인식 방법들을 이용해 음성 신호로부터 먼저 인식된다. 그리고 나서 그 음소 시퀀스들은 n 그램과 같이 언어 고유의 통계학상의 모델들에 의해 재평가(rescore)된다. 자동 언어 식별에 기초한 n 그램의 구두상의 단어 정보가 Schulze(EP 2 014 276 A2) 등에 개시되고 있다.
언어의 정체가 음소 시퀀스 패턴들의 특성에 따라 구별될 수 있다고 전제함에 따라, 재평가(rescoring)는 맞는 언어에 대해 가장 높은 점수를 산출한다. 텍스트로부터의 언어 식별은 일반적으로 다른 글자들의 맥락에 따라 글자들의 언어 고유의 n 그램 통계를 모음으로써 해결된다. 이러한 방식이 Schmitt(미극 특허 번호 5,062,143)에 개시되었다.
n 그램 기반 방식은 꽤 많은 양의 입력 텍스트(가령, 10 개 이상의 단어들)에 대해 매우 잘 작용하지만, 텍스트의 아주 짧은 세그먼트들에 대해서는 깨지는 경향이 있다. 이것은 n 그램들이 공통 단어들로부터 모아져서 적합한 이름의 언어 태그를 식별하는데 적용되는 경우 특히 그러하다. 정식 이름들은 이들이 보통 서로 다른 언어들로부터 기원한 것이기 때문에 일반 단어들과 비교할 때 매우 변칙적인 철자(grapheme) 통계를 갖는다. 짧은 세그먼트들로 된 텍스트에 있어서, LID의 다른 방법들이 보다 더 적합할 수도 있다. 예를 들어, Kuhn 등(미국 특허 번호 6,016,471)은 어떤 철자화된 단어에 대해 여러 가지 발음을 일으키고 점수화하는 결정 트리들을 이용하는 방법 및 장치를 개시한다.
결정 트리들은 텍스트에서 음소로의 매핑 및 언어 식별에 성공적으로 적용되어져 왔다. 신경망 접근법과 마찬가지로, 결정 트리들은 한 단어의 글자들 각각에 대해 언어 태그를 결정하는데 사용될 수 있다. 신경망 접근법과는 달리, 서로 다른 알파벳 글자들 각각에 대해 하나의 결정 트리가 존재한다. 결정 트리 기반 LID가 훈련된 집합에 대해 매우 잘 수행되기는 하나, 유효(validation) 집합에 대해서는 별 효과가 없다.
텍스트에서 음소로의 매핑 작업에 성공적으로 적용되고 있는 간단한 신경망 구조가 멀티-계층 퍼셉트론(multi-layer perceptron, MLP)이다. TTP 및 LID가 유사한 작업들이기 때문에 이 구조 역시 LID에 잘 맞는다. MLP는 네트웍의 입력 계층으로부터 출력 계층까지 정보가 이동하도록 정렬된 유닛(뉴런)들의 계층들로 이뤄진다. 기본적 신경망 기반 LID 모델이 도 2에 도시된 바와 같은 두-계층 MLP이다. MLP 네트웍에서, 글자들은 한번에 하나씩 차례로 제시되며, 네트웍은 제시된 각각의 글자에 대해 나중의 언어 확률(language posterior possibilities)에 대한 평가를 제공한다. 각 철자의 맥락을 고려하기 위해, 해당 글자의 각각의 옆에 있는 글자들 역시 네트웍에 대한 입력으로서 사용될 수 있다. 따라서, 글자들로 된 한 윈도우가 신경망으로의 입력으로서 제공된다. 도 2는 해당 글자 l0의 양 쪽에 있는 네 개의 글자들 l-4...l4라는 문맥 크기를 가진 일반적인 MLP를 보인다. 가장 중앙에 있는 글자 l0은 네트웍의 출력에 해당하는 글자이다. 따라서, MLP의 출력은 주어진 문맥 l-4...l4에서 가장 중앙에 있는 글자 l0에 대해 평가된 언어 확률이다. 문자 집합에서 철자상의 널(null)이 정의되어 한 단어 안에서 최초의 글자의 왼쪽으로 그리고 마지막 글자의 오른쪽으로 글자들을 나타내는데 사용된다.
신경망 입력 유닛들은 지속적으로 평가되기 때문에, 입력 윈도우 내 글자들은 어떤 수량이나 숫자 표현으로 변환되어야 한다. 언어 식별에 사용되는 알파벳을 나타내는 직교 코드북의 예가 표 1에 보여진다. 표 1의 마지막 줄은 철자상의 널 코드이다. 직교 코드는 알파벳 집합 내 글자들의 수와 동일한 크기를 가진다. 직교 코딩 체계의 중요한 특징은 그것이 서로 다른 글자들 간에 어떤 상관성도 유발하지 않는다는 것이다.
[표 1]
직교 글자 코딩 구조
Figure 112005020738616-pct00001
표 1에 나열된 것과 같은 직교 글자 코딩 체계 외에, 다른 방법들 역시 사용될 수 있다. 예를 들어, 셀프-조직화(self-organizing) 코드북이 Jensen and Riis(2000년 중국 베이징에서 열린 구두 언어 처리에 대한 국제 회의 중 "텍스트에서 음소로의 신경망 모델을 위한 셀프-조직화 글자 코드북")에 기술된 것과 같이 활용될 수 있다. 셀프-조직화 코드북이 활용될 때, 글자 코딩 체계를 위한 코딩 방법이 MLP의 트레이닝 데이터에 대해 생성된다. 이 셀프-조직화 코드북을 활용함으로써, MLP 입력 유닛들의 수가 감소될 수 있어, 네트웍의 패러미터들을 저장하는데 필요한 메모리가 줄어들게 된다.
일반적으로, NN-LID 모델에 의해 요구되는 메모리 바이트 크기는 다음 식에 정비례한다:
Figure 112005020738616-pct00002
MemS, ContS, AlphaS, HiddenU, 및 LangS는 각각 LID의 메모리 크기, 문맥 크기, 알파벳 집합의 크기, 신경망 내 감춰진(hidden) 유닛들의 수, 및 LID에 의해 지원되는 언어의 개수이다. 입력 윈도우의 글자들이 부호화되고, 그 부호화된 입력이 신경망으로 제공된다. 신경망의 출력 유닛들은 언어들에 대응한다. 소프트맥스(Softmax) 정규화가 출력 계층에서 적용되고, 출력 유닛의 값은 해당 언어에 대한 후확률(posterior probability)이다. 소프트맥스 정규화는 네트웍 출력이 [0,1]의 범위에 있고 모든 네트웍 출력의 합이 다음식에 따른 항등식과 같도록 만든다.
Figure 112005020738616-pct00003
상기 식에서, yi 및 Pi는 소프트맥스 정규화 전과 후의 i 번째 출력값이다. C는 출력 계층에 있는 유닛들의 개수이고, 클래스의 개수 혹은 목표 언어들을 나타낸다. 소프트맥스 정규화를 수행하는 신경망의 출력들은 N 개로 분류된 것들 가운데 하나에 대해 트레이닝될 때와 네트웍이 충분히 복잡하고 포괄적 최저한도까지 트레이닝될 때 클래스 후확률에 근사될 것이다.
언어들의 확률은 각각의 글자에 대해 산출된다. 확률이 산출된 후, 단어내 글자들의 확률을 합하여 언어들의 점수들이 얻어진다. 결국, NN 기반 LID의 언어는 주로 다음의 식에 의해 결정된다.
Figure 112005020738616-pct00004
여기서
Figure 112005020738616-pct00005
이다. 기본 NN-LID 방식이 도 3에 도시되어 있다. 도 3에서, 알파벳 집합은 적어도, NN-LID 방식에 의해 지원되는 모든 언어들에 대한 언어별 집합들의 조합이다.
따라서, 언어들의 수가 중가할 때, 전체 알파벳 집합(AlphaS)의 크기도 그에 따라 증가하며, LID 모델 크기(MEMS)는 그에 비례하여 증가된다. 알파벳 크기의 증가는 언어들의 특수 문자들의 부가에 기인한다. 예를 들어, 표준 라틴 a-z 알파 벳에 부가해, 프랑스어는 특수 문자
Figure 112005020738616-pct00006
; 포르투갈어는 특수 문자
Figure 112005020738616-pct00007
; 그리고 스페인어는 특수 문자
Figure 112005020738616-pct00008
등을 가진다. 카릴 문자는 라틴 알파벳과는 다른 카릴 알파벳을 포함한다.
일반적인 PC 환경과 비교할 때, 임베디드(embedded) 시스템들에서 구현 자원은 프로세싱 파워 및 메모리 면에서 모두 희소하다. 따라서, ASR 엔진의 콤팩트한 구현이 모바일 전화기와 같은 임베디드 시스템에서는 필수적이다. 대부분의 종래 기술의 방법들은 구두 언어 입력으로부터 언어 식별을 수행한다. 이 방법들은 텍스트 입력에만 작동하는 시스템에는 적용될 수 없다. 현재, 목표 하드웨어에 의해 설정된 메모리 요건을 충족할 수 있는 NN-LID 시스템은 사용되고 있지 않다.
따라서, 목표 하드웨어에 의해 설정된 메모리 요건을 만족할 수 있는 NN-LID 방법 및 장치를 제공하여 그 방법 및 시스템이 임베디드 시스템에 사용될 수 있도록 하는 것이 바람직하고 또 유리할 것이다.
본 발명의 주요한 목적은 모바일 전화기에 의해 설정된 메모리 요건을 만족시킬 수 있는, 다국어 구두 언어 인식 시스템에서의 언어 식별을 위한 방법 및 장치를 제공하는 것이다. 특히, 언어 식별은 신경망 기반 시스템에 의해 서면 텍스트로부터 수행된다. 이 목적은 신경망 기반 언어 식별 목적들을 위한 감축된 알파벳 문자들의 집합을 이용함으로써 달성되고, 이때 감축된 집합 내 알파벳 문자들의 개수는 식별될 모든 언어의 언어별 알파벳 문자들의 집합들로 된 합집합 내 문자들의 개수보다 훨씬 적다. 또, 개별적 언어별 집합들 모두에 의존하는 점수화(scoring) 시스템은 소정 언어로 된 단어들의 알파벳 집합의 확률을 계산하는데 사용된다. 최종적으로, 언어 식별은 신경망에 의해 제공된 점수화 시스템의 확률들로 언어 점수를 조합함으로써 행해진다.
따라서, 본 발명의 제1양상에 따르면, 자동 언어 식별 시스템에 기반하여, 각 언어가 개별적 알파벳 문자들로 된 집합을 포함하는 복수의 언어들 가운데 어떤 알파벳 문자들로 된 스트링의 언어를 식별하는 방법이 제공된다. 이 방법은,
상기 알파벳 문자들로 된 스트링을 기준 알파벳 문자들의 집합으로부터 선택된 어떤 피매핑 알파벳 문자들의 스트링으로 매핑하는 단계,
상기 피매핑 알파벳 문자들의 스트링이 상기 복수의 언어들 각각이 될 확률을 나타내는 제1값을 구하는 단계,
각 개별적 집합에서의 상기 스트링의 알파벳 문자들의 매치를 나타내는 제2값을 구하는 단계, 및
상기 제1값과 제2값에 기초해 상기 스트링의 언어를 결정하는 단계를 포함함을 특징으로 한다.
이와 다른 선택 사항으로서, 복수의 언어들이 하나 이상의 멤버들로 된 복수 그룹으로 분류되고, 각 그룹이 개별적 알파벳 문자들의 집합을 포함하여, 각 그룹의 각 개별적 집합에서 상기 스트링의 알파벳 문자들의 매치를 나타내는 제2값을 얻도록 할 수 있다.
상기 방법은, 또한 상기 기준 집합 내 알파벳 문자들의 개수가 상기 모든 개별적 알파벳 문자들의 집합들의 합집합보다 작은 것을 특징으로 한다.
제1값은 기준 집합에 기반해 구해지고, 기준 집합은 상기 복수 언어들 각각에 대한 개별적 집합 내 모든 알파벳 문자가 표준 알파벳 문자들 중 하나에 고유하게 매핑될 수 있도록 최소 표준 알파벳 문자들의 집합을 포함함이 바람직하다.
기준 집합은 표준 알파벳 문자들과 다른 적어도 하나의 심볼을 더 포함하여, 적어도 하나의 개별적 집합 내 각 알파벳 문자가, 상기 적어도 하나의 심볼과 상기 표준 알파벳 문자들 중 하나가 조합된 것으로 고유하게 매핑할 수 있게 됨이 바람직하다.
자동 언어 식별 시스템은 신경망 기반 시스템임이 바람직하다.
상기 제2값은, 상기 복수의 언어들 중 하나로 주어진 스트링의 확률이라고 할당된 스케일링 팩터로부터 구해지고, 상기 언어는 상기 복수의 언어들 가운데 상기 제1값 및 제2값의 곱의 최대값에 기반해 결정됨이 바람직하다.
본 발명의 제2양상에 따르면, 각 언어가 개별적 알파벳 문자들로 된 집합을 포함하는 복수의 언어들 사이에서 어떤 알파벳 문자들로 된 스트링의 언어를 식별하기 위한 언어 식별 시스템이 제공된다. 이 시스템은,
기준 알파벳 문자들의 집합,
상기 알파벳 문자들의 스트링을, 상기 기준 집합으로부터 선택된 알파벳 문자들의 어떤 피매핑 스트링으로 매핑하여 상기 피매핑 스트링을 나타내는 신호를 제공하는 매핑 모듈,
상기 신호에 반응해, 상기 기준 집합에 기반하여 상기 피매핑 스트링이 상기 복수의 언어들 각각이 될 가능성을 판단하여 그 가능성을 나타내는 제1정보를 제공하는 제1언어 판별 모듈,
상기 개별적 알파벳 문자들의 집합들에 기반하여 상기 스트링이 상기 복수의 언어들 각각이 될 가능성을 판단하여 그 가능성을 나타내는 제2정보를 제공하는 제2언어 판별 모듈, 및
상기 제1정보 및 제2정보에 반응하여, 그 제1정보 및 제2정보를 기반으로 상기 스트링이 상기 복수의 언어들 중 하나일 종합 가능성을 판단하는 결정 모듈을 포함함을 특징으로 한다.
이와 다른 선택 사항으로서, 상기 복수의 언어들은 하나 이상의 멤버들로 된 복수의 그룹들로 분류되고, 상기 복수의 그룹들 각각은 개별적 알파벳 문자들로 된 집합을 포함하여, 상기 제2판별 모듈로 하여금 상기 그룹들의 개별적 알파벳 문자들로 된 집합들에 기반하여, 상기 스트링이 상기 복수의 언어 각각이 될 가능성을 판단하도록 하여 그 가능성을 나타내는 제2정보를 제공함을 특징으로 한다.
제1언어 판별 모듈은 복수의 숨겨진 유닛들을 포함하는 신경망 기반 시스템임이 바람직하고, 상기 언어 식별 시스템은 상기 복수의 숨겨진 유닛들에 부분적으로 기초해 상기 기준 집합을 다양하게 저장하는 메모리 유닛을 포함하고, 상기 숨겨진 유닛들의 개수는 메모리 요건에 따라 조정될 수 있다. 상기 언어 식별 시스템의 성능을 향상시키기 위해 상기 숨겨진 유닛들의 수가 증가됨이 바람직하다.
본 발명의 제3양상에 따라, 전자 장치가 제공되고, 상기 전자 장치는,
그 장치 안에 어떤 알파벳 문자들로 된 스트링을 나타내는 신호를 제공하는 모듈;
상기 신호에 반응하여, 각 언어가 개별적 알파벳 문자들로 된 집합을 포함하고 있는 복수의 언어들 가운데에서 상기 스트링의 언어를 식별하는 언어 식별 시스템을 포함하고, 상기 시스템은,
기준 알파벳 문자들의 집합;
상기 알파벳 문자들의 스트링을, 상기 기준 집합으로부터 선택된 알파벳 문자들의 어떤 피매핑 스트링으로 매핑하여 상기 피매핑 스트링을 나타내는 추가 신호를 제공하는 매핑 모듈;
상기 추가 신호에 응답하여, 상기 기준 집합에 기반하여 상기 피매핑 스트링이 상기 복수의 언어들 각각이 될 가능성을 판단하여 그 가능성을 나타내는 제1정보를 제공하는 제1언어 판별 모듈;
상기 알파벳 문자들의 개별 집합들에 기반하여 상기 스트링이 상기 복수의 언어들 각각이 될 가능성을 판단하여 그 가능성을 나타내는 제2정보를 제공하는 제2언어 판별 모듈; 및
상기 제1정보 및 제2정보에 반응하여, 그 제1정보 및 제2정보를 기반으로 상기 스트링이 상기 복수의 언어들 중 하나일 종합 가능성을 판단하는 결정 모듈을 포함함을 특징으로 한다.
상기 전자 장치는 모바일 전화기와 같은 휴대형 장치일 수 있다.
본 발명은 도 4 내지 6과 결부되어 설명된 내용을 읽을 때 자명해질 것이다.
도 1은 종래의 다국어 ASR 시스템의 구조를 도시한 개략도이다.
도 2는 종래의 두 계층 신경망의 구조를 도시한 개략도이다.
도 3은 종래의 기본 NN-LID 방식을 도시한 블록도이다.
도 4는 본 발명에 따른 언어 식별 방식을 도시한 블록도이다.
도 5는 본 발명에 따른 언어 식별 방법을 도시한 흐름도이다.
도 6은 본 발명에 따른, 언어 식별 방법 및 시스템을 이용하는 전자 기기를 도시한 개략도이다.
수학식 1에서 보여진 바와 같이, 신경망 기반 언어 식별(NN-LID) 시스템의 메모리 크기는 두 가지 식으로 결정된다. 1) (2*ConstS+1)xAlphaSxHiddenU 와 2) HiddenU x LangS가 그들로서, 여기서 ContS, AlphaS, HiddenU 및 LangS는 문맥 크기, 알파벳 집합의 크기, 신경망에 숨겨진 유닛들, 및 LID에 의해 지원되는 언어의 개수를 의미한다. 일반적으로, LID에 의해 지원되는 언어의 개수, 또는 LangS는 알파벳 집합의 크기 보다 빠르게 증가하지 않으며, (2*ContS+1)은 1 보다 훨씬 크다. 따라서, 수학식 1의 첫번째 항이 의심할 여지 없이 지배적인 것이 된다. 또, LangS 및 ContS가 미리 정해지고, HiddenU가 LID 시스템의 판별 사양을 제어하기 때문에, 메모리 크기는 주로 AlphaS에 의해 주로 정해진다. AlphaS는 NN-LID 시스템에서 사용될 언어에 무관한(independent) 집합의 크기이다.
본 발명은 알파벳 문자들 또는 심볼들의 감축된 집합을 NN-LID에서 사용될 언어 무관 집합 SS로 규정함으로써 메모리 크기를 감소시킨다. SS는 복수의 언어 고유 또는 언어별(language-dependent) 알파벳 집합들인 LSi로부터 도출되며, 0<i≤LangS이고 LangS는 LID에 의해 지원되는 언어의 개수이다. LSi가 i 번째 언어에 종속되고 SS가 표준 집합일 때, 다음과 같은 수학식을 얻는다.
Figure 112005020738616-pct00009
Figure 112005020738616-pct00010
Figure 112005020738616-pct00011
Figure 112005020738616-pct00012
는 i번째 언어에 종속된 표준 알파벳 집합들 내 k번째 문자들이다. ni 및 M은 i번째 언어별 표준 알파벳 집합들의 크기들이다. 모든 언어별 알파벳 집합들의 조합은 지원되는 각 언어들 내 모든 특수 문자들을 보유한다. 예를 들어, 포르투갈어가 LID에 의해 지원되는 언어 중 하나이면, 합집합은 적어도
Figure 112005020738616-pct00013
인 특수 문자들을 보유한다. 표준 집합에서는 그러나, 특수 문자들 중 일부나 전부가 수학식 1에서 AlphaS이기도 한 크기 M을 줄이기 위해 제거된다.
본 발명에 따르면, NN-LID 시스템에서는 모든 언어별 집합들의 조합 대신 표준 집합 SS가 사용되기 때문에, 매핑 절차가 수행되어야 한다. 언어별 집합에서 표준 집합으로의 매핑은 다음과 같이 정의될 수 있다:
Figure 112005020738616-pct00014
Figure 112005020738616-pct00015
알파벳 크기는
Figure 112005020738616-pct00016
의 크기에서 M(SS의 크기)까지 줄어들게 된다. 매핑 목적으로, 예를 들어, 모든 언어의 알파벳 문자들을 표준 집합으로 매핑하기 위한 매핑 테이블이 사용될 수 있다. 이와 달리, 모든 언어의 특정 문자들만을 표준 집합으로 매핑하는 매핑 테이블이 사용될 수도 있다. 표준 집합 SS는 {a, b, c, ..., Z}와 같은 표준 문자들이나 주문형 알파벳 심볼들 또는 그 둘의 조합으로 이뤄질 수 있다.
수학식 6으로부터, 언어별 알파벳 집합으로 쓰여진 어떤 단어가 표준 알파벳 집합으로 쓰여진 해당 단어로 매핑(분해)될 수 있다는 것을 알 수 있다. 예를 들어, 언어별 알파벳 집합으로 쓰여진
Figure 112005020738616-pct00017
이라는 단어는 표준 집합으로 쓰여진 hakkinen으로 매핑된다. 그런 다음, 언어별 알파벳 집합으로 쓰여진
Figure 112005020738616-pct00018
과 같은 단어는 word로 불려지고, 표준 집합으로 쓰여진 해당 단어 hakkinen은 words로 불려진다.
언어별 집합과 표준 집합으로 쓰여진 words가 주어지면, 언어별 집합으로 쓰 여진 word는 거의 결정된다. 따라서 다음과 같은 것을 합당하게 추측할 수 있게 된다:
Figure 112005020738616-pct00019
여기서 alphabet은 word의 개개 알파벳 글자들이다. words와 alphabet이 독자적인 이벤트들이므로, 수학식 2가 다시 쓰여질 수 있다.
Figure 112005020738616-pct00020
수학식 8의 오른편 첫째 항목이 NN-LID를 사용함으로써 추정된다. LID는 word 대신 words로 이뤄지기 때문에, 모든 언어별 집합들의 조합
Figure 112005020738616-pct00021
대신 표준 알파벳 집합을 사용하기 충분하다. 표준 집합은 "최소" 개수의 문자들로 이뤄지므로, 그 크기 M은
Figure 112005020738616-pct00022
의 크기 보다 훨씬 작다. 수학식 1로부터, AlphaS가 감소되기 때문에 NN-LID 모델의 크기가 줄어든다는 것을 알 수 있다. 예를 들어, 불가리아어, 체코어, 덴마크어, 네덜란드어, 에스토니아어, 핀란드어, 프랑스어, 독일어, 그리스어, 헝가리어, 아이슬란드어, 이탈리아어, 라트비아어, 노르웨이어, 폴란드어, 포르투갈어, 루마니아어, 러시아어, 슬로바키아어, 슬로베니아어, 스페인어, 스웨덴어, 터키어, 영어, 및 우크라이나어를 포함하는 25개국 언어가 NN-LID 방식에 포함될 때, 합집합의 크기는 133이다. 반대로, 표준 집합의 크기는 27개의 아스키 알파벳 집합으로 줄어들 수 있다. 수학식 8의 오른편의 둘째 항목은 i번째 언어로 주어진 word의 알파벳 스트링의 확률이다. 그 알파벳 스트링의 확률을 찾기 위해, 먼저 빈도수, Freq(x)를 다음과 같이 계산할 수 있다
Figure 112005020738616-pct00023
그러면 P(alphabet|langi)의 확률이 계산될 수 있다. 이 알파벳 확률은 하드(hard)하거나 소프트한 결정에 의해 추정될 수 있다.
하드한 결정은 다음과 같다.
Figure 112005020738616-pct00024
소프트한 결정이라면, 다음과 같이 된다
Figure 112005020738616-pct00025
다국어 발음 접근법은 다국어 발음을 찾기 위해 n-베스트 LID 결정들을 필요로 하고, 하드한 결정은 때때로 그러한 요구를 만족할 수 없으므로, 소프트한 결정이 선호된다. 팩터 α는 매치된 언어와 매치되지 않은 언어들을 두 개의 그룹으로 더 나누는데 사용된다.
팩터 α는 임의로 선택될 수 있다. 기본적으로, 0.05와 같은 임의의 작은 값이 사용될 수 있다. 수학식 1에서 보여진 것과 같이, NN-LID 모델 크기는 크게 줄어든다. 따라서, 구별 능력을 향상시키기 위해 더 많은 숨겨진 유닛들을 추가하는 것도 가능하다. 핀란드 이름 "
Figure 112005020738616-pct00026
"을 예로 들 때, 다음과 같은 결과를 얻는다.
Figure 112005020738616-pct00027
Freq(alphabet|langi)<1에 대해 α=0.05일 때, 다음과 같은 알파벳 점수를 얻는다:
P(alphabet|영어)=0.04
P(alphabet|핀란드어)=1.0
P(alphabet|스웨덴어)=1.0
P(alphabet|러시아어)=0.0
확률 P(words|langi)는 확률 P(alphabet|langi)와는 다르게 결정됨을 알아야 한다. 전자는 표준 집합 SS에 기반해 산출되는데 반해, 후자는 모든 개개의 언어별 집합 LSi에 기반해 산출된다. 따라서, 결정 프로세스는 동시 또는 순차적으로 수행될 수 있는 두 가지 독립적인 단계들을 포함한다. 이 독립적인 결정 프로세스 단계들이 본 발명에 따른 언어 식별 시스템(100)의 개략도인 도 4에 보여질 수 있다. 도시된 바와 같이, 입력 word에 반응하여, 매핑 모듈(10)은 매핑 테이블(12)에 기반하여 매핑된 words를 나타내는 정보 또는 신호(110)를 NN-LID 모듈(20)로 제공한다. 이 신호(110)에 반응하여, NN-LID 모듈(20)은 표준 집합(22)에 기반해 확률 P(words|langi)를 계산하고, 그 확률을 나타내는 정보 또는 신호(120)를 결정 모듈(40)로 제공한다. 이와 독자적으로 알파벳 점수화 모듈(30)은 개별적 언어별 집합들(32)을 이용해 확률 P(alphabet|langi)를 계산하고, 그 확률을 나타내는 정보 또는 신호(130)를 결정 모듈(40)로 제공한다. 입력 워드의 언어는, 결정 모듈(40)에 의해 식별된 것과 같이, 정보 또는 신호(140)로서 지시된다.
본 발명에 따르면, 신경망 기반 언어 식별은 집합 크기 M을 가진 감축된 집합에 기반한다. M은 메모리 요건에 따라 증감될 수 있다. 또, 숨겨진 유닛들 HiddenU의 개수는 메모리 예산을 초과하지 않으면서 NN-LID 성능을 향상시키기 위 해 증가될 수 있다.
상술한 바와 같이, 모든 언어별 알파벳 집합들이 표준 집합으로 매핑될 때 NN-LID 모델의 크기가 감소된다. 알파벳 점수는 word의 알파벳 정의에 기반하여, 지원된 언어들을 매치된 그룹들과 매치되지 않은 그룹들로 더 구분하는데 사용된다. 예를 들어, 글자 "
Figure 112005020738616-pct00028
가 소정 word 안에 나타나면, 이 word는 핀란드어/스웨덴어 그룹에만 속하는 것이다. 그러면 NN-LID는 핀란드어와 스웨덴어 사이의 언어만을 매치된 그룹으로 식별한다. LID가 매치된 그룹에서 동작한 다음, LID는 매치되지 않은 그룹의 언어를 식별한다. 이와 같이, 서치 간격이 최소화될 수 있다. 그러나, 더 많은 언어들이 표준 집합에 매핑된다는 사실에 기인해 어떤 언어에 대한 알파벳 집합이 표준 알파벳 집합과 동일하거나 유사할 때 혼돈이 일어난다. 예를 들어, 처음에 표준 알파벳 집합을 SS=(a,b,c,...z,#}로 정의하고, "#"은 널 문자를 나타낼 때, 표준 알파벳 집합의 크기는 27이 된다. 러시아 이름 "бориси"를 나타내는 word에 있어서, (매핑은 "б->b" 등으로 될 것이다), 대응되는 매핑 이름은 SS 상에 있는 words "boris"가 된다. 이것은 표준 집합에 기반한 NN-LID의 성능을 약화시킬 수 있는데, 그 이유는 "boris"라는 이름이 독일어 또는 심지어 영어라고 나타나기 때문이다.
이러한 결점을 극복하기 위해, 숨겨진 유닛들의 개수를 증가시켜 신경망의 판별 능력을 향상시킬 수 있다. 또, 언어별 집합에 있는 하나의 비표준 문자를 표준 집합 내 문자들의 한 스트링으로 매핑하는 것도 가능하다. 이와 같이 하여 신 경망에서의 혼란이 감소된다. 따라서, 표준 집합으로의 매핑이 알파벳 크기를 감소시키지만(판별 약화), 한 글자에서 스트링으로 매핑됨에 따라 단어의 크기는 증가된다(판별력 증가). 판별 정보는 그러한 한 글자에서 스트링으로의 변환 이후 거의 동일하게 유지된다. 그렇게 함으로써, 판별 정보는, 수학식 12에 기술된 것과 같이 단어 길이를 증가시키도록 더 많은 글자들을 도입해 최초의 표현으로부터 변환된다.
Figure 112005020738616-pct00029
이 변환에 의해, 비표준 문자는 혼란을 크게 증가시키지 않으면서 표준 문자들의 스트링으로 표현될 수 있다. 또, 표준 집합은 판별 문자들로 정의된 제한된 수의 맞춤형 문자들을 부가시킴으로써 확장될 수 있다. 이들 판별 문자들은 이전에 정의된 표준 알파벳 집합 SS={a, b, c, ..., z, #} 내 27개의 문자들로부터 판별될 수 있다. 예를 들어, 확장된 표준 집합은 세 개의 판별 문자들인 s1, s2, s3를 더 포함하므로, 이제 SS={a, b, c,...,z, #, s1, s2, s3}가 된다. 이와 같이, 하나의 비표준 문자를 확장된 표준 집합 내 문자들의 스트링으로 매핑하는 것이 가능하다. 예를 들어, 키릴 문자들의 매핑이 "б->bs1"과 같이 수행될 수 있다. 러시아 이름 "бориси"는
бориси ->bs1os1rs1is1ss1에 따라 매핑된다.
이러한 접근방식으로, 러시아어 텍스트를 식별하는 성능을 향상시킬 뿐아니라, 혼란이 줄어들기 때문에 영어 텍스트를 식별하는 성능 역시 향상될 수 있게 된다. 불가리아어, 체코어, 덴마크어, 네덜란드어, 에스토니아어, 핀란드어, 프랑스어, 독일어, 그리스어, 헝가리어, 아이슬란드어, 이탈리아어, 라트비아어, 노르웨이어, 폴란드어, 포르투갈어, 루마니아어, 러시아어, 슬로바키아어, 슬로베니아어, 스페인어, 스웨덴어, 터키어, 영어, 및 우크라이나어를 포함하는 25개 언어들에 대해 실험을 수행하였다. 각각의 언어에 대해, 10,000개의 일반 단어들의 집합이 선택되었고, LID를 위한 트레이닝 데이터가 이들 집합들을 결합해 구해졌다. 표준 집합은 [a-z] 집합으로 이뤄지고, 널 문자(표 3의 아스키로서 마크됨) 더하기 세 개의 구별 문자들(표 3의 EXTRA(여분)로 마크됨)로 이뤄졌다. 표준 알파벳 문자들이나 심볼들의 개수는 30개이다. 표 3은 전체 언어별 알파벳이 30 및 40개의 숨겨진 유닛들을 가지고 사용될 때(총 133) 기본적인 결과를 제공한다. 표 2에 도시된 바와 같이, 기본 NN-LID 모델을 위한 메모리 크기는 30 개의 숨겨진 유닛들이 기본 NN-LID 시스템에 사용될 때 이미 커져 있다.
표 3은 본 발명에 따른 NN-LID 방식의 결과를 보인 것이다. 본 발명에 따른 NN-LID 결과는 27개의 문자들로 된 표준 집합이 40개의 숨겨진 유닛들과 함께 사용될 때 기본 결과에 비해 열악함을 알 수 있다. 세 개의 구별 문자들을 추가해 표준 집합이 30개의 문자들을 포함하도록 확장시킴에 따라, LID 레이트는 기본 레이트에 비해 아주 경미하게 더 낮아지게 된다-88.78의 합 대 89.93의 합. 그러나, 메모리 크기는 47.7KB에서 11.5KB로 줄어든다. 이것은 LID 레이트를 향상시키기 위해, 숨겨진 유닛들을 상당량 증가시키는 것이 가능함을 제시한다.
감춰진 유닛들의 수가 80으로 증가될 때, 본 발명의 LID 레이트는 기본 레이트 보다 의심의 여지없이 더 나아진다. 27개의 아스키 문자들로 된 표준 집합을 가질 때, 80개의 숨겨진 유닛들에 대한 LID 레이트는 기본 방식의 레이트를 이미 초과한다-94.44 대 89.93. 30개 문자들의 확장 집합에서, LID는 더욱 개선되며 40 개의 숨겨진 유닛들을 가진 기본 방식에 비해 50% 이상 메모리를 절감시킨다.
[표 2]
Figure 112005020738616-pct00030
[표 3]
Figure 112005020738616-pct00031
본 발명에 따라, 경감 가능한 NN-LID 방식은 수많은 다양한 방식들로 구현될 수 있다. 그러나, 가장 중요한 사양 중 하나가 언어별 문자들을 맞춤화될 수 있는 표준 알파벳 집합으로 매핑하는 것이다. NN-LID 성능을 추가 향상시키기 위해, 많은 기술들이 사용될 수 있다. 이 기술들은 1) 더 많은 감춰진 유닛들을 추가하고, 2) 언어별 문자들에 의해 제공된 정보를 이용해 언어드을 매치된 그룹과 비매치 그룹으로 그룹화하고, 3) 한 문자를 한 스트링으로 매핑하고, 4) 판별 문자들을 규정하는 단계들을 포함한다.
NN-LID의 메모리 요건은, 표준 집합으로의 언어별 문자 매핑의 규정에 따라, 그리고 LID 성능을 기본 시스템에 가깝게 유지시키도록 신경망의 숨겨진유닛들의 개수를 적절히 선택함으로써 목표 하드웨어 요건을 만족하도록 조정될 수 있다.
본 발명에 따르면, 서면 텍스트로부터의 조정 가능 신경망 기반 언어 식별 방법은 도 5에 도시된 것과 같은 흐름도(200)에서 정리될 수 있다. 서면 텍스트로 한 word를 얻으면, 그 단어는 words로, 또는 표준 집합 SS의 알파벳 문자들로 된 한 스트링으로 매핑된다(210 단계). i 번째 언어에 대한 확률 P(words|langi)가 계산된다(220 단계). i 번째 언어에 대한 확률 P(alphabet|langi)가 계산된다(230 단계). i 번째 언어에 대한 합동 확률 P(words|langi)∀ P(alphabet|langi)가 계산된다(240 단계). 지원되는 언어 각각에 대한 합동 확률이 계산된 후, 242 단계에서 결정된 대로, 수학식 8을 이용해 입력 word의 언어가 결정된다(250 단계).
본 발명에 따른, 서면 텍스트로부터의, 조정 가능 신경망 기반 언어 식별 방법은 다국어 자동 음성 인식(ML-ASR) 시스템에 적용될 수 있다. 이것은 다국어 화 자 무관 이름 다이얼링(ML-SIND) 시스템의 핵심 부분이다. 본 발명은 모바일 전화기, 피디에이(PDA), 통신 장치 등과 같은 휴대형 전자 기기 상에서 구현될 수 있다. 본 발명은 기기의 어떤 특정한 운영 시스템에 의존하지 않는다. 특히, 본 발명의 방법과 기기는 휴대형 전자 장치의 연락 리스트 또는 전화번호부에 적용될 수 있다. 연락 리스트는 (vCard와 같은) 전자 명함으로 구현되어 이름, 주소, 전화 번호, 이메일 주소 및 인터넷 URS과 같은 디렉토리 정보를 구성할 수도 있다. 또, 본 발명의 자동 언어 식별 방법은 사람, 회사 및 개체들의 이름에 대한 인식에만 국한되지 않고, 문자들의 스트링이 어떤 언어로 된 소정 의미를 가지는 한, 거리, 도시, 웹 페이지 주소, 직업, 이메일 주소의 소정 부분 등등의 인식을 포함한다. 도 6은 본 발명의 NN-LID 방식을 이용하는 ML-SIND 또는 ML-ASR이 사용되는 휴대형 전자 기기의 개략도이다.
도 6에 도시된 것과 같이, 기기(300)의 기본 구성요소들은 디스플레이(302), 텍스트 입력 모듈(304) 및 LID 시스템(306)이다. LID 시스템(306)은 표준 집합(322)의 문자들을 사용해 텍스트 입력 모듈(302)에 의해 제공된 word를 words로 매핑하는 매핑 모듈(310)을 포함한다. LID 시스템(306)은 또한, 도 4에 도시된 것과 같은 언어 식별 시스템(100)과 유사하게, NN-LID 모듈(320), 알파벳 점수화 모듈(330), 복수의 언어별 알파벳 집합들(332) 및 결정 모듈(340)을 더 포함한다.
표 1에 보여진 것과 같은 직교 글자 코딩 방식이 바람직하지만, 다른 코딩 방법들 역시 사용될 수 있다. 예를 들어, 셀프-조직화 코드북이 활용될 수 있다. 또, 두 개의 문자들로 된 스트링이 상기 실험에서 사용되어 비표준 문자를 매핑하도록 하였으나, 셋 이상의 문자들이나 심볼들로 된 스트링 역시 사용될 수 있다.
본 발명의 신경망 기반 언어 식별 시스템에 사용되는 언어들 가눙데, 둘 이상의 언어들이 동일한 알파벳 문자들의 집합을 공유할 수 있다. 예를 들어, 위에서 사용되었던 25가지 언어들에서, 스웨덴어와 핀란드어는 동일한 알파벳 무자들의 집합을 공유한다. 이에 따라, 서로 다른 언어별 집합들의 수는 식별될 언어의 개수보다 작아진다. 따라서, 언어별 집합의 동일성에 기반해 언어들을 언어 그룹으로 분류하는 것이 가능하다. 이들 그룹들 가운데, 어떤 것은 둘 이상의 멤버들을 가지지만, 어떤 것은 오직 하나의 멤버만을 가진다. 사용된 언어들에 따라, 어떤 언어들도 동시에 동일한 알파벳 문자들의 집합을 공유할 수 없을 수 있다. 이 경우, 그룹의 수는 언어의 수와 동일할 것이고, 각 언어 그룹은 오직 하나의 멤버만을 가진다.
본 발명이 바람직한 실시예를 기준으로 기술되었으나, 이 분야의 당업자라면 본 발명의 범위를 벗어나지 않고 그 형식 및 세부 사항에 있어 다양한 다른 변형, 생략, 및 일탈이 이뤄질 수 있다는 것을 이해할 수 있을 것이다.

Claims (25)

  1. 자동 언어 식별 시스템에 의해, 각 언어가 개별적 알파벳 문자들의 집합을 포함하는 복수개의 언어들 가운데에서, 어떤 알파벳 문자들로 된 스트링의 언어를 식별하는 방법에 있어서,
    상기 알파벳 문자들로 된 스트링을, 알파벳 문자들의 기준 집합으로부터 선택된 피매핑 알파벳 문자들의 스트링으로 매핑하는 단계;
    상기 피매핑 알파벳 문자들의 스트링이 상기 복수의 언어들 각각이 될 확률을 나타내는 제1값을 구하는 단계;
    상기 각 개별적 집합에서 상기 스트링 내 알파벳 문자들의 매치를 나타내는 제2값을 구하는 단계; 및
    상기 제1값과 제2값에 기초하여 상기 스트링의 언어를 결정하는 단계를 포함함을 특징으로 하는 방법.
  2. 제1항에 있어서,
    상기 기준 집합 내 알파벳 문자들의 개수는, 상기 모든 개별적 알파벳 문자들의 집합의 합집합보다 작음을 특징으로 하는 방법.
  3. 제1항에 있어서, 상기 제1값은 상기 기준 집합에 기반하여 얻어짐을 특징으로 하는 방법.
  4. 제3항에 있어서, 상기 기준 집합은, 상기 복수의 언어들 각각에 대한 개별적 집합 내 모든 알파벳 문자가 상기 기준 알파벳 문자들 중 하나로 고유하게 매핑될 수 있도록, 최소의 기준 알파벳 문자들로 된 집합을 포함함을 특징으로 하는 방법.
  5. 제3항에 있어서, 상기 기준 집합은, 상기 복수의 언어들 각각에 대한 개별적 집합 내 모든 알파벳 문자가 상기 기준 알파벳 문자들 중 하나로 고유하게 매핑될 수 있도록, 기준 알파벳 문자들 및 널(null) 심볼로 이뤄진 최소한의 집합으로 이뤄짐을 특징으로 하는 방법.
  6. 제5항에 있어서, 상기 피매핑 스트링 내 알파벳 문자들의 개수는 상기 스트링 내 알파벳 문자들의 개수와 동일함을 특징으로 하는 방법.
  7. 제4항에 있어서, 상기 기준 집합은, 기준 알파벳 문자들 및 상기 기준 알파벳 문자들과 다른 적어도 하나의 심볼로 된 최소한의 집합을 구비하여, 적어도 하나의 개별적 집합 내 각 알파벳 문자들이, 상기 기준 알파벳 문자들 중 적어도 하나와 상기 적어도 하나의 심볼이 결합된 것으로 고유하게 매핑될 수 있도록 함을 특징으로 하는 방법.
  8. 제4항에 있어서, 상기 기준 집합은, 기준 알파벳 문자들 및 상기 기준 알파 벳 문자들과 다른 복수의 심볼들로 된 최소한의 집합을 구비하여, 적어도 하나의 개별적 집합 내 각 알파벳 문자들이, 상기 기준 알파벳 문자들과 상기 복수의 심볼들 중 적어도 하나가 결합된 것으로 고유하게 매핑될 수 있도록 함을 특징으로 하는 방법.
  9. 제8항에 있어서, 상기 심볼들의 개수는 상기 자동 언어 식별 시스템의 요망되는 성능에 따라 조정될 수 있음을 특징으로 하는 방법.
  10. 제1항에 있어서, 상기 자동 언어 식별 시스템은 복수의 숨겨진 유닛들을 포함하는 신경망 기반 시스템이고, 상기 숨겨진 유닛들의 개수는 상기 자동 언어 식별 시스템의 요망되는 성능에 따라 조정될 수 있음을 특징으로 하는 방법.
  11. 제3항에 있어서, 상기 자동 언어 식별 시스템은 신경망 기반 시스템이고, 상기 신경망 기반 시스템에 의해 상기 확률이 계산됨을 특징으로 하는 방법.
  12. 제1항에 있어서, 상기 제2값은 상기 복수의 언어들 중 하나로 주어진 상기 스트링의 확률에 할당된 스케일링 팩터로부터 얻어짐을 특징으로 하는 방법.
  13. 제12항에 있어서, 상기 언어는 상기 복수의 언어들 가운데 상기 제1값과 제2값의 곱의 최대값에 기반해 결정됨을 특징으로 하는 방법.
  14. 자동 언어 식별 시스템에 의해, 각 그룹이 개별적 알파벳 문자들의 집합을 포함하는 복수의 언어 그룹들로 분류되는 복수의 언어들 가운데에서 어떤 알파벳 문자들로 된 스트링의 언어를 식별하는 방법에 있어서,
    상기 알파벳 문자들로 된 스트링을 알파벳 문자들의 기준 집합으로부터 선택된 피매핑 알파벳 문자들의 스트링으로 매핑하는 단계;
    상기 피매핑 알파벳 문자들의 스트링이 상기 복수의 언어들 각각이 될 확률을 나타내는 제1값을 구하는 단계;
    각 개개 집합에서 상기 스트링 내 알파벳 문자들의 매치를 나타내는 제2값을 구하는 단계; 및
    상기 제1값 및 제2값에 기초하여 상기 스트링의 언어를 결정하는 단계를 포함함을 특징으로 하는 방법.
  15. 제14항에 있어서,
    상기 기준 집합의 알파벳 문자들의 수는 상기 모든 개개 알파벳 문자들의 집합의 합집합보다 작음을 특징으로 하는 방법.
  16. 제14항에 있어서, 상기 제1값은 상기 기준 집합에 기반하여 얻어짐을 특징으로 하는 방법.
  17. 각 언어가 개별적 알파벳 문자들의 집합을 포함하는 복수의 언어들 중에서, 어떤 알파벳 문자들로 된 스트링의 언어를 식별하기 위한 언어 식별 시스템에 있어서,
    기준 알파벳 문자들의 집합;
    상기 알파벳 문자들로 된 스트링을 상기 기준 집합으로부터 선택된 알파벳 문자들로 된 피매핑 스트링으로 매핑하고, 상기 피매핑 스트링을 나타내는 신호를 제공하는 매핑 모듈;
    상기 신호에 응답하여, 상기 기준 집합에 기반하여 상기 피매핑 스트링이 상기 복수의 언어들 각각이 될 가능성을 판단하고, 그 가능성을 나타내는 제1정보를 제공하는 제1언어 판별 모듈;
    상기 개별적 알파벳 문자들의 집합에 기반하여 상기 스트링이 상기 복수의 언어들 각각이 될 가능성을 판단하고, 그 가능성을 나타내는 제2정보를 제공하는 제2언어 판별 모듈; 및
    상기 제1정보 및 제2정보에 응답하여, 상기 제1정보 및 제2정보에 기반해 상기 스트링이 상기 복수의 언어들 중 하나일 종합 가능성을 판단하는 결정 모듈을 포함함을 특징으로 하는 시스템.
  18. 제17항에 있어서, 상기 기준 집합 내 알파벳 문자들의 개수는, 상기 모든 개별적 알파벳 문자들의 집합의 합집합보다 작음을 특징으로 하는 시스템.
  19. 제17항에 있어서,
    상기 제1언어 판별 모듈은 복수의 숨겨진 유닛들을 포함하는 신경망 기반 시스템이고, 상기 언어 식별 시스템은 상기 복수의 숨겨진 유닛들에 부분적으로 기초하여 다양한 기준 집합을 저장하는 메모리 유닛을 포함하고, 상기 숨겨진 유닛들의 개수는 상기 메모리 유닛의 크기에 따라 조정될 수 있음을 특징으로 하는 시스템.
  20. 제17항에 있어서,
    상기 제1언어 판별 모듈은 복수의 숨겨진 유닛들을 구비하는 신경망 기반 시스템이고,
    상기 숨겨진 유닛들의 개수는 상기 언어 식별 시스템의 성능을 향상시키기 위해 증가될 수 있음을 특징으로 하는 시스템.
  21. 전자 기기에 있어서,
    어떤 알파벳 문자들로 된 스트링을 나타내는 신호를 제공하는 모듈;
    상기 신호에 반응하여, 각 언어가 개별적 알파벳 문자들로 된 집합을 포함하는 복수의 언어들 가운데에서 상기 스트링의 언어를 식별하기 위한 언어 식별 시스템을 포함하고,
    상기 언어 식별 시스템은,
    기준 알파벳 문자들의 집합;
    상기 알파벳 문자들로 된 스트링을, 상기 기준 집합으로부터 선택된 알파벳 문자들의 피매핑 스트링으로 매핑하고 상기 피매핑 스트링을 나타내는 추가 신호를 제공하는 매핑 모듈;
    상기 추가 신호에 반응하여, 상기 기준 집합에 기반하여 상기 피매핑 스트링이 상기 복수의 언어들 각각이 될 가능성을 판단하고, 그 가능성을 나타내는 제1정보를 제공하는 제1언어 판별 모듈;
    상기 제1신호에 반응하여, 상기 개별적 알파벳 문자들로 된 집합들에 기반하여 상기 스트링이 상기 복수의 언어들 각각이 될 가능성을 판단하고, 그 가능성을 나타내는 제2정보를 제공하는 제2언어 판별 모듈; 및
    상기 제1정보 및 제2정보에 반응하여, 상기 제1정보 및 제2정보에 기반하여 상기 스트링이 상기 복수의 언어들 중 하나가 될 종합 가능성을 판단하는 결정 모듈을 포함함을 특징으로 하는 전자 기기.
  22. 제21항에 있어서, 상기 기준 집합 내 알파벳 문자들의 개수는 상기 모든 개별적 알파벳 문자들의 집합들의 합집합 보다 작음을 특징으로 하는 전자 기기.
  23. 제21항의 전자 기기를 포함함을 특징으로 하는 휴대형 기기.
  24. 제21항의 전자 기기를 포함함을 특징으로 하는 모바일 전화기.
  25. 삭제
KR1020057006862A 2002-10-22 2003-07-21 서면 텍스트로부터의 조정가능 신경망 기반 언어 식별 KR100714769B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/279,747 2002-10-22
US10/279,747 US20040078191A1 (en) 2002-10-22 2002-10-22 Scalable neural network-based language identification from written text

Publications (2)

Publication Number Publication Date
KR20050070073A KR20050070073A (ko) 2005-07-05
KR100714769B1 true KR100714769B1 (ko) 2007-05-04

Family

ID=32093450

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020057006862A KR100714769B1 (ko) 2002-10-22 2003-07-21 서면 텍스트로부터의 조정가능 신경망 기반 언어 식별

Country Status (9)

Country Link
US (1) US20040078191A1 (ko)
EP (1) EP1554670A4 (ko)
JP (2) JP2006504173A (ko)
KR (1) KR100714769B1 (ko)
CN (1) CN1688999B (ko)
AU (1) AU2003253112A1 (ko)
BR (1) BR0314865A (ko)
CA (1) CA2500467A1 (ko)
WO (1) WO2004038606A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190119469A (ko) * 2018-04-12 2019-10-22 주식회사 푸른기술 머신 러닝을 이용한 지폐 일련번호 인식 장치 및 방법

Families Citing this family (54)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10334400A1 (de) * 2003-07-28 2005-02-24 Siemens Ag Verfahren zur Spracherkennung und Kommunikationsgerät
US7395319B2 (en) * 2003-12-31 2008-07-01 Checkfree Corporation System using contact list to identify network address for accessing electronic commerce application
US7640159B2 (en) * 2004-07-22 2009-12-29 Nuance Communications, Inc. System and method of speech recognition for non-native speakers of a language
DE102004042907A1 (de) * 2004-09-01 2006-03-02 Deutsche Telekom Ag Online Multimedia Kreuzworträtsel
US7840399B2 (en) * 2005-04-07 2010-11-23 Nokia Corporation Method, device, and computer program product for multi-lingual speech recognition
US7548849B2 (en) * 2005-04-29 2009-06-16 Research In Motion Limited Method for generating text that meets specified characteristics in a handheld electronic device and a handheld electronic device incorporating the same
US7552045B2 (en) * 2006-12-18 2009-06-23 Nokia Corporation Method, apparatus and computer program product for providing flexible text based language identification
US8886540B2 (en) * 2007-03-07 2014-11-11 Vlingo Corporation Using speech recognition results based on an unstructured language model in a mobile communication facility application
US8949130B2 (en) * 2007-03-07 2015-02-03 Vlingo Corporation Internal and external speech recognition use with a mobile communication facility
US20110054897A1 (en) * 2007-03-07 2011-03-03 Phillips Michael S Transmitting signal quality information in mobile dictation application
US20110054898A1 (en) * 2007-03-07 2011-03-03 Phillips Michael S Multiple web-based content search user interface in mobile search application
US20110054895A1 (en) * 2007-03-07 2011-03-03 Phillips Michael S Utilizing user transmitted text to improve language model in mobile dictation application
US20090030697A1 (en) * 2007-03-07 2009-01-29 Cerra Joseph P Using contextual information for delivering results generated from a speech recognition facility using an unstructured language model
US10056077B2 (en) * 2007-03-07 2018-08-21 Nuance Communications, Inc. Using speech recognition results based on an unstructured language model with a music system
US20090030685A1 (en) * 2007-03-07 2009-01-29 Cerra Joseph P Using speech recognition results based on an unstructured language model with a navigation system
US20080221899A1 (en) * 2007-03-07 2008-09-11 Cerra Joseph P Mobile messaging environment speech processing facility
US8635243B2 (en) * 2007-03-07 2014-01-21 Research In Motion Limited Sending a communications header with voice recording to send metadata for use in speech recognition, formatting, and search mobile search application
US20090030687A1 (en) * 2007-03-07 2009-01-29 Cerra Joseph P Adapting an unstructured language model speech recognition system based on usage
US8949266B2 (en) 2007-03-07 2015-02-03 Vlingo Corporation Multiple web-based content category searching in mobile search application
US8838457B2 (en) * 2007-03-07 2014-09-16 Vlingo Corporation Using results of unstructured language model based speech recognition to control a system-level function of a mobile communications facility
US20110060587A1 (en) * 2007-03-07 2011-03-10 Phillips Michael S Command and control utilizing ancillary information in a mobile voice-to-speech application
US20090030688A1 (en) * 2007-03-07 2009-01-29 Cerra Joseph P Tagging speech recognition results based on an unstructured language model for use in a mobile communication facility application
US8886545B2 (en) * 2007-03-07 2014-11-11 Vlingo Corporation Dealing with switch latency in speech recognition
US20110054896A1 (en) * 2007-03-07 2011-03-03 Phillips Michael S Sending a communications header with voice recording to send metadata for use in speech recognition and formatting in mobile dictation application
US8996379B2 (en) * 2007-03-07 2015-03-31 Vlingo Corporation Speech recognition text entry for software applications
US20090030691A1 (en) * 2007-03-07 2009-01-29 Cerra Joseph P Using an unstructured language model associated with an application of a mobile communication facility
US20110054899A1 (en) * 2007-03-07 2011-03-03 Phillips Michael S Command and control utilizing content information in a mobile voice-to-speech application
JP5246751B2 (ja) * 2008-03-31 2013-07-24 独立行政法人理化学研究所 情報処理装置、情報処理方法、およびプログラム
US8107671B2 (en) * 2008-06-26 2012-01-31 Microsoft Corporation Script detection service
US8073680B2 (en) * 2008-06-26 2011-12-06 Microsoft Corporation Language detection service
US8019596B2 (en) * 2008-06-26 2011-09-13 Microsoft Corporation Linguistic service platform
US8266514B2 (en) * 2008-06-26 2012-09-11 Microsoft Corporation Map service
US8311824B2 (en) * 2008-10-27 2012-11-13 Nice-Systems Ltd Methods and apparatus for language identification
US8224641B2 (en) * 2008-11-19 2012-07-17 Stratify, Inc. Language identification for documents containing multiple languages
US8224642B2 (en) * 2008-11-20 2012-07-17 Stratify, Inc. Automated identification of documents as not belonging to any language
WO2011096015A1 (ja) * 2010-02-05 2011-08-11 三菱電機株式会社 認識辞書作成装置及び音声認識装置
WO2012042578A1 (ja) * 2010-10-01 2012-04-05 三菱電機株式会社 音声認識装置
CN103703461A (zh) * 2011-06-24 2014-04-02 谷歌公司 检测搜索查询的源语言
GB201216640D0 (en) * 2012-09-18 2012-10-31 Touchtype Ltd Formatting module, system and method for formatting an electronic character sequence
CN103578471B (zh) * 2013-10-18 2017-03-01 威盛电子股份有限公司 语音辨识方法及其电子装置
US9195656B2 (en) * 2013-12-30 2015-11-24 Google Inc. Multilingual prosody generation
US20160035344A1 (en) * 2014-08-04 2016-02-04 Google Inc. Identifying the language of a spoken utterance
US9812128B2 (en) * 2014-10-09 2017-11-07 Google Inc. Device leadership negotiation among voice interface devices
US9858484B2 (en) * 2014-12-30 2018-01-02 Facebook, Inc. Systems and methods for determining video feature descriptors based on convolutional neural networks
US10417555B2 (en) 2015-05-29 2019-09-17 Samsung Electronics Co., Ltd. Data-optimized neural network traversal
US10474753B2 (en) * 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10282415B2 (en) 2016-11-29 2019-05-07 Ebay Inc. Language identification for text strings
CN108288078B (zh) * 2017-12-07 2020-09-29 腾讯科技(深圳)有限公司 一种图像中字符识别方法、装置和介质
CN108197087B (zh) * 2018-01-18 2021-11-16 奇安信科技集团股份有限公司 字符编码识别方法及装置
EP3561806B1 (en) * 2018-04-23 2020-04-22 Spotify AB Activation trigger processing
JP2020056972A (ja) * 2018-10-04 2020-04-09 富士通株式会社 言語識別プログラム、言語識別方法及び言語識別装置
CN113692616B (zh) * 2019-05-03 2024-01-05 谷歌有限责任公司 用于在端到端模型中的跨语言语音识别的基于音素的场境化
US11720752B2 (en) * 2020-07-07 2023-08-08 Sap Se Machine learning enabled text analysis with multi-language support
US20220198155A1 (en) * 2020-12-18 2022-06-23 Capital One Services, Llc Systems and methods for translating transaction descriptions

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5062143A (en) * 1990-02-23 1991-10-29 Harris Corporation Trigram-based method of language identification
US5548507A (en) * 1994-03-14 1996-08-20 International Business Machines Corporation Language identification process using coded language words
IL109268A (en) * 1994-04-10 1999-01-26 Advanced Recognition Tech Method and system for image recognition
US6615168B1 (en) * 1996-07-26 2003-09-02 Sun Microsystems, Inc. Multilingual agent for use in computer systems
US6009382A (en) * 1996-08-19 1999-12-28 International Business Machines Corporation Word storage table for natural language determination
US6216102B1 (en) * 1996-08-19 2001-04-10 International Business Machines Corporation Natural language determination using partial words
US6415250B1 (en) * 1997-06-18 2002-07-02 Novell, Inc. System and method for identifying language using morphologically-based techniques
CA2242065C (en) * 1997-07-03 2004-12-14 Henry C.A. Hyde-Thomson Unified messaging system with automatic language identification for text-to-speech conversion
JPH1139306A (ja) * 1997-07-16 1999-02-12 Sony Corp 多言語情報の処理システムおよび処理方法
US6047251A (en) * 1997-09-15 2000-04-04 Caere Corporation Automatic language identification system for multilingual optical character recognition
EP1016077B1 (de) * 1997-09-17 2001-05-16 Siemens Aktiengesellschaft Verfahren zur bestimmung einer wahrscheinlichkeit für das auftreten einer folge von mindestens zwei wörtern bei einer spracherkennung
US6157905A (en) * 1997-12-11 2000-12-05 Microsoft Corporation Identifying language and character set of data representing text
US6016471A (en) * 1998-04-29 2000-01-18 Matsushita Electric Industrial Co., Ltd. Method and apparatus using decision trees to generate and score multiple pronunciations for a spelled word
TW422967B (en) * 1998-04-29 2001-02-21 Matsushita Electric Ind Co Ltd Method and apparatus using decision trees to generate and score multiple pronunciations for a spelled word
JP2000148754A (ja) * 1998-11-13 2000-05-30 Omron Corp マルチリンガル・システム,マルチリンガル処理方法およびマルチリンガル処理のプログラムを記憶した媒体
US6167369A (en) * 1998-12-23 2000-12-26 Xerox Company Automatic language identification using both N-gram and word information
JP2000250905A (ja) * 1999-02-25 2000-09-14 Fujitsu Ltd 言語処理装置及びそのプログラム記憶媒体
US6182148B1 (en) * 1999-03-18 2001-01-30 Walid, Inc. Method and system for internationalizing domain names
DE19963812A1 (de) * 1999-12-30 2001-07-05 Nokia Mobile Phones Ltd Verfahren zum Erkennen einer Sprache und zum Steuern einer Sprachsyntheseeinheit sowie Kommunikationsvorrichtung
CN1144173C (zh) * 2000-08-16 2004-03-31 财团法人工业技术研究院 概率导向的容错式自然语言理解方法
US7277732B2 (en) * 2000-10-13 2007-10-02 Microsoft Corporation Language input system for mobile devices
FI20010644A (fi) * 2001-03-28 2002-09-29 Nokia Corp Merkkisekvenssin kielen määrittäminen
US7191116B2 (en) * 2001-06-19 2007-03-13 Oracle International Corporation Methods and systems for determining a language of a document

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
없음

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190119469A (ko) * 2018-04-12 2019-10-22 주식회사 푸른기술 머신 러닝을 이용한 지폐 일련번호 인식 장치 및 방법
KR102123910B1 (ko) 2018-04-12 2020-06-18 주식회사 푸른기술 머신 러닝을 이용한 지폐 일련번호 인식 장치 및 방법

Also Published As

Publication number Publication date
EP1554670A1 (en) 2005-07-20
EP1554670A4 (en) 2008-09-10
CN1688999B (zh) 2010-04-28
WO2004038606A1 (en) 2004-05-06
AU2003253112A1 (en) 2004-05-13
KR20050070073A (ko) 2005-07-05
US20040078191A1 (en) 2004-04-22
JP2006504173A (ja) 2006-02-02
CN1688999A (zh) 2005-10-26
CA2500467A1 (en) 2004-05-06
BR0314865A (pt) 2005-08-02
JP2009037633A (ja) 2009-02-19

Similar Documents

Publication Publication Date Title
KR100714769B1 (ko) 서면 텍스트로부터의 조정가능 신경망 기반 언어 식별
US7421387B2 (en) Dynamic N-best algorithm to reduce recognition errors
US5949961A (en) Word syllabification in speech synthesis system
EP1267326B1 (en) Artificial language generation
Siivola et al. Unlimited vocabulary speech recognition based on morphs discovered in an unsupervised manner
EP1251490A1 (en) Compact phonetic model for arabic languages recognition
US20060064177A1 (en) System and method for measuring confusion among words in an adaptive speech recognition system
EP1668628A1 (en) Method for synthesizing speech
US20110106792A1 (en) System and method for word matching and indexing
US11935523B2 (en) Detection of correctness of pronunciation
US20050187767A1 (en) Dynamic N-best algorithm to reduce speech recognition errors
US20020198712A1 (en) Artificial language generation and evaluation
US7428491B2 (en) Method and system for obtaining personal aliases through voice recognition
Tian et al. Scalable neural network based language identification from written text
WO2022060439A1 (en) Language autodetection from non-character sub-token signals
CN109344388B (zh) 一种垃圾评论识别方法、装置及计算机可读存储介质
CN111429886B (zh) 一种语音识别方法及系统
CN114492382A (zh) 人物提取方法、文本朗读方法、对话式文本生成方法、装置、设备及存储介质
Tian Data-driven approaches for automatic detection of syllable boundaries.
Praveen et al. Phoneme based Kannada Speech Corpus for Automatic Speech Recognition System
Akinwonmi Development of a prosodic read speech syllabic corpus of the Yoruba language
Asahiah Development of a Standard Yorùbá digital text automatic diacritic restoration system
Haverals et al. Data-driven syllabification for Middle Dutch
KR100451919B1 (ko) 영어 발음 기호의 분해 및 합성 방법
CN115188365B (zh) 一种停顿预测方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20100427

Year of fee payment: 4

LAPS Lapse due to unpaid annual fee