KR102425917B1 - 자동으로 텍스트의 의미를 검출하고 텍스트의 일의성을 측정하기 위한 방법 - Google Patents
자동으로 텍스트의 의미를 검출하고 텍스트의 일의성을 측정하기 위한 방법 Download PDFInfo
- Publication number
- KR102425917B1 KR102425917B1 KR1020167023610A KR20167023610A KR102425917B1 KR 102425917 B1 KR102425917 B1 KR 102425917B1 KR 1020167023610 A KR1020167023610 A KR 1020167023610A KR 20167023610 A KR20167023610 A KR 20167023610A KR 102425917 B1 KR102425917 B1 KR 102425917B1
- Authority
- KR
- South Korea
- Prior art keywords
- semantic
- sentence
- words
- text
- sentences
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/232—Orthographic correction, e.g. spell checking or vowelisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/268—Morphological analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/55—Rule-based translation
- G06F40/56—Natural language generation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
- Measuring And Recording Apparatus For Diagnosis (AREA)
Abstract
본 발명은 다수의 입력 단어들을 포함하는 텍스트, 특히 적어도 하나의 문장을 포함하는 텍스트에서 자동으로 의미 패턴을 인식하기 위한 방법으로, 한 언어의 단어들, 단어들의 특성을 설명하는 다수의 소정의 의미 범주들, 및 데이터베이스로 저장된 모든 단어들에 대한 의미 신호들을 포함하는 데이터베이스 시스템을 이용하는 방법에 관한 것으로, 의미-신호는 의미 범주에 의거하여 단어들의 의미를 일의적으로 숫자상으로 특성화한 것이다.
Description
본 발명은 자동으로 텍스트의 의미를 검출하고 텍스트의 명확성을 측정하기 위한 방법에 관한 것이다.
1. 일반 사항
1.1 요약
컴퓨터로 구현된(computer implemented) 발명의 청구된 방법은 "올바른 의미 검사"이다: 자연 표준어(natural standard language)로 이루어진 텍스트의 각 문장에 대하여 문장이 일의적으로 표현되었는지를 자동으로 결정론적으로 확정하되, 문장을 형성하는 각 단어에 대해 - 컴퓨터를 이용하여 - 맥락(context) 내에서 단어의 1개뿐인 단일의 관련 의미가 존재하고, 바로 그 의미에 해당하는지를 자동으로 계산하면서 확정하는 것이다.
문장이 작성된 자연 표준어의 모든 관련 단어들에서 의미들 및 이와 결부된 연상들은 이전에 생성되어 표준화된 특정한 숫자 필드들 - 소위 의미-신호들(sense-signals) - 로 저장되고 자동으로 검색 가능하다. 이러한 필드들은 본 발명에서 - 오로지 입력된 문장 및 그 맥락에 의해 제어되는 방식으로 - 자동으로 산술적으로 조합되고, 비교 분석됨으로써, - 문장이 일의적이지 않을 때 - 검색 결과로서 표현의 오류가 보고되거나, 또는 각 단어는 해당 맥락에서 그 단어를 위해 유효한 단일의 부속 의미-신호와 밀접하게 연결된다.
이는, 문장에서 명시적이지 않고 대개 암시적으로만 존재하는 정보들을 문장으로부터 유추한다는 목적에 상응한다. 본 발명에 의해 맥락 내에서 계산될 수 있는 문장의 이러한 암시적 정보는, 오로지 문장 내의 단어들이 포함하는 특정한 배치 및 어형론에 의해서만 제어되는, 문장에 존재하는 단어들의 의미-신호들을 산술적 및 논리적으로 조합하는 본 발명에 따른 방법에 기초한다.
전문 개념들에 대한 고지:
특정한 전문 어휘 및 본 발명에서 특정한 신규한 개념은(예컨대 의미-신호, 상호 보완물 또는 단어-결합)은 표 4에 나와 있다. 언어학 및 컴퓨터 언어학의 표준-전문 개념은 표 7에 나와 있다.
1.2 기초적 과정
1.2.1. 다수의 입력 단어들을 포함하는 텍스트, 특히 적어도 하나의 문장을 포함하는 텍스트에서 자동으로 의미 패턴 인식을 하기 위해, 한 언어의 단어들(도 3a의 1행), 단어들의 특성을 설명하는 다수의 소정의 의미 범주들(도 3a의 1-4열, 도 3a 및 이에 대한 챕터 3.2의 설명 참조), 데이터베이스에 저장된 모든 단어들에 대한 의미-신호들을 포함하는 데이터베이스 시스템을 이용하는 방법으로, 의미-신호는 의미 범주들에 따라 단어들의 의미를 일의적으로 숫자상으로 특성화한 것이며, 이때 적어도 다음의 단계들이 수행된다:
a) 입력 단어들을 포함하는 텍스트를 데이터 처리 장치에서 판독 입력(read-in) 하는 단계,
b) 모든 입력 단어들을 데이터베이스 시스템의 단어들과 비교하는 단계,
c) 각 입력 단어에 적어도 하나의 의미-신호를 할당하는 단계로, 동형동음이의어(homonym)의 경우 2개 이상의 의미-신호들이 할당되는 것인, 할당 단계,
d) 입력 단어들에 대한 의미-신호들의 할당이 일의적인 경우, 의미 패턴 인식이 종료되고,
e) 맥락 내에서 입력 단어에 1개보다 많은 의미-신호가 할당될 수 있는 경우, 관련 의미-신호들은 오로지 맥락-제어 방식으로 서로 비교되고,
f) 입력 단어들의 의미-신호들의 상호 조합에 따라, - 특히 동형동음이의어에서 - 입력 단어의 의미에서 맥락과의 모순 또는 일치가 존재하는지를 확정하는 단계,
g) 모순을 야기하는 의미-신호 조합들은 가려내고(도 3b 및 이에 대한 챕터 3.3의 설명 참조), 일치에 해당하는 의미-신호 조합들은 일치 정도에 따라(의미 변조) 소정의 관련성 기준에 따라 (챕터 3.3 참조) 자동으로 숫자상으로 평가 및 등록되고,
h) 단계들 d) 및 g)로부터 나타나는 모든 입력 단어들의 자동 편성은 텍스트, 특히 문장의 의미 패턴 또는 숫자상으로 된 의미 교차 행렬(도 3b)로서 출력된다.
i) 예컨대 음성 인식으로부터 동음이의어(homophone)를 포함하는 단어들이 존재하는 텍스트에서 그리고 이에 상응하는 트리거 시, 특히 의미-신호 일치 정도 검사, 및 맥락과 관련하여 기존 단어 및 이에 대한 추가적 동음이의어의 정서법의 어형-통사론적 적합성 검사를 하고, 경우에 따라서 검사한 문장의 맥락에서 동일한 동음이의어 그룹의 단어들의 의미-신호들 간에 구별이 충분하지 않을 때 자동 대체 또는 오류 알림을 한다.
1.2.2 해결된 문제
"올바른 의미 검사"는 텍스트를 자동으로 처리할 때 기술적 문제를 해결하며, 특히 이러한 텍스트의 단어들이 복수의 의미들을 포함할 때 (=동형동음이의어) 그러한 동형동음이의어가 텍스트에서 문장의 저자에 의해 실제로 그러한 의미들 중에 어떤 의미로 사용되었는지가 명시적으로 나와 있지 않을 때 기술적 문제를 해결한다.
구두의 텍스트에서, "올바른 의미 검사"는 동형동음이의어와 동일하게 동음이의어의 문제를 해결한다. 동음이의어에서, 텍스트를 들을 때 사용된 단어의 정서법은 결정되어 있지 않다.
동음이의어 단어들의 예: Lehre(교리) - Leere(빈); 또는 DAX(닥스) - Dachs(오소리); 또한, 특히 독일어에서 대-소문자 쓰기에서 예컨대 wagen(용기 있음) - Wagen(차량); wegen (이유) - Wegen(복수/Weg의 3격); 영어에서 예컨대 to - two - too; 또는 knew - new - gnu. 또한, 단어 합자에서(복합어 아님): 예컨대 "an die" - "Andy"; 또는 예컨대 스페인어에서 "del fin"(즉 "끝으로부터") - delfin(포유류).
동음이의어 단어들의 수(자주 사용되는 단어 합자는 계산에 포함하지 않음)는 예컨대 다음과 같다: 독일어는 약 8000 단어, 영어는 약 15,000 단어, 프랑스어는 약 20,000 단어, 일본어는 약 30,000 단어).
현재까지, 예컨대 동형동음이의어 및 동음이의어와 관련하여 문장의 이러한 명시적이지 않은 정보 - 한편 자연어로 이루어진 임의의 일의적인 문장에서 사용된 단어들 자체의 조합을 통해 문장 및 맥락에서 암시적으로 존재하는 정보 - 는 그 문장이 생성된 언어를 사용하는 사람에 의해서만 신뢰할만하게 확정될 수 있다(음성학적이건, 문자 숫자적(alphanumeric)이건 간에).
동형동음이의어 및 동음이의어는 모든 언어에서 가장 빈번하게 사용되는 단어들에 속한다. 예컨대 독일어에서 가장 빈번하게 사용되는 2000개의 단어들 중에 약 80%가 동형동음이의어이며, 약 15%가 동음이의어이다. 다른 표준어에서 이러한 수치는 부분적으로 현저히 더 크다.
예컨대 완전히 모르는 언어로 이루어진 문장의 각 단어의 의미를 해석하려 할 때, 문장의 각 단어에 대하여 기본적 형태의 단어 의미들을 찾고 - 예컨대 사전을 이용 -, 이후 - 모르는 언어에서 - 문장의 저자가 의미들 중 어떤 의미를 문장의 다른 단어들과 연관하여 의도하였는지를 파악해야 한다. 문장에 동형동음이의어가 많을수록, 이러한 과정은 더 어려울 것이다.
이미, 5개 또는 8개의 단어로 구성된 문장에서, 설사 맥락에서 가능한 조합들 중 단일의 조합만이 올바른 경우에도, 문장 단어들의 의미 조합 가능성들은 원칙적으로 수백 내지 수천 개로 존재할 수 있다. 예컨대 도 2의 문장 2.1.A1 및 2.1.A2 참조. 문장 2.1.A2에서, 본 발명의 적용 후, 각 단어의 의미는 식별되었고, 각 단어에서의 위 첨자(superscript)에 의해 인식 가능하다(우측 박스의 개별 의미 참조). 도 2의 문장은, 이 문장을 위한 단어들의 의미들의 원칙적 의미 조합 가능성들이 거의 2백만 개에 육박함에도 불구하고 일의적이다. 이에 대해 도 2의 필드 J4-J6, J15-J17 참조. 이러한 예시의 동형동음이의어의 다른 의미들에 대한 세부적 추가 정보는 표 1에 나와 있다.
본 발명에 연결된 데이터베이스에서 의미-신호들을 포함하여 등록된 모든 단어들에 대한 이러한 문제 - 각각의 임의적 문장 및 맥락에서 단어의 가능한 의미 변이형들(variants)의 기본형 산출, 및 올바른 의미 조합 계산 - 를 본 발명은 자동으로 해결한다. 임의의 다른 텍스트 데이터베이스, 말뭉치(corpora), 어휘 목록 등을 분석할 필요 없이, 단일하고 단독적으로, 입력된 텍스트(문장 + 문장 맥락) 자체에 대하여 의미-신호들을 자동으로 분석하고 숫자상 대조하는 것; 통계적 방식도 아니고, 그래프 관련 방식(예컨대 유클리드 벡터 공간에서 변 길이의 계산)도 아니며, 인공 신경망을 이용하지도 않음.
본원에서는 의미-신호들에 대해 논의하는 것이 중요한데, 의미-신호들을 포함하는 정보 환경을 위한 선택된 구조 및 산술(arithmetic)은 "연상(association)"과 같은 신경학적 개념과 달리 숫자 패턴을 포함하는 컴퓨터 환경에 부합하기 때문이다.
의미-신호들은 수치적 방식의 연상이긴 하나, 그 자체가 연상은 아니다. 정보 기술에서 의미-신호들의 상호 변조 과정의 분석뿐만 아니라, 인간이 언어를 인지하여 연상을 처리할 때 두뇌에서 전기 "전류"가 존재하는 것에 대해 새로운 표현 "의미-신호들"을 사용할 것을 권장한다.
1.3 기술적 적용 가능성 / 종래 기술과의 비교
올바른 의미 검사 및 그 외의 직접적인 실무 적용 예시는 다음과 같다:
- 고품질의 자동 번역기:
한편으로, 오로지 일의적인 문장들만 정확하게 번역될 수 있다. 다른 한편으로, 문장의 각 개별 단어의 -단일의- 관련 의미를 맥락에서 인식하면, 일의적인 문장에는 오로지 정확한 번역들만이 할당될 수 있다. 유명한 제품에 따른 주지의 종래 기술 - 무료 또는 유료 여부 무관 - 예컨대 통계적 번역기에서 오역률은 50%이다. 그럼에도 불구하고, 본 발명의 조사된 데이터베이스는 통상적인 통계 기반 번역기에 비해 오역율은 500~1000배 낮은 한편, 이와 동시에 번역 품질은 95%까지 향상된다(표 5 + 6 참조).
- 맥락에서 각 단어의 단일의 관련 의미를 인식함에 따라, 특히 텍스트 데이터베이스를 의미에 따라 신규한 방식으로 자동으로 의미론적으로 지시(지시cation)할 수 있다. 이러한 지시는, 종래 기술보다 훨씬 더 정확한 검색기의 검색 결과가 획득된다(99% 내지 99.99%배 더 적은 비-관련 적중 결과(hit)). 유명한 제품에 따른 주지의 종래 기술에서 검색어가 동형동음이의어이면, 목적한 의미뿐만 아니라 단어의 모든 의미들에 해당하는 적중 결과가 표시된다.
- 또한, 음성 인식 또는 인간-기계 대화 시, 맥락에서 각 단어의 단일의 관련 의미를 인식하면, 입력을 정확하게 - 유의미하게 - 파악 및 추가 처리할 수 있으며 - 입력과 관련하여 자동으로 생성되는 유의미한 상호적 대화의 형태로도 그러함 -, 이는 이제까지 가능하지 않았다. 유명한 제품에 따른 주지의 종래 기술에서 동음이의어의 해석 오류는 100%이며, 논리적인 추론(inference)이 중요한 단어들을 신뢰할만하게 감지하지 않는다. 예시 2.2 의 문장 2.2.B1 및 2.2.B2 참조.
1.4 요약 설명
컴퓨터로 구현되는 본 발명의 과정은 순수하게 형식적으로, 올바른 정서법 검사에 대조할 수 있다. 도 1을 참조하면, (신규한) 올바른 의미 검사(B)를 추상화한 흐름도는 (공지된) 자동 올바른 정서법 검사(A)와 매우 유사하다.
(B) - 본 발명 - 의 기초를 이루는 신규한 숫자상 처리는, 의미-신호들로 등록된 한 단어의 모든 가능한 연상과 그 맥락과의 관련성을 자동으로 계산할 수 있다.
의미-신호들은 각각의 개별 단어 및 그 단어의 각각의 상이한 의미들에 대한 기초적 데이터들이다. 의미-신호들은 확정적으로 정해진 다차원적 숫자 필드들로서, 이러한 숫자 필드들은 서로 숫자상 및 논리적으로 비교될 수 있다. 도 4.7을 참조하면, 본 발명에서, 표준어의 모든 관련 단어들에 대하여 의미-신호들이 정의되어 있고, 자동으로 검색 가능하다.
어떤 단어가 단일의 의미만을 가지거나, 맥락 내에 있는 적어도 하나의 추가적 단어의 의미 신호가 맥락 내의 다른 단어들에 비해 해당 단어와 더 많은 일치점을 가지고, 심지어 현저히 더 많이 일치하는 이유로, 어떤 단어가 오로지 1개만의 의미-신호를 포함하는 경우, 그 단어의 의미 신호는 맥락에서 "유효"하게 된다(도 1, 3행의 박스, 우측 참조). 의미가 서로 "유효"한 단어들은 본 발명의 범위 내에서 "상호 보완적"으로 명명된다(상세한 정의는 부분 2의 도입부에 나와 있음).
각 문장의 단어들은 맥락 내에서 1개 보다 많은 수의 연상을 포함할 수 있는데, 그 이유는 다음과 같다:
모든 언어에는 수 만개의 단어들이 존재하고(예컨대 독일어는 약 35,000, 영어는 약 50,000), 이러한 단어들은 정확히 동일한 정서법에서 복수의 상이한 의미들을 포함한다(동형동음이의어라고 지칭됨): 예컨대 Lauf [13개의 의미들], Zug [43], Geschoss [4], anziehen [12].
비-동형동음이의어에 비해, 동형동음이의어는 모든 언어에서 매우 빈번하게 사용된다. 또한, 문장-불변화사(particle)는 일반적으로 동형동음이의어이며, 이러한 동형동음이의어는 어느 단어 또는 문장 부분에 따라 지정되는가에 따라 대부분 어순 종속적인 복수의 의미들 및 통사론적 기능들을 가진다.
문장 불변화사에 대해서만, 부사(기능에 따라 어형변화하지 않는 단어들)를 포함하여 전체적으로 약 5300개의 동형동음이의어가 존재한다.
자연어의 거의 모든 문장 텍스트는 동형동음이의어를 포함한다. EDP의 종래 기술의 순수하게 사전적인7 분석 가능성 - 255 아스키 문자를 포함하는 구텐베르크 활자 상자와 사실상 동일 - 은 텍스트의 유의미한 처리와 관련하여 전적으로 불충분하다.
이는 모든 자연 표준어 구어(spoken language)에 해당한다.
텍스트의 저자에 의해 동형동음이의어에 지정되는 의미는 이러한 동형동음이의어가 나타나 있는 맥락을 통해 결정되며, 이러한 의미는 텍스트에서 자체적으로 명시적으로 유추될 수 없다. 올바른 의미 검사(B)의 적용 후 비로소(도 2에서 텍스트 2.1.A1이 지시된 형태 2.1.A2로 바뀜), 각 동형동음이의어의 의미가 문장 맥락에서 관련 의미를 가지는지, 그리고 어떤 의미가 그러한지를 알게 된다.
자연어의 이러한 특성 - 복수의 의미들을 포함하는 사용된 단어들의 일의적인 의미를 텍스트 자체에서 명시적으로 유추할 수 없고, 오로지 암시적으로 언어 지식에 의해 맥락에서 연상될 수 있음 - 은 국제적으로 언어학에서 일반적으로 통용되는 정의가 없다.
문장 의미론 전문 분야에서, 이러한 특성은 가장 넓은 의미에서 특히 "모호성(equivocation)7", "동형동음이의어7", "애매성(ambiguity)7", "다의성(polysemy)7"이란 개념들로 바꾸어 표현된다. 종래 기술에서는, 일반적으로 "단어 의미 중의성 해소(word-sense-disambiguation)" 또는 "애매성의 축소"를 논의한다. 그러나 형식적으로, 어떤 단어에서 "중의성을 해소할 수 있거나" "문장의 애매성"을 축소할 수 있다는 것은 논리적으로 부정확하거나 매우 혼란스러운 일이라고 할 수 있다.
왜냐하면:
문장 내의 단어 또는 문장은 애매한 경우도 있고 애매하지 않은 경우도 있기 때문이다. 오로지 문장의 저자 및 문장의 맥락만이 이를 해결할 수 있다.
즉, 문장의 비일의성은 오로지
a) 인간이 확정할 수 있거나, 또는
b) 적합한 방법 (청구된 발명)을 통해 기계적으로 계산할 수 있다.
따라서, 이하 텍스트에서 청구된 전체의 신규한 방법, 즉 자연어에서 항상 존재하는 "모호성", "동형동음이의어", "애매성" 및 "다의성"에도 불구하고, 한 문장의 모든 단어들의 사용된 의미들의 개수 및 어떤 의미들인지를 계산할 수 있는 이 방법은 다음의 명칭으로 명명할 수 있다:
"단어들 간의 상호 보완적인 연상 가능한 의미론적 관계를 계산하여 문장의 암시적 의미 결정".
영문 약어는 다음과 같다:
SenSzCore = Sentence sense determination by computing of complementary, associative, semantical relationships.
올바른 의미 검사 또는 SenSzCore 없이는, 예컨대 음성 인식 또는 번역을 위해, 텍스트 - 그 자체 - 에 대해 실제로 정확하고 자동적인 의미-지향적-바른 작업을 수행할 수 없다. - 종래 기술 적용 시의 경우와 같이 -, 올바른 의미 검사 없이, 자동 의미 처리에서는 항상 명백한 해석 오류가 발생한다.
SenSzCore를 이용하는 올바른 의미 검사는 단어들의 의미 파악과 함께 텍스트를 자동으로 처리하는데 결정적이며, 종래 기술, 즉 전자 데이터 처리(EDP)와 달리, 자연 표준어 텍스트의 전자 의미 처리(ESP4)를 위한 운영 전제 조건이다.
종래 기술에 따른 번역 소프트웨어 또는 음성 인식 소프트웨어에 대한 의견:
문장들의 의미를 - 분석되는 단어들의 양이 얼마나 많은지와 무관하게, 맥락 내에서 단어들의 연상에 기반하지 않고 - 단어들 자체의 분석에 기반하는 모든 출원들은 고작 약 50%의 경우로 맥락 내에서 분석된 단어들의 정확한 의미를 찾을 수 있다.
증거:
예컨대 시장에서 통용되는 번역기의 약 50%의 적중률
원인:
- 예컨대 다른 유사한 문장들을 이용하여 통계적 방법에 의해 - 255 아스키 문자의 형태로 존재하는 문장의 명시적인 - 즉 순수하게 사전적인 - 데이터를 분석하는 것은 - 그 자체가 - 암시적인 정보를 전달할 수 없는데, - 왜냐하면 이러한 정보는 자연적으로 문자 숫자식 문자 조합으로 존재하지 않고, 텍스트의 독자가 텍스트를 읽는 그 순간 그의 머릿속에서 존재하는 것이기 때문이다; 단, 텍스트의 독자가 텍스트가 작성된 언어에 대해 충분히 양호한 언어 지식을 갖고 있다는 것을 전제한다. 바꾸어 말하면: 문장의 암시적 정보는 오로지 단일어(monolingual)7로, 텍스트가 작성된 언어의 단어들 사이의 정보 처리 가능한 연상에 의해 - 텍스트 독자의 머릿속에서 일어나는 연상과 유사 - 정보적으로 파악 가능하다. 즉, 비유적인 의미에서 본 발명에 의해 신규한 방법이 제공되며, 이는 단어들의 맥락에서 단어들의 "연상 가능한 디지털화된 의미"(의미-신호들)의 적용에 의해 정보적 처리를 허용하는 방법이며, 이는 이미지들의 정보적 처리를 위한 전제로서 조사된(illuminated) 감광성 면들을 픽셀화하는 CCD-카메라와 유사하다. 물론, 의미-신호들은 감광면으로부터 획득된 이미지 픽셀들의 짧은 숫자상 정보에 비해 논리적이며 구조적으로 수배 더 복잡하게 구성되어 있다.
이러한 실상에 대한 추가적 예시는 이하 챕터에 나와 있다.
1.5 기능 원리 및 종래 기술과의 비교
인간의 입장에서 어떤 문장(예: "Wir werden die Preise anziehen(우리는 가격을 올릴 것이다).")의 맥락에서 동형동음이의어(이 경우: anziehen)의 모든 의미 연상들에 대해 오로지 각각 1개의 의미만이 유효한 단어들(이 경우: Preise(가격))이 있다면, 이 문장은 독자에게 일의적이다. 본 발명의 요지는, 인간의 입장에서 매우 신속하고 무의식적으로 진행되는 이러한 결정 방식을 자동으로 야기하되, 더욱이 문장 자체, 문장의 맥락 및 문장에 속하는 본 발명의 특정한 의미-신호들의 정보적 처리를 통해서만 야기하는 것이다.
특히 번역 또는 음성 인식에서, 단어들의 자동적인 의미 확정 시, 문제를 바로 알 수 있다:
종래 기술에 따른 자동 번역기는 예컨대 다음의 문장:
"Ich nahm einen langen Zug aus der Zigarette(나는 담배 연기를 길게 내뿜었다)"를 다음과 같이 완전히 오역한다:
"I took a long train from the cigarette."
또는 다음의 문장(도 2.1.A1):
"Der Zug im Lauf verleiht dem Geschoss eine Drehung um seine Laengsachse(총신 내부의 나선 홈에서 탄환이 종축 둘레에서 회전한다)."
은 다음과 같이 완전히 오역된다:
"The train in the course gives the floor a rotation about its longitudinal axis."(도 2 좌표 H8). 표 1의 단어들의 개별 의미들 참조.
문장 및 문장의 정확한 번역이 프로그램들에서 텍스트 라이브러리로서 존재하는 경우를 제외하고, 이러한 방식의 종래 기술에 따른 번역 프로그램들은 번역물의 약 50%에서 현저한 오류를 포함한다.
이제까지, 종래 기술에는 번역기에서 의미 할당의 간접적 방법들만이 공지되어 있다(예컨대 US 8548795, US 8260605 B2, US 8190423 B2). 이러한 방법들은 방대한 텍스트 말뭉치(수백만의 문장들을 포함하는 대량의 텍스트 모음, 예컨대 번역된 EU-프로토콜) 또는 소위 "세계 지식 데이터베이스(Wordl-Knowledge-Databases)"의 분석에 의해 통계적 또는 그래프 관련 방식에 따라 맥락 내에서 단어들의 정확한 할당을 자동으로 결정하려고 시도한다. 종래 기술에서, 입력 텍스트 - 그 자체 - 의 고유한 연상 가능한 의미를 직접적으로 파악하려는 시도는 전혀 없었다. 다만, 종래 기술에서 정확한 번역을 할당하기 위해(=간접적 의미 파악), 한 언어의 입력 텍스트와 함께 다른 언어에서 - 동시에 - 빈번하게 나타나는 문장 또는 문장 부분을 찾고, 이를 어느 정도 양호하게 읽을 수 있는 번역으로 연결지으려는 시도는 있었다. 그 결과는 품질과 관련하여 예측이 불가한 것으로 증명되었다: 종래 기술에 따른 번역기의 번역된 문장에서 고작 약 50%만이 의미 연관성이 있고 문법적으로 옳다(표 5의 예시들 참조). 도 1의 "올바른 의미 검사"라는 신규한 방법(B)에 따르면, 한 언어의 단어들의 모든 관련 의미들은 모든 관련 굴절들(flexions)을 포함하여 (문법 규칙에 따른 단어들의 변화, 예컨대 어형 변화(declension), 복수형 등: der Zug, des Zuges, die Zuege, den Zuegen ... gehen, ging, gegangen, gehend, am gehen, ...) 숫자상 파악되고, 컴퓨터로 구현된 데이터베이스(예컨대 도 4.7) 개별적으로, 소위 디지털 의미-신호들로서 영구 저장된다.
의미-신호들의 구축은 1회의 수동적 작업 과정이 선행된다. 이로부터 생성되는 데이터베이스는 약 5천만 개의 표준 독일어 단어들을 포함하여, 20개의 단일어 대사전의 범위에 대략 상응하며, 즉 예컨대 종래 기술에 따른 번역 프로그램에서 사용되는 데이터베이스보다 약 1000배 더 적다.
전술한 데이터베이스에 저장된 모든 의미-신호들을 이용하여 한 문장의 단어들을 서로 비교함으로써, 모든 단어들에 대하여 자동으로, 문장의 맥락에서 정확한 의미들이 세부적으로 어떤 것인가가 계산될 수 있다. 임의적 문장 및 임의적 맥락에 대하여 그러하다.
이는 신규하고 직접적인 결정론적 과정을 나타낸다.
이러한 과정은 순수한 산술을 사용하는 것이며, 문장 또는 문장의 일부를 방대한 말뭉치와 비교하여 통계적 결론을 도출하는 통계적 또는 그래프 관련 알고리즘을 필요로 하지 않는다. 본 발명에서, 문장은 -종래 기술과 같이- 다른 문장들과 비교되는 것이 아니라, 단어들의 의미들이 문장의 다른 단어들의 의미들 자체와, 그리고 경우에 따라서 그러한 문장의 직접적 맥락의 의미들과 비교되며, 더욱이 단어 또는 단어 연쇄(chain of words)의 레벨에서 숫자상 비교된다.
더 한정적 의미에서, 본 발명을 이용하면 - 신호 소스로부터 디지털 신호들을 가산하는 디지털 측정 기계와 같이 - 데이터베이스로부터 (표 1의 일부 내용 참조), 특정한 단어들 및 이러한 단어들의 모든 올바른 어형변화에 영구 할당된 의미-신호들이 검색되면서(도 3a) 국소적 측정이 수행된다. 오로지 1개의 의미만을 갖는 단어들에서, 데이터베이스에는 해당 단어 및 단어의 모든 어형변화들의 1개뿐인 단일의 완전한 의미-신호가 존재한다. "n"개의 의미들을 포함하는 단어들(동형동음이의어)의 경우, 데이터베이스에는 개별 단어 및 단어의 모든 어형변화들의 오로지 "n"개 만의 상이한 의미 신호들이 존재한다.
단어의 모든 의미-신호들은 - 텍스트로서 작성된 형태를 통해 - 데이터베이스로부터 검색 가능하다; 어떤 어형변화로 존재하는가와 무관하다. 의미-신호는 문자 숫자식으로 표준화되며 산술적으로 평가 가능한 다차원 형태로 존재한다. (의미 신호들의 구성 요소들, 도 3a 참조; 챕터 3.2 설명)
문장의 맥락 내에서 "n"개의 의미들을 포함하는 동형동음이의어의 맥락상 올바른 의미-신호를 결정하기 위해, "n"개의 의미-신호들은 그의 모든 범주들에서 각각, 해당 문장의 단어들의 다른 모든 의미-신호들의 범주들과 쌍을 이루어 산술적으로 가산된다(도 3b, 도 5 참조). 이는, 문장 내에서 모든 동형동음이의어들 및 단어들의 상이한 의미 조합들이 어떻게 존재하는지에 따라 종종 수행된다. 산술적 연산으로 변경된 동형동음이의어의 의미-신호는 각각 -추후의 비교를 위해 - 임시 저장된다. 예컨대 도 3b와 같이 행렬 방식으로.
본 발명의 산술적 방법에 따라 문장으로부터의 계산 결과에서 국소적 맥락에서 동형동음이의어가 확정될 수 있고, 이러한 동형동음이의어가 모든 의미-신호들에서 문장의 다른 단어들 중 어느 단어에 의해서도 현저하게 변경되지 않으면, 그 문장은 일의적이지 않고, 자동으로 - 정서법 검사에서와 유사하게 - 입력된 문장에 허용되는 표현의 텍스트가 존재하지 않는다는 알림이 사용자에게 수행된다(도 1, 도 4, 도 6). 따라서 본 발명에 의해, 소위 문장의 자동 -"올바른 의미 검사"-가 수행된다(도 1의 정서법 검사와의 비교 참조).
의미-신호들은 개별 단어들에 대해 영구 할당될 수 있을 뿐만 아니라, 소정의 단어 연쇄(예컨대 소위 "관용구", 예컨대 "schwer auf Draht sein" = "fit sein(몸의 컨디션이 좋음)")에 대해서도 그러하다. 이하에서 "단어" 또는 "단어들"에 대해 논의할 때, 이에 관한 전체 설명은 문장 내에서 문장 자체보다 더 짧게 존재하는 단어 연쇄에 대해서도 적용된다. 어떤 단어가 단어 연쇄 내에 포함되고, 이러한 단어 연쇄에 대해 고유의 의미-신호가 존재한다면, 산술적 계산을 위해 단어 연쇄는 단일 단어와 마찬가지로 취급된다.
일의적이지 않은 문장들은 올바로 번역될 수 없고 올바로 지시될 수도 없다; 즉 이러한 문장들은 "전자 의미 처리(ESP)"를 위해 사용될 수 없다.
따라서 언어의 "지능적" 처리를 위해서는 문장들의 일의성을 측정할 수 있는 방법을 가지는 것이 결정적이다.
2. 이론적 배경 및 본 발명에 특이적인 개념
본 발명의 기초는 특히 언어학에 따른 언어 종속적 사실, 즉:
동형동음이의어들을 포함한 문장들에서 - 또는 이러한 동형동음이의어들의 직접적 맥락을 포함한 문장들에서 - 동일한 표준어의 적어도 하나의 추가적 단어가 각 동형동음이의어마다 존재해야 하고, 이러한 추가적 단어가 동형동음이의어들의 단일의 의미-신호만을 유효하게 할 때, 문장이 이러한 특정한 표준어에서 명확한 의미를 획득한다는 것이다.
이러한 단어들 - 맥락 내에서 동형동음이의어의 의미-신호들 중 하나의 의미-신호를 "유효하게" 만드는 단어들 - 은 이하에서 "의미 상호 보완물" 또는 "상호 보완물"이라고 지칭한다.
언어학의 구조적 통사론에서 상보적(complement)이란 개념이 공지되어 있으며, 이러한 개념은 본원에서 신규하게 정의하는 상기(das) 의미 상호 보완물과는 완전히 상이한 기능을 가진다. 또한, 상법의 "보충성"과도 구분하기 위해 중성 단어 "상호 보완물(das Komplementaer)"가 선택된다.
의미 상호 보완물은 개별 범주들에서 동형동음이의어의 의미-신호를 숫자상 0을 초과하여 변경한다. 동형동음이의어의 의미-신호가 다른 단어들에 의해 산술적으로 크게 변경될수록, 이들의 상호 보완성은 더욱 강력하다.
정보 기술학의 표현으로:
문장에서 동형동음이의어의 "n"개의 의미-신호들이 모든 의미 표현들에서 0을 초과하는 의미 신호 진폭으로 진폭 변조를 경험하지 않으면, 문장은 일의적이지 않다.
이하, 의미-신호들의 중첩(superimpose)은 "변조(modulation)"라고 지칭할 것이며, 이는 그 과정을 최상으로 설명하는 표현이기 때문이다.
각각의 단어는 임의적으로 다수의 다른 단어들에 대해 상호 보완물일 수 있다. 그러므로 한 언어의 각각의 단어는, SenSzCore를 이용한 올바른 의미 검사에 의해 인식되기 위해 고유의 의미-신호를 가져야 한다.
본 발명에서 의미-신호 구조는 경험적 실험들의 결과로서 구축되되, 평균적으로 교육을 받은 인간이 문장을 읽을 때 직관적으로 확신하게 되는 것과 동일한 경우들에서 상호 보완성이 나타나도록 구축되었다.
의미-신호 구조는 의미-개별 범주들의 정의(definition) 및 위치(position)에서 모든 단어들에 대해 동일하다(도 3a). 의미-신호들은 다만 이러한 신호들의 개별 범주들의 값들에서만 상이하다. 의미-신호들은 다차원적 숫자 필드로 구현할 수 있다.
"Dings(그/저(사람/것))"(거의 모든 것을 의미할 수 있음)와 같이 의미성이 작은 단어들은 거의 모든 의미-개별 범주들에서 값들이 0이다. 예컨대 "Heldenmut(영웅의 용맹성)"과 같은 추상적 단어들 또는 예컨대 "Lehrling(견습생)"과 같은 다수의 의미 표현을 포함하는 단어들은 다수의 위치들에서 0보다 큰 값을 가진다. 복합어에서, 단어의 의미-신호는 대부분 그 의미가 가급적 복합어 구성 요소들의 의미-신호들의 가산에 의해 형성될 수 있다.
예컨대 "Pferdewagen(마차)"의 의미-신호는 "Pferd 1 (말)"<zool> 및 "Wagen 3 (차)" <2D Gefaehrt mit Roll_Raedern(바퀴의 구름에 의해 주행)><kein eigen_Antrieb(고유 구동부 없음)>의 의미 신호를 가산한 것이다.
이러한 예시는 의미 신호와 단어 정의 간의 기본적 차이점을 보여주는 것이다.
- 의미 신호는 표준화된 연상들의 숫자상 메모리이다.
- 반면, 의미 정의는 읽기를 할 때 두뇌에서 연상들을 일으킬 수 있는 단어 연쇄이다. 도 3a 비교 참조.
실제로, 본 발명의 의미-신호들은 512개의 의미-개별 범주들 및 15개의 기초-신호 그룹들로 구성된다(도 3a). 이러한 제공된 수치는 경험적으로 산출된 화용적 값에 불과하며, 이는 - 문장들의 명확성을 위해 - 인간의 인지 방식과 본 발명의 계산을 비교할 때, 신규 방법으로 양호한 결과를 제공하는 값이다. 그러나 다른 값들로 작업을 수행할 수도 있다. 단, 50개 미만의 개별-범주들 및 3개 미만의 기초-신호 그룹들은 유용하지 않은 결과를 제공하며, 예컨대 종래 기술에 따른 번역기와 유사한 정도로 불량한 결과를 제공한다.
본 발명은 독일어에 대해 약 5천만 개의 단어들로 이루어진 데이터베이스를 구비하고(종래 기술에 따른 통계적 번역 프로그램들의 단어 볼륨에 비해 약 0.1%임), 이러한 단어들은 약 1백만개의 상이한 단어들의 어형변화된 형태로부터 기본형으로 병합되며, 이는 다시 의미-신호들로 구성되고, 이러한 의미-신호들은 표준어의 약 20,000개의 중요 기초-의미 신호들로 구성될 수 있다. 이러한 정밀한 분해능은 비즈니스 일상의 언어 사용에 -기술적, 상업적, 학문적으로 부합한다. 예컨대 요식업과 같은 한정된 전문-언어권은 이미 이러한 단어 볼륨의 1/10으로도 충분히 양호하게 설명될 수 있다. 한정된 온톨로지(ontology)7에서 양호한 결과를 제공하기 위해, 일상어 및 한정된 전문-언어권의 모든 동형동음이의어들이 모든 범위에서 선택에 포함되어야 한다.
2.1 SenSzCore 데이터베이스에 관한 구조적 지침:
다른 단어 B와 동일한 의미-신호를 포함하고 상이하게 쓰인(written) 단어들 A, A'...는 B의 동의어(synonym)이다.
다른 단어 B와 상이한 의미-신호를 포함하고 동일하게 쓰인 단어들 A, A'...는 B의 동형동음이의어이다.
다른 단어 B와 가급적 유사하나 더 짧은 의미-신호를 포함하는 단어들 A, A'...는 B의 상위어(hyperonym)일 수 있다.
다른 단어 B와 가급적 유사하나 더 긴 의미-신호를 포함하는 단어들 A, A'...는 B의 하위어(hyponym)일 수 있다.
표준어마다 평균적으로 약 8개의 동의어를 포함하는 약 50,000개의 중요 동의어 그룹이 존재한다.
중요 동의어들을 포함하지 않는 표준어 단어들은 이하에서 "단독어"로 지칭한다.
100% 동의어들은 일반적으로 단어의 다양한 쓰기 방식일 뿐이다(예컨대 Photo/Foto). 본 발명의 데이터베이스에서 상호 중첩이 85%를 초과하는 의미-신호들을 갖는 단어들은 동의어로 간주된다. 이러한 결정은 데이터의 구축 시 -사전에- 수동으로 하고, 이후 규칙이 수반된다: 동의어는 하나의 문장에서 문장-의미를 현저하게 변경하지 않고 서로 교체될 수 있는 단어들이다.
의미-신호들의 다른 중요한 특성은 이러한 의미-신호들이 다양한 말하기 방식이라는 점이다. 그 결과: 결합가가 동등한(equivalency) 동의어 그룹들의 모든 단어들은 모든 언어들에서 동일한 의미-신호들을 포함한다.
즉, 의미-신호들에 따라 "올바른 의미 검사"를 계산하는 것은 출발어와 무관하게 수행될 수 있다.
의미-신호들은 부분적으로 가산적이다. 마찬가지로, 의미 신호 내에서 의미-개별 범주들 간의 다차원적 결합가(valency) 참조가 가능하고, 존재한다(도 3a 제한 참조(EV); 챕터 3.2 참조).
2.2 예시에 따른 기능 및 개념 설명
예시 A1: "Wir werden sie anziehen":
여기서 상기 문장을 위해 동사 "anziehen"의 타동사적 의미가 존재하며, 이에 대해 SenSzCore 데이터베이스(10)에는 서로 다른 타동사적 의미-신호들이 포함되어 있다.
특히 (매우 간략화된 표현):
동형동음이의어
간략한
설명
예시
anziehen1 = 옷을 걸친다,... (예: 바지)
anziehen2 = 힘 결합을 증대시킨다,... (예: 나사)
anziehen3 = 가치를 증대시킨다,... (예: 가격)
anziehen4 = 끌어당기는 필드-힘을 가한다,... (예: 자석을 이용)
anziehen5 = 누군가에게 정신적으로 매력적으로 작용한다,...(예: 화술에 의해)
anziehen6 = 데이터를 이용 가능하게 만든다,... (예: 인용)
anziehen7 = 뻗치지 않고 오므린다,... (예: 다리)
anziehen8 = 간접적인 당김 힘을 가한다,... (예: 로프를 이용한 블록)
...
예시 A1에서: "Wir werden sie anziehen"은 예컨대 "Hose(바지)"를 부가함으로써 일의성을 얻을 수 있을 것이다:
"Wir werden die Hose anziehen".
"Hose(바지)"의 의미-신호는 복수의 의미-신호 범주들에서 "anziehen1"의 의미-신호로 점유된 범주:"옷을 걸친다"와 일치하는 값들을 가진다. "옷을 걸친다"는 의미에서 "anziehen"의 의미-신호는 문장 내에 "Hose(바지)"가 존재함에 따라 현저하게 변경된다. 따라서 "Hose"와 "anziehen"은 "Wir werden die Hose anziehen(우리는 바지를 입는다)."라는 문장에서 상호 보완적이다. "Hose"와 "anziehen"의 의미-신호들은 이들의 의미 가능성들 중에 각각 1개의 의미 가능성으로 현저하게 변조된다. 그 외의 다른 모든 의미들에서 이러한 의미-신호들은 서로 변조되지 않거나 현저히 약하게 변조된다.
이와 동일하게, "anziehen"의 각각의 다른 의미-신호들을 이용하여 다음과 같이 작성하여 문자의 일의성을 생성할 수 있다:
"Wir werden die Preise anziehen(우리는 가격을 올릴 것이다)."(=erhoehen), 또는
"Wir werden die Beine anziehen(우리는 다리를 오므릴 것이다)" (=anwinkeln), 또는
"Wir werden die Schraube anziehen(우리는 나사를 조일 것이다)" (=festziehen) 등등.
예시 A1에 부가되는 단어들 각각은 상호 보완물로서 "anziehen"의 다른 의미를 변조하고, 자동으로, 단일의 특정한 또 다른 올바른 측정을 평가함으로써, 이러한 의미를 자동으로 처리할 수 있게 만든다. 동형동음이의어는 이러한 상호 보완물에 의해 "유효하게 된다".
"anziehen" -타동사- 을 포함하는 각 문장에서, SenSzCore는 유사한 형태로 상호 보완물에 대응한다. 예컨대 "Rock 2 (치마) <Kleidung>", "Gehaelter(급여) <econ>", "Arm(팔) <anat>", "Dehnschraube(신축 나사) <mech>", "Bremse 3 (브레이크) <mech>" 등등은 바로, 이미 예시 A1에서 전술한 상호 보완물들과 같이 "anziehen"의 국소적인 타동사적 의미의 올바른 자동 계산을 야기한다.
전술한 상호 보완물을 앞 문장에서 쓸 수도 있다:
예시 A2:
"Wir haben die Marktpreise sorgfaeltig geprueft. Wir werden sie anziehen.(우리는 시장 가격을 면밀히 조사하였다. 우리는 이를 올릴 것이다)", 여기서 본 발명은 문장 2의 "sie"와 문장 1의 "Marktpreise(시장 가격)"의 관계를 인식하고, "anziehen"으로부터 "erhoehen"이라는 의미를 관련성이 있는 것으로서 자동으로 계산한다.
이러한 상태에 대하여 이하에서 "문장 포괄적 상호 보완성"이라고 지칭한다. 이러한 문장 포괄적 상호 보완성은 문장의 "지시적인(deictic)7" 참조와 함께 나타나는 경우가 매우 빈번하다.
본 발명이 기능은 문장 내에 복수의 상호 보완물이 존재할 때 동형동음이의어의 올바른 의미를 자동으로 선택할 수 있는 것이다.
예시 A3:
"Er nimmt den Schraubenschluessel aus der Hose und wird die Schraube anziehen(그는 바지에서 렌치를 꺼내 나사를 조일 것이다)."
여기서 "Schraube(나사)"는 "anziehen"의 상호 보완물이나, "Hose(바지)"는 그렇지 않다. 본 발명은 접속사 "und(그리고)"에 의해 두 번째 주 문장에서 주어 "Schraube(나사)"를 인식함으로써, 상호 보완물에 대한 검색은 이러한 두번째 주 문장에 한정된다.
복수의 동형동음이의어가 통사론적으로 서로 세밀하게 분리되어 있지 않으면(예컨대 접속사를 포함하는 경우와 같음), 기본적으로 문장이 오로지 단일의 동형동음이의어만을 갖는 경우와 동일한 표준 과정이 수행된다. 문장의 단어들의 모든 의미-신호들은 통사론적으로 구획될 수 있는 문장 부분들의 모든 다른 단어들의 모든 의미-신호들과 비교된다. 일반적으로, 이러한 종류의 문장들에서 상호 보완물들은 이들의 동형동음이의어들과 직접적으로 가까운 곳에만 나타난다 - 그렇지 않으면 이러한 문장들은 말하자면 매우 이해하기 어려울 것이다. 따라서 본 발명에서 복수의 동형동음이의어로 이루어진 시퀀스의 경우 문장 내에서 서로 간의 거리가 함께 평가된다. 일반적으로, 이러한 과정에서 주어-목적어 관계가 도움이 될 수 있다.
어떤 동형동음이의어가 복수의 다른 동형동음이의어들에 의해 변조되면, 서로 가장 유사한 다른 동형동음이의어들의 의미-신호가 선호된다. 이러한 상태를 이하에서 "다중 상호 보완성"으로 지칭한다. 계산의 종료 시, 동등한 가능성이 1개 보다 많다면, 문장의 의미는 일의적이지 않고, "올바른 의미 검사"는 자동으로 오류 알림을 생성한다.
완전한 설명을 위해 예시를 든다.
예시 A4:
"Er ist am anziehen", 이 문장에서는 "anziehen"의 자동사적7 의미들이 사용되어야 한다.
이러한 의미들은 다음과 같다:
동형동음이의어
간략한
설명
예시
anziehen11 = 구동부 연관 힘을 가한다,... (예: 기관차)
anziehen12 = 물질 구조를 활성으로 변경한다,... (예: 접착제)
여기서 문장 A4는 그 자체로는 논리적으로 일의적이지 않다. anziehen 11에 대해 "Die Lok ist am anziehen(기관차가 주행 중이다)"에서 "Lok"과 같이 구동부 연관된 물체 또는 "anziehen 12에 대해 "Der Kleber ist am anziehen(접착제가 접착되어 있다)"에서 "Kleber"와 같이 화학적으로 활성인 물질이라는 의미-신호의 비로소 적합한 상호 보완물들이 있어야 본 발명에서 올바른 의미-할당이 이루어진다. 반면, 예컨대 "Die Hose ist am anziehen"에서 "Hose"의 사용은 - 상호 보완성이 없으므로 - "올바른 의미 검사"의 오류 알림을 야기한다. Hose는 말하자면 의미 신호에서 "kann antriebsbehaftete Kraft ausueben(구동부 연관 힘을 가할 수 있음)" 또는 "kann stoffliche Struktur aktiv veraendern(물질 구조를 활성으로 변경할 수 있음)"과 같이 anziehen을 통사론적 자동사 기능으로 변조하는 범주들에서 어떠한 값도 가지지 않는다.
2.3 종래 기술에 따른 번역 예시에 따른 기능 및 개념 지침
종래 기술에 따른 유명한 번역기의 통상적 오류로 인하여 자동적인 전자 의미 처리(ESP)가 용이하지 않다는 것과 함께 본 발명의 정확하고 간단한 기능이 매우 인상적으로 분명해진다.
우선 종래 기술에 관한 고지: (표 2)
B1, B2에서 Zug이 가장 빈번하게 번역되는 경우를 명백하게 보여준다: "train". 이는 "의미"를 산출하기 위한 통계적 진행 과정의 통상적 결과이다. 예시 B1에서 3개의 동형동음이의어, 즉 Zug, Lauf, Geschoss가 의미 파악이 잘못되어, 오역이 발생하였다.
B1에서, "Lauf"에 대해 "Gewehrlauf(총신)"이란 의미 대신 "Rennen(달리다)"라는 의미가 사용된다. B1에서, "Geschoss"에 대해 "floor", 즉 집의 층이란 의미가 사용되고, Projektil(총탄)이란 의미가 사용되지 않는다.
B3, B4에서 "Geschoss"에 대해 집의 층인 "florr" 대신 "bullet"이 사용된다.
"올바른 의미 검사"를 이용하면, 이러한 4개의 예시에서 오로지 올바른 해석만이 획득되는데, 각 예시에서 각 문장의 일의성을 산술적으로 결정하는 상호 보완물들이 충분히 포함되어 있기 때문이다:
B1에서: "Geschoss"는 "Zug" 및 "Lauf"의 의미들 중에서 "무기 관련" 의미들에 높은 우선 순위를 부여한다. (영문: Zug에 대해 "groove", 화기 총신에 대해 "barrel"). 그 결과 - 다중 상호 보완성을 이용하여 - 본 발명의 올바른 영문 번역이 수행된다: "In the groove of the barrel the projectile gets a rotation around his longitudinal axis." 도 2 및 표 1 참조.
B2에서 "Zigarette(담배)"는 "Zug"에 대해 "Lungenzug(심흡연)"에 우선 순위를 부여하고 (영어 = "puff"), 그 결과 SenSzCore에 의해 올바른 영문 번역이 수행된다: "In the course of the last minute I took just one deep puff from the cigarette."
B3에서 비상구 및 건물은 건물의 "Geschoss"(영문 "floor")을 위한 상호 보완물이며, 그 결과 본 발명의 올바른 영문 번역이 수행된다: "The floor must have an emergency exit on the rear of the building."
B4에서 "Personen(사람)" 및 "sperren(차단하다)"은 건물의 "Geschoss"(영문 "floor")을 위한 상호 보완물이다. 두 번째 문장 부분에서 "Sturm(폭우)"라는 단어는 특히 이러한 단어의 의미 신호에서의 이동성- 및 차원-값에 의해 "im Anzug sein(접근 중이다)"이라는 단어 그룹에 동의어 그룹 "heranziehen(다가온다)"(영문 "be approaching")의 상호 보완성을 부여하고 SenSzCore에 의한 올바른 영문 번역이 수행된다: "The floor was barred for persons, because a storm was approaching.". Kleidung(옷)의 의미에서 Anzug을 위한 상호 보완성은 이 문장에 존재하지 않는다는 것에 유의해야 한다.
중요 주석:
번역의 품질은 특히, 목표어의 동형동음이의어가 문장에서 다른 언어의 올바른 상호 보완물을 발견하는 것에서 결정된다. 이는 또한 본 발명의 구조 및 구성에 의해 자동으로 보장된다: 모든 언어들에서 동일한 의미-신호에 할당되는 동의어 그룹들로부터 번역을 선택함으로써, 단어들의 의미 상호 보완성은 번역 후에도 반드시 유지된다.
본 발명과 달리 종래 기술에서 의미 할당의 통상적 어려움에 대한 개요는 표 3의 마지막 예시에 다시 요약 설명되어 있다.
도면은 본 발명의 기초적 원리 및 과정을 세부적으로 설명한다.
도 3a은 의미-신호들의 구조 및 내용적 구성에 대한 개요를 도시한다.
도 3b는 의미-신호들의 대조를 위한 통상적인 값-대조-행렬을 도시한다.
도 4 및 도 6은 올바른 의미 검사의 시스템 개요를 도시한다.
도 5는 단어들의 의미 점수를 계산하는 흐름도를 도시한다(도 4에서 박스 4.11의 과정)
도 3a은 의미-신호들의 구조 및 내용적 구성에 대한 개요를 도시한다.
도 3b는 의미-신호들의 대조를 위한 통상적인 값-대조-행렬을 도시한다.
도 4 및 도 6은 올바른 의미 검사의 시스템 개요를 도시한다.
도 5는 단어들의 의미 점수를 계산하는 흐름도를 도시한다(도 4에서 박스 4.11의 과정)
3.1 도 4 및 도 6의 과정에 관한 설명:
예컨대 모니터를 이용한 데이터 입력, 또는 음성 인식 및 이에 상응하는 신호 변환을 통해, 처리 가능 텍스트는 컴퓨터 구현 시스템인 올바른 의미 검사에 도달한다(도 4의 부분 도면 4.5 내지 4.13).
본 발명은 추상적 형태로: "컴퓨터로 구현된, 맥락 감지적인 신호-변환기 + 측정 장치"로 설명될 수 있다. 말하자면, 본 발명에서 순수한 알파벳 신호들은 측정 기계를 이용하여 의미-신호들로 변환되는데, 이러한 측정 기계는
a) 텍스트 입력이 일의적인지 여부를 확정하고, 그리고
b) 만약 일의적이라면, 각각의 알파벳 연쇄에 대해 스페이스 없이 올바른 의미-신호를 - 문장의 맥락에 관련하여 - 연결한다.
올바른 의미 검사는 텍스트를 문장 단위로 처리한다. 문장들의 길이가 특별한 의미론적/통사론적 기능을 갖는 1개의 단어(예컨대 "Hallo(안녕)!", "Bitte(부디)!" 또는 예컨대 로만어에서 비인칭 동사(impersonal verb): 스페인어: "Llueve.", 이탈리아어: "Piove."... = "Es regnet(비가 내린다).")인 경우를 제외하고, 개별 단어들의 처리는 제공되지 않는다.
챕터 4.5.1에서 문장의 모든 단어들의 존재가 EDP 시스템(4.7)의 데이터들과 대조되고 포지티브(positive)로 판정된 후(즉 알파벳 조합 자체에 의해 제외되지 않는 모든 경우들, 예컨대 "haben(가지다)" 또는 "haken(걸다)" 대신 "haven" 등), 재귀적(recursive) 자동 작업 과정이 수행되는데, 이 과정에서 모든 단어들에 대해 문장 내에서 이러한 단어들의 통사론적 기능이 산출된다. 이를 위해, 종래의 "구문 트리(parse trees)"의 사용은 불필요하다. 구조적인 정서법 오류(구조적 정서법 오류 = 잘못된 알파벳)가 없을 시, 불변화사 및 이후 단어들의 의미 신호들에 의해, 실제 경우의 85%를 초과하여 {수 천개의 문장들의 경험적 고유 평가} 각 단어의 통사론적 기능의 결정이 가능하다.
각 단어의 통사론적 기능의 결정이 가능하지 않을 시(약 15%의 경우에 해당 = 모든 단어들이 존재하나, 이러한 단어들의 통사론적 기능이 명확하게 확정될 수 없음), 이러한 결정은 개별 단어-쌍들에서 의미 신호들의 계산을 이용한다. 이러한 개별 단어 쌍들의 통사론적 기능은 오로지 상호 간의 위치에 의해서만 결정될 수 없다. 이는 또한 이미 잠재적인 통사론적 정서법 오류를 고려하는데, 예컨대 독일어에서 단어의 대문자 쓰기뿐만 아니라 소문자 쓰기를 허용하는 단어들 중에 해당 문장에서 잘못 쓰인 정서법 오류를 고려한다(예컨대 "Wir Karren den Mist vom Hof(우리는 농장에서 나온 거름을 나른다).'). 여기서 4.5.1과 4.5.2 사이에 복수의 재귀적 루프가 가능하다. 예컨대 "Die liegen am Pool waren Besetzt(풀장의 눕는 의자가 만석이었다)."...에서 2개의 사이클이 요구된다. (완전히 잘못된 구조적 정서법은 이미 4.5.1을 통해 제외되었다). SenSzCore와 달리 종래 기술에 따른 통상적 정서법 검사는 예컨대 "Wir Karren den Mist vom Hof."에서 - 기능 원리 측면에서 - 어떠한 오류도 표시할 수 없고 처리할 수 없음을 유의해야 한다.
통사론 자체에서 일의성이 존재하지 않으면 - 즉 어떤 단어가 예컨대 오로지 명사일 수만 있는데, 부사와 함께 사용됨, 예) "Ich will schnell Auto(나는 빨리 자동차를 ~할 것이다)." -, 자동으로 사용자 대화(4.9)가 수행되거나 사용자-상호작용-매니저(도 6, (7))를 통해 더 높은 수준으로 수행되며, 이는 문장의 기본적인 통사론적 오류성을 표시한다. 제외 기준의 자동 표시가 수행되나, 이 경우 교정 가능성이 제공되지 않는다.
문장의 통사론이 일의적이면, 올바른 의미 검사(4.11)가 도 5에 도시된 자동 과정에 따라 수행된다. 이러한 과정은 EDP 시스템(4.7) 및 이에 상응하는 데이터베이스, 임시 저장 방법 및 산술적 계산 기능에 의해 보조된다. (도 3a 및 3.2에 관한 설명 참조).
SenSzCore는 우선 순수하게 논리적인 성질인 비일의성을 평가하지 않는다는 것을 고려해야 한다: 예컨대 문장 "Meine alte Freundin hatte gestern Husten(나의 늙은/오래된 여자 친구가 어제 기침을 했다).": 의미 신호들에 따라, 이 문장은 일의적이다. 이제 "Freundin alt ist(여자 친구가 늙음)" 또는 "eine langjaehrige Freundin handelt(오랫동안 알고 지낸 여자친구를 의미함)"의 여부에 대해서는 문장 저자의 비밀로 남는다. 이러한 논리적 비일의성은 SenSzCore를 이용한 번역 시 다른 언어에서 의미론적 오류를 야기하지 않고 유지된다. 이는 특히, 각 번역에서 목표어에서 문장의 논리적 내용이 불필요하게 변경되지 않는 품질 특징이다.
SenSzCore를 이용하면, 계산(4.11)의 종료 후 - 문장이 일의적일 때 - 이제 모든 단어들에 대해 이러한 단어들의 가장 통상적인 동의어가 존재한다. 이러한 동의어들은 사용자에게 원하는 바에 따라 자동 번역(4.8)으로 표시된다. 사용자가 예컨대 다음의 문장:"Ich nahm einen tiefen Zug aus der Zigarette"을 입력하면, 사용자는 자동 번역(4.8)에 의해, 어형변화 가능한 동형동음이의어가 데이터베이스(4.7)로부터의 가장 관련성이 높은 동의어로 대체된 문장을 수득한다. 이 경우 사용자가 수득하는 문장은 다음과 같다: "Ich nahm einen tiefen 'Lungezug' aus der 'Filterzigarette'(나는 필터 담배의 연기를 깊게 들이마신다). 이러한 기능은 사용자에게 원하는 바에 따라 - 사용자의 언어로 - 표시되되, 의미적으로 정확한 동의어로 대체됨으로써 사용자가 표현하고자 하는 의미가 SenSzCore에 의해 올바르게 인식되었다는 것이 표시된다.
위치 1), 2)에서 설명(4.4)(올바른 의미 검사 전) 및 4.12(올바른 의미 검사 후) 사이의 기본적 상이점에 대해 다시 유의한다. 이제, 본 발명은 예컨대 2.1.A1과 같은 의미론적 정보 없는 텍스트를 의미론적 정보를 포함한 텍스트 2.1.A2로 변환하고, 이러한 의미론적 정보는 오로지 문장의 단어들 사이에서 의미-신호들의 대조로부터 계산되었고, 입력 문장에서 -명시적으로- 미리 포함되어 있지 않았던 것이다. 도 2의 추가 정보 참조.
계산 종료 후, 문장에 대하여, 단어들의 의미 신호들에 상응하는 코딩된 값들을 포함하는 대체-표현이 SenSzCore에 의해 산출된 통사론적 및 어형론적 정보를 포함하여 정보적으로 구축될 수 있다(도 4.13). 이러한 추가 정보는 복수의 방식으로 지시 가능하다. 중요한 것은, 의미 신호들과 코딩된 지시된 값들 사이의 수학적인 일의성(univocity)이 정보 기술적으로 고지된다는 것이다. 이러한 지시(indication)는 유리한 방식으로 의미-신호 자체에 의해 수행되나, 다른 사용자 특정(user specific) 코드에 의해 보완 또는 대체될 수 있고, 이러한 코드는 연결된 데이터들의 추후 사용 시 비로소 의미 신호를 검색한다.
이와 같이 코딩된 문장은 이제 유리하게도 목록화된 기능들(4.14 내지 4.19)에서 추가 처리될 수 있다. 연속적 처리는 번역(4.14) 및 사용자 대화(4.16), 그리고 검색기(4.17)에서 수행된다.
다른 기능들에서 이미 빈번하게, 미리, (4.7), (4.9), (4.11)을 포함하는 재귀적 과정이 필요하게 된다. 특히 음성 인식(4.15), 정서법 검사(4.18) 또는 단어 인식(4.19)에서 재귀적 루프가 미리 일어난다. 여기서 과정 4.5.1 및 4.5.2는 다른 기능에 비해 사용자와의 상호 작용에서 더 강력한 역할을 한다.
본 발명의 전적으로 중요한 운영상 이점은, 상호 작용적 동작 방식에서 사용자에게 항상, 사용자의 텍스트가 의미론적 일의성의 관점에서 얼마나 양호한지가 분명하고, 사용자는 즉시 개입할 수 있다는 것이다. 완전성, 문법 및 통사론의 관점에서 쓰기를 잘하는 사람은 시스템의 쿼리(query)를 거의 받지 않는다. 예컨대 많은 양의 텍스트 번역을 오프라인으로 사용하면, 시스템 연결 시 배치(batch) 내의 전체 쿼리가 재작업(rework)으로서 처리될 수 있다.
도 6에 대한 설명
챕터 4에서 청구항들의 할당을 위해, 도 6의 도면이 선택되었다. 도 6에는 단계들(4.5 내지 4.11)의 과정의 재귀성(recursiveness)이 더 형식적으로 도시되어 있고, 개별 결과물과 결부되어, 청구항들을 더 간단하게 표현할 수 있다. 시스템 내에서의 과정 이해를 돕기 위해, 도 4를 이용하여 당업자에게 더 간단한 설명이 가능하다. 도 6의 변조기(2)는 실제로 기본적인 정서법 오류를 포함하는 단어가 더 이상 존재하지 않을 때까지 수회의 사이클(4.5 내지 4.11)을 나타낸다. 도 6의 변조기(3)는 통사론적 어형론적 관점에서 문장 자체에 대한 분석 및 문장의 일의성 측정이 종료될 때까지 수 회의 재귀적 사이클을 나타낸다.
이러한 견지에서 도 4는 개별 기능들을 더욱 양호하게 설명하기 위한 본 발명의 상당히 구체적인 도면이다. 도 6은 본 발명의 청구된 상이한 적용 가능성들을 더욱 양호하게 표현하기 위해 본 발명을 형식적으로 간략화한 도면을 포함한다. 즉, 도 4 및 도 6은 추상화 정도가 상이한 도면이나, 기능적 상이점은 없다.
3.2 도 3a에 대한 설명
도 3a의 표는 비유적 의미에서 3차원 이상의 수치 공간의 2차원적 원리도를 나타낸 것으로 볼 수 있다. 표는 의미-신호들의 구성-, 배열- 및 할당 원리를 설명하나, 의미-신호들 자체의 시각적으로 감지 가능한 구조는 설명하지 않는다.
상당히 간략화된 표현으로, 의미 신호는 도 3a, "D"열 부터 열의 내용이다.
의미-신호들은 본 발명의 소프트웨어 알고리즘 - 기존의 텍스트 및 맥락에 의해 자동으로 제어됨 - 에서 암시적 정보를 텍스트로부터 추출하는 정보적 보조 수단이다.
도 3a은 9개의 단어들에 대한 의미-신호들을 2차원적으로 읽기 가능하게 추출한 것을 나타낸다. (좌표 D1 내지 M1의 단어들 참조). 도 3a을 통해 도 3b를 더 간단하게 이해할 수 있다. 도 3b에서 "Der Stift schreibt nicht"라는 문장이 분석된다. 이러한 단어들은 도 3a에 열거되었다. 머리 행 C1-M5에는 단어들에 대한 일반적 설명이 포함된다. 6행부터 본 발명에 특정적인 내용들이 표시되어 있다. 3행의 정보는 일반적인 사전 정보를 나타내며 본 발명에 특정한 관련성을 가지지 않는데, 이러한 정보로는 동형동음이의어와 상호보완물 사이의 변조를 계산할 수 없기 때문임을 유의해야 한다.
9행 내지 42행은 각 단어에 대해 의미 신호의 추출물(전체 범위의 약 10%)을 나타낸다. B열 및 C열(의미 신호 범주 2 및 의미 신호 범주 4)은 각각의 의미-신호 개별값의 동사적 할당 - 즉 특징 설명 -을 나타낸다. 7행에는 각 단어에 대해 의미-신호에서 점유된 필드의 수를 나타내고, 슬래시(slash) 옆 우측으로 제한 참조(EV)의 수를 나타낸다. 예컨대 "schreiben 1"에 대해 86\3.
제한 참조는 상황적 수식어를 나타내고, 이러한 수식어에 따라 의미-신호들에서 범주들의 값은 맥락 종속적으로 자동으로 연결 또는 차단될 수 있다. 예컨대 건물("Stift 4.1" I열, 10, 37, 39, 41행)에는 제조라는 특성들(=특징들+값들) 중에 (Hertellung(제조))의 약어 H로 할당되며, 이러한 특성들은 건물의 추후 사용 중에 포함하지 않고, 오로지 건물의 증축 시기 중에 포함하는 특성들이다. 예컨대 "Stift 1"에서 F27셀에서 부가어 F는 기능 요건을 표시한다. Stfit 1에서, 규칙적인 고정적 표면을 포함하지 않는 단어의 동형동음이의어는 규칙적인 고정적 표면을 포함하는 동형동음이의어에 비해 더 불량하게 변조된다. 다른 수식어들은, 단어의 환경에서 나타나는 의미 신호들이 의미-신호의 6행의 트리거 단어들에 할당될 때 예컨대 제한 참조(EV)에 의해 활성화된다. 이러한 방식으로 문장 내에서 제한 참조(EV)의 패턴이 생성되고, 이러한 패턴은 - 동형동음이의어가 상호 보완물에 의해 변조되는 것과 - 마찬가지로 명시적인 맥락상의 정보를 생성하지 않는다는 것을 유의해야 한다. 예컨대 문장 "Der Stift (3) hoert dem Lehrer nicht zu"에서는 특히 "Schule 9 (공공 기관 또는 건물)"의 (EV)-패턴이 포함되어 있고, 이러한 패턴은 다시 문장의 맥락 내에 있는 다른 동형동음이의어를 위해 의미 신호로서 상호 보완물이 될 수 있다. (EV)-패턴의 의미-신호들은 SenSzCore에 의해 계산 시 자동으로 검색되며, 복수의 문장들에 걸쳐 또는 텍스트의 단락 말미까지 조합되어, 자동으로 저장되고 지속적으로 보완된다. 이러한 효과는, (EV)에 대한 의미-신호들을 이용하여 맥락으로부터 논리적 결론을 끌어낼 수 있는 토대이다. 즉, (EV)는 명확한 문장에서 SenSzCore가 자동으로 "행간을" 읽을 수 있는 토대들 중 하나이다. 특히, 예컨대 모든 종류의 부사들, 시간/장소/이유 전치사 또는 화법 전치사 또는 논리적 연산자(nicht(아니다), und(및), oder(또는) 등)를 포함하는 조합에서도, 다수의 문장들에서 논리적 추론이 인식되고, 추가 처리를 위해 적합한 방식으로 저장될 수 있다(실시예 번호 44 -47).
(EV)에 대해 의미-신호들을 알고 있으므로, (EV)의 모든 동의어, 상위어 및 하위어는 이들의 모든 어형변화를 포함하여, 명시적으로 제공된 (EV) 자체와 동일한 방식으로 활성화될 수 있다. 예컨대 어떤 단어에서 "Gebaeude(건물)"이 (EV)로 등록되면, 예컨대 "Bauwerk(건축물)", "Hochhaus(고층건물)", "Haus(집)", "Regierungsgebaeude(청사)" 등 및 이들의 모든 어형 변화(declension) 및 복수형은 "올바른 의미 검사"에서 자동으로 활성화되고, 이때 청사와 같은 더 구체적인 표현들 또는 더 일반적인 표현들 사이에서 의미 신호 상이점은 존재한다. 청사의 경우, 의미-신호에는 사회 정치학적 성분들(components)을 포함하는 위치들이 점유되고, 이러한 성분들은 다시 직업 종사라는 제한 참조와 결부된다.
실제 실시 중에, (EV)를 다른 인덱스 수준에서 비-숫자 기호를 이용하여 마킹(marking)한다는 것에 유의해야 한다. 즉, 의미-신호들은 항상, 산술적 부분에서 산술적으로 처리 가능한 값들을 포함한다. 모든 다른 성분들은 다른 인덱스 차원들에 포함되고, 자동으로 검색 가능하고 조합 가능하다.
개별 의미-신호 값들의 A, B, C 열에 나와 있는 특징들은 단어들의 부분 정의를 나타내지 않고, 특히 건강한 인간 지성의 연상들을 나타내며, 가령 각 단어에 대해 그림 이야기(picture story)를 그릴 때와 같은 연상들이다. 이러한 그림 이야기에는, 어떤 특징들이 - 추상화된 형태로도 - 연상되는지가 표현되어야 한다. 단어의 사용 중에 다루어지는 어떤 주어 종류/ 목적어 종류, 어떤 트리거, 어떤 차원이 관련성이 있게 연상되는지 등이 표현되어야 한다. 의미-신호들의 구조 이해를 위해, 매우 넓은 의미에서 구성 카달로그{구성 카달로그 ISBN 3-540-67026-2를 이용한 구성}의 구축의 기본적 특징들을 참조할 수 있다.
범주화는 항상 자의적이고 상대적이므로, 의미-신호들을 위한 범주화는 절대적으로 요구될 수 없다. 각각의 범주화를 위해, 기껏해야 관련 적용과 연관하여 관련성의 정도가 평가될 수 있다. 단어들을 위한 의미-신호들의 범주화의 이러한 형태의 1차적 이득은, 범주화 구축에 의해:
1. 필요한 만큼 근소한 특징들이 사용되어야 한다.
2. 다수의 특징들이 포함되어, 어떤 언어의 모든 단어들에 대해 충분히 많은 수의 관련 연상들이 통지됨으로써, 동형동음이의어들이 오로지 올바른 상호 보완물에 의해서만 변조된다.
3. 단어의 적용 환경에 따라 의미-신호에 영향을 줄 수 있는 연결 층위들이 포함된다(= 6행의 제한 참조(EV)). (EV)의 모든 트리거 단어들은 동형동음이의어 표기법(notation)에 나타나 있음을 유의해야 한다(= 본원의 데이터베이스 내에서 단어 + 동형동음이의어 시리얼 번호). 이로써 각각 고유의 기초-의미-신호가 고정되며, 단어들이 어떤 어형변화에서 나타나는지와 상관없이 그러하다.
4. 문장의 동형동음이의어가 상호 보완물에 의해 변조되는 것은, 표준어에 대한 양호한 지식을 가진 인간이 이러한 동형동음이의어에 대해 문장의 일의성을 판단하는 것과 같이, 문장/맥락 내에서 최대 빈도로 수행된다.
의미-신호 범주 자체를 도출하는 것은, 대부분 트리 구조에 기반하며, 트리 구조는 물질, 정보, 에너지 및 시간이라는 기초 요소에 기반하며 구축되면서 감정적, 자율적, 트리거-, 과정- 및 공간/장소- 특징들에 의해 보완된다. 범주 1은 범주 2 앞에 연결된다. 범주 3은 이러한 도면에서 -공간상의 이유로- 범주 2에 포함되어 있다. 범주 4는 - 본 발명의 데이터베이스 구축 시-, 의미 신호에 값을 할당 또는 비할당하기 위해 의미-신호들의 구축자가 읽는 지침을 나타낸다. 물론 매우 특정한 숫자 표기법을 포함하여 의미-신호들을 구축하는 작업량은 대사전을 구축하는 노고에 대략적으로 상응한다. 의미-신호에서 개별 값들의 할당은 대부분의 경우에 정밀하지 않게 수행되고(보다 예에 가까운, 보다 아니오에 가까운), 예의 경우에 개별 연상들이 "다수로" 존재하면 1보다 큰 값들로 수행된다. 다른 할당 형태는 예컨대 물 밀도와 같은 물질 특성에서 사용된다(도 3a 17행). 여기서, 값 1 = 더 가벼운, 2 = 동일한, 3 = 더 무거운 을 나타낸다. 이는 공기에 대해서도 그대로 적용된다. 그러한 값들은 예컨대 "Das Fahrzeug schwebt in der Luft(차량이 하늘을 난다)"의 문장에서 다음의 결과를 야기한다: 체펠린(zeppelin)의 의미 신호는 "Nutzung(사용)"이라는 (EV)에 의해 예컨대 "Auto(자동차)" 또는 "Flugzeug(비행기)"보다 "schweben(부유한다)"와 더 높은 변조를 얻는다. 자동차 또는 비행기의 경우, 더욱이 논리 추론 프로그램의 적합성 쿼리가 트리거될 수 있다.
3.3 도 3b에 대한 설명:
문장 "Der Stift schreibt nicht."에 대한 계산의 추출을 확인할 수 있다. 이러한 문장은 명확하지 않다. "schreiben(쓰다)"라는 동사는 4개의 의미들을 포함하고, "Stift(핀)"은 12개의 의미들을 포함한다. 필드 1.1 내지 4.20은 관련성이 없는데, 이들은 추가 정보 없이 점유된 필드들에 대해 대칭을 이루기 때문이다. 검은색의 대각선 필드들은 각 단어의 비교이므로 관련성이 없다. 필드 1.1 내지 4.4 및 6.6 내지 20.20은 오로지 동형동음이의어의 의미들만을 비교하므로 마찬가지로 관련성이 없다.
행렬에서 35개의 셀들은 "XX"로 표시된다. 다른 필드들은 30% 내지 100%의 숫자를 포함한다. "XX"는, 관련 의미들의 의미 신호들 사이에서 컴퓨터의 논리적 및 또는 어형론적/통사론적 비교가 해당 조합의 제외를 야기하였음을 의미한다. 백분율값은 필드 내에서 서로 교차하는 단어들의 의미-신호들의 의미 변조 정도를 나타낸다.
XX로 마킹된 셀은 이 경우 구체적으로 다음에 대해 알리는 것이다,
a. "schreiben 1"에서, 이러한 동사는 문장이 어떤 사건에 해당할 때 문장 주어의 운동성 행위를 허용하지 않는다: 이때 오로지 기능만이 수행될 수 있으며, 이는 "schreiben 3"과 같다.
b. "schreiben 3" - 즉 도구/기계의 쓰기 기능 - 은 주어로서의 생물에 적용될 수 없다("Stift(펜)").
c. "Stift(펜)"이 (9, 10, 13, 14, 15, 16행) 예컨대 부가되면, 관사(성)는 예시 문장과 일치하지 않는다.
d. 4행에는 "XX"가 입력되어 있지 않은데, 변이형(variant)이 전체적으로 생략되기 때문이다(예시 문장에서 schreiben의 재귀적인(reflexiv) 적용 사례는 존재하지 않음).
이제 자동으로, 변조-결과들을 정도에 따라 내림 차순으로(descending) 분류한 목록이 작성되면, 의미-신호 교차 등급(sense signal intersection ranking)(SSIR)이 획득된다.
나머지 가능성을 개관적으로 표시하기 위해, '자동 번역' 기능이 사용된다: 이러한 기능은 관련 단어들이 동형동음이의어의 가장 통상적인 동의어(예시에서 밑줄 표시됨)에 의해 맥락 내에서 사용자의 입력 언어로 표시되면서 각각의 개별적인 대안적 표현을 나타낸다.
최대값들의 수 및 값에 따라, SSIR로부터 다음의 분석 또는 자동 번역이 자동으로 생성된다. 66%라는 값은 경험적으로 확정된 값으로, 온톨로지 및 언어에 따라 개별적으로 확정될 수 있고, 의미-변조를 위한 상대적 관련성 하한을 나타낸다.
1. 'Der Stift schreibt nicht'라는 문장은 명확하지 않고 66%를 초과하는 [5]개의 관련 해석-가능성들을 허용한다: (밑줄 표시한 단어들 = Stift 또는 schreiben의 동의어)
i. schreiben 3 (기능으로서), Stift 1(필기펜)과 함께 자동 번역: Der Schreibstift funktioniert nicht(필기펜이 써지지 않는다).
ii. schreiben 2 (텍스트를 포함하는 읽기 가능한 작품을 작성하다), Stift 3(견습생) 또는 Stift 5(꼬마, 애송이)과 함께 자동 번역: Der Lehrling schriftstellert nicht(견습생은 저술 활동을 하지 않는다). 자동 번역: Der Steppke schriftstellert nicht(그 애송이는 저술 활동을 하지 않는다).
iii. schreiben 1 (운동성 행위), Stift 3(견습생) 또는 Stift 5(어린 아이, 아이)과 함께 자동 번역: Der Lehrling schreibt nicht auf(견습생은 기록을 하지 않는다). 자동 번역: Der Steppke schreibt nicht auf(그 아이는 기록을 하지 않는다).
나머지 조합은 더 낮은 값을 도출한다. 예컨대 비즈니스 일상(기술적, 상업적, 학문적 언어)의 적용 범위에서 번역기로서 변이형 ii, iii이 제외될 것인데, "Stift 3"은 의미 신호에서 오로지 <regionale Anwendung(지역적 적용)>에 대해 정의되거나, "Stift 5"는 <Scherzhaft(해학)>로서 정의되어 있기 때문이다. 즉 필기펜이 써지지 않는다는 해석만이 남는다.
2. 사용자에게는 SenSzcore로부터 자동으로 옵션 1을 수용하도록 제공되며, 나머지 가능성에 대한 자동 지침은 ii, iii에서 수행된다.
중요 주석: 숫자상으로 된 변조-값들은 시스템을 위해 미리 수동으로 "교시"되어 영구 저장된 의미-신호들의 특성들에 기반한다. 단, 의미-신호의 값들이 "한" 사람의 연상들을 반영하는 한, 즉 관련 의미-신호들을 구축하였고 절대적 결정을 내리지 않은 사람의 연상들을 반영하는 한 그러하다. 따라서, 자연적으로 2개의 의미-신호들의 변조값은 절대적 진술이 아니라 상대적 진술이다. 또한, i에 대한 결정 시 통계적 평가가 존재하지 않는데, -추정 산출이 아니라- 구체적으로 계산되었고, 예컨대 66%라는 하한 미만의 대안예는 버림되었기 때문이다.
표 5에 대한 설명
표 5는 5개의 예문을 들어 시장에서 통상적인 최상의 프로그램들을 비교한다(2014년 기준):
I) Der Stift kauft ein Stift(견습생은 재단을 산다).
II) Der Stift kauft einen Stift(견습생은 펜을 산다).
III) Das Stift kauft einen Stift(재단은 펜을 산다).
IV) Der Stift schreibt nicht(펜이 써지지 않는다).
V) Das Stift wurde in einem Zug geraeumt(재단은 한 번에 제거되었다).
Stift에 대한 13개의 상이한 의미들은 도 3b에 등록되어 있다. 전체적으로, 5개의 예문에서 21개의 가능한 관련 의미들이 존재한다. 종래 기술에서 189개의 가능성들 중 겨우 3개의 가능성만이 정확하게 인식/번역되었다.
비교를 통해, 시장에 통상적인 프로그램들은 - 무료 여부와 상관없이 - 의미 인식을 위한 복수의 기초적 사실을 계산할 수 없거나/드문 정도로 계산할 수 있어서, 이러한 예시에서 평균적인 적중률은 1.5%에 불과하다는 것이 확인되었다:
예컨대 종래 기술에 따른 프로그램들은 - 수많은 다른 약점 외에 - 다음의 경우에 실패하였다:
a) 주체의 성 파악, 심지어 관사가 있는 경우에도.
b) 무생물/생물/기관 구분.
c) 동사 의존 보조 성분의 허용 취급(예컨대 Sachen(사건)은 아무것도 "kaufen(사다)"할 수 없다).
d) 주어와 목적어의 상대적 비율 파악: 무엇이 어디에 맞게 들어가는 것인가 예컨대 "das Stift"(기관)은 Zug 내에 맞을 수 없다(문장 No.5).
e) 동형동음이의어 및 그 구체적 번역의 구별.
f) 텍스트내에 오류가 있거나 비일의성이 존재할 때 사용자의 경고.
등등.
종래 기술에 따른 프로그램들의 취약점에 대한 또 다른 유사한 세부 사항은 예시에 따라 표 5에서 좌표 C34)부터 "언어학적 비교" 하부 박스 참조.
관련 분야의 대기업들의 번역 소프트웨어에서 종래 기술의 여타 통상적인 방법 조건적 오류는 표 6 참조. 이러한 종래 기술을 이용하여(25년 이상 최적화됨) 정확한 작업이 가능하지 않다는 점이 분명해진다.
-예컨대 유럽 언어권내에서- 출발어 및 목표어가 어떤 언어인지와 무관하다.
이하, 본 발명의 일부 상이한 실시예들이 구조적 형태로 설명된다.
이하, 구조적 형태에서 상이한 본 발명의 일부 실시예들이 설명된다.
1. 출발점은 컴퓨터로 구현된 "올바른 의미 검사" 방법으로, 이는 자연어로 이루어진 문장 내에서 문장 단어들의 명시적으로 존재하지 않는 의미론적 의미들을 숫자상으로 자동으로 변환하여 - 의미 신호로 지칭 -, 의미 신호들을 이용하여 문장의 모든 단어들에서 문장 맥락을 위해 올바른 의미들을 결정론적으로 계산하는 방법이며:
이 방법은 기계 판독 가능한 비-일시적 저장 매체에 저장되고, 컴퓨터에 의해 실행될 수 있는 명령어들을 포함하며, 이러한 명령어들이 컴퓨터 프로세서에 의해 실행되면, 자연어 텍스트의, - 자연어의 유효 규칙에 따라 시작 및 종결되는 - 분석해야 할 문장에 대하여 본 발명에 따른 모든 이용 가능한 의미-신호들은 각 단어에 대하여 자동으로 컴퓨터로 구현된 메모리(1)로부터 추출되고, 문장의 모든 단어들의 의미-신호들의 상호 산술적 및 논리적 비교가 - 분석된 문장에서 단어들 자체 및 단어들의 특정한 배열에 의해서만 제어되면서 - 의미-변조기들(2, 3)에서 수행되고, 이후 각 단어는 문장의 다른 단어들을 포함하는 다른 의미 신호들에 비하여 각 단어를 위해 별도로 단어에 할당 가능하며 분석 시 자동으로 구축 및 연결되는 처리 관련 비교 데이터들(문장의 다른 단어들을 포함하는 다른 의미-신호들에 대한 비교 데이터들)에 의해 이러한 맥락을 위해 유효한 것으로서 계산된 의미-신호들을 통하여 기계 판독 가능하도록 명시적으로 정보가 태깅(tagging)되고, 이러한 태깅으로부터, 단어가 맥락 내에서 올바르게 쓰여 있는지의 여부 및 단어가 맥락 내에서 오로지 1개 또는 복수의 의미-신호들을 가지고 이러한 의미-신호들이 어떤 의미 신호들인지에 대하여 자동으로 추론될 수 있는 것을 특징으로 한다.
2. 1번에 따른 방법은, 의미-변조기(2) 내에서 문장의 모든 단어들에 대하여 그 의미-점수(sense score)가 계산된 후에, 다음의 정보가 기계 판독 가능한 방식으로 이용 가능하게 되는 것을 특징으로 한다:
2.1 문장의 단어에 대하여 의미 점수(SW)가 0(제로)이면, 단어는 잘못 쓰여진 것이고 문장의 문장 점수(SS)는 0이다.
2.2 문장의 단어에 대하여 의미 점수(SW)가 1보다 크면, 분석된 문장은 잘못 표현되거나 일의적이지 않게 표현된 것인데, 1을 초과하는 SW를 갖는 단어들은 문장 내에서 1개를 초과하는 가능 의미를 포함하기 때문이다. 이러한 문장의 문장 점수(SS)는 "SW"와 같다. 문장에서 1개 보다 많은 단어가 1을 초과하는 의미 점수를 가지면, 문장 점수(SS)는 문장의 단어들의 의미 점수들의 최대값 "SW"으로 설정된다.
2.3 문장의 모든 단어들이 "SW" = 1이라는 의미 점수를 가지면, 그 문장은 일의적이고, 문장 점수(SS)는 1이다.
2.4 단어들의 의미 점수(SW)가 -2이면, 이러한 단어들은 대문자 쓰기뿐만 아니라 소문자 쓰기도 허용한다. 문장 점수(SS)는, 추가적인 반복(iterative) 단계들을 통해 이 문장에서 SW = -2인 단어들의 올바른 대문자/소문자 정서법이 최종적으로 계산될 때까지 SS = -2라는 값을 획득한다.
3. 1번 또는 2번에 따른 방법으로, SW=0인 단어들을 더 이상 포함하지 않는 문장에 대하여 제한 변조기(3)에서, 의미-신호들에 존재하는 제한 참조(EV)가 적용되었고, 이로부터 다음의 정보가 기계 판독 가능한 방식으로 이용 가능하게 되었을 때 문장들이 어떤 문장 점수(SS)를 가지는지가 계산되는 것을 특징으로 한다:
3.1 문장의 단어에 대하여 의미 점수(SW)가 1을 초과하면, 분석되는 문장은 잘못 표현되거나 일의적이지 않게 표현되었는데, 1을 초과하는 SW를 포함하는 단어들은 문장 내에서 1개를 초과하는 가능 의미를 포함하기 때문이다. 문장의 문장 점수(SS)는 SW와 같다. 문장의 1개 보다 많은 단어가 1을 초과하는 의미 점수(SW)를 가지면, 문장 점수(SS)는 문장의 단어들의 의미 점수들의 최대값(SW)으로 설정된다.
3.2 문장의 모든 단어들의 의미 점수(SW)가 1이면, 문장은 일의적이고 문장 점수(SS)도 1이다.
4. 1번 내지 3번 중 적어도 어느 하나에 따른 방법은, SW=0인 단어들에서 저장 가능한 오류 알림이 시작되고, 이러한 오류 알림은 특히 문장의 모든 단어들의 정서법 오류를 제공하되, 문장 내에서 관련 단어 위치와 오류 원인의 언급 및 데이터베이스 시스템(1)의 메모리로부터 계산된 오류 해소 가능성 표시와 함께 제공하고, 오류 알림 메모리(4)에 순차적으로 저장되는 것을 특징으로 한다.
5. 4번에 따른 방법은, SW = -2인 단어들에서 저장 가능한 오류 알림이 시작되고, 이러한 오류 알림은 특히 문장의 모든 단어들의 대문자/소문자 정서법에서 오류가 있음을 제공하되, 문장 내에서 단어 위치와 오류 원인의 언급 및 데이터베이스 시스템(1)의 메모리에 의해 계산된 오류 해소 가능성의 표시와 함께 제공하고 오류 알림 메모리(4)에 순차적으로 저장되는 것을 특징으로 한다.
6. 1번 내지 5번 중 적어도 어느 하나에 따른 방법은, 현재 문장에서, 이용 가능성에 따라 이미 1번에 따라 처리되고 문장 점수(SS)가 1인 "n"개의 직전 선행 문장들까지 판독 입력(read-in)되고, 의미-변조기(3)에서 이러한 문장들의 단어들의 의미-신호들이 처리되는 것을 특징으로 한다.
7. 1번 내지 6번 중 적어도 어느 하나에 따른 방법은, 문장 내에 통사론적 문장 성분(주문장, 부문장, 삽입된 부문장, 주어, 술어, 목적어, 대시선 사이의 문장 부분들, 2개의 괄호(여는 괄호/닫는 괄호) 사이의 텍스트 부분들 등)이 있다면 이러한 통사론적 문장 성분이 결정되고, 이러한 문장 성분을 각각 형성하는 모든 단어들을 포함하여 문장부-메모리(6)에 개별적으로, 순차적으로, 검색 가능하게 저장되는 것을 특징으로 한다.
8.1번 내지 7번 중 적어도 어느 하나에 따른 방법은, 의미-변조기(3) 내에서 3개의 최신 문장들의 주된 주제는, 이러한 문장들의 문장 점수가 각각 1일 때 - 그러한 문장들이 존재하는 한 - 롤링 업데이트(rolling update)되는 것을 특징으로 한다.
9. 1번 내지 8번 중 적어도 어느 하나에 따른 방법은, 제한 변조기(3) 내에서 최신 단락의 주된 주제는 - 변조기(3)로부터의 가장 빈번한 유효한 제한 참조(EV)로서, 예컨대 의미-신호의 형태로 - 제한 참조의 의미 신호들의 형태로 롤링 업데이트되고, 계층적으로(hierarchic) 검색 가능하게 되는 것을 특징으로 한다.
10. 1번 내지 9번 중 적어도 어느 하나에 따른 방법은, SS가 1을 초과하는 문장들에서 자동 번역 알림이 생성되고, 이러한 자동 번역 알림은 각 단어에서 여전히 존재하는 #SW 의미 가능성들을 목록화하고, 데이터베이스 시스템(1)으로부터 각 단어의 가장 통상적인 동의어를 이러한 단어의 유효한 의미-신호들을 통해 검색하고, 자동 번역 메모리(5)에 순차적으로 저장하는 것을 특징으로 한다.
11. 1번 내지 10번 중 적어도 어느 하나에 따른 방법은, SW가 1이 아닌 단어들에 대하여 오류 알림 메모리 및 사용자 상호작용 매니저(7)에서 표현 요소들이 규정되고, 이러한 표현 요소들은 텍스트 처리 프로그램에서 사용될 수 있어서, 자동 번역 메모리(5) 또는 오류 알림 메모리(6)로부터 각각의 관련 단어에 대하여 단어의 상태가 예컨대 시각적으로 사용자의 모니터에 저장되고, 예컨대 "마우스 오버(mouse-over)" 정보는 사용자의 모니터에 생성되는 것을 특징으로 한다.
12. 1번 내지 11번 중 적어도 어느 하나에 따른 방법은, 사용자 상호작용 매니저(7)를 통하여 자동 번역 메모리(5) 또는 오류 알림 메모리(4)로부터 유래하는 교정 제안과 관련하는 사용자 상호 작용으로부터 문장 내의 텍스트가 업데이트되고, 이 문장에 대해 1번에 따른 신규 계산 사이클이 수행되며, 이때 자동 번역 메모리(5) 또는 오류 알림 메모리(4)의 모든 엔트리들(entries)은 문장의 최신 작업 기준에 맞춰 조정되는 것을 특징으로 한다.
13. 1번 내지 12번 중 적어도 어느 하나에 따른 방법은, 변조기(3)로부터의 최신 주제 구조는 사용자 상호작용 매니저(7)를 통해 - 최신으로 업데이트되면서 - 예컨대 사용된 모니터에의 별도의 대화창(window)에서 사용자에게 표시되는 것을 특징으로 한다.
14. 1번 내지 13번 중 적어도 어느 하나에 따른 방법은, 문장의 점수(SS)가 1에 도달하면, 자동 번역이 생성되고, 이러한 자동 번역은 이제 각 단어의 단일의 의미-신호를 데이터베이스 시스템(1)으로부터 검색하고, 각 단어의 가장 통상적인 동의어를 데이터베이스 시스템(1)으로부터 유효 의미-신호를 통해 각각 검색하고, 문장의 각 단어를 각각 2개의 정보로 태깅하거나 또는 이에 상응하는 기계 판독 가능한 대체 명칭으로 태깅하는 것(8)을 특징으로 한다.
15. 1번 내지 14번 중 적어도 어느 하나에 따른 방법은, 사용자가 자동 번역의 승인 시, SW=1을 포함하는 태깅된 단어의 동의어들 중 가장 통상적인 동의어 이상의 것을 데이터베이스 시스템(1)으로부터 조회할 수 있어서, 문장의 원본 단어가 이러한 다른 동의어들 중에 선택된 동의어로 대체되는 것을 특징으로 한다.
16. 15번에 따른 방법은, - 자동번역으로 지칭됨 -, 사용자가 문장에 대해 점수 1로 표지할 때 - 예컨대 모니터 위에서 마우스를 이용하여 - 문장의 태깅된 정보로부터 자동으로 문법적으로 정확한 문장이 표현되고, 이러한 문장에서 예컨대 문장의 어형변화 가능한 동음동의어들은 가장 통상적인 동의어들로 대체되는 것을 특징으로 한다.
17. 1번 내지 16번 중 적어도 어느 하나에 따른 방법은, 사용자가 SW=1인 단어를 문장 점수(SS)가 1인 문장에서 활성으로 표시할 때 - 예컨대 모니터위에서 마우스를 더블 클릭함으로써 - 문장의 태깅된 정보로부터 활성화된 단어의 가장 통상적인 동의어가 - 기존의 맥락에서 - 자동으로 표시되는 것을 특징으로 한다.
18. 1번 내지 17번 중 적어도 어느 하나에 따른 방법은, 점수(SW)가 1이 아닌 문장들에서 텍스트의 단어들에 대하여 각각의 단어를 위해 존재하는 자동 번역 메모리(5) 또는 오류 알림 메모리(4)로부터의 정보가 사용자 상호작용 매니저(7)를 통해 새로 태깅되되, 이러한 2개의 메모리들에서 각 단어에 대한 정보가 변경될 때면 언제든 태깅되는 것을 특징으로 한다.
19. 1번 내지 18번 중 적어도 어느 하나에 따른 방법은, 문장 점수(SS)가 1이 되기 위해, 분석된 문장을 위해 필요한 해당 문장 앞의 문장들로부터의 모든 정보들은 추후 추가 처리를 위해 문장에 태깅되는 것을 특징으로 한다.
20. 19번에 따른 방법은, SW가 1이 아닌 단어들을 위한 문장의 모든 교정은 자동으로 수행되되, 단어의 교정이 변조기(1) 또는 오류 메모리(4)에서 오로지 1개의 유효한 가능성만을 각각 포함하는 한 수행되는 것을 특징으로 한다.
21. 19번 또는 20번 중 적어도 어느 하나에 따른 방법은, 문장의 처리 시 생성되고 20번에 따라 자동으로 삭제될 수 없는 전체 알림들은 오프라인모드에서 문장에 태깅되고, 이 방법은 문장 점수(SS)의 상태가 "알 수 없음"인 다음 문장과 함께 계속 진행되는 것을 특징으로 한다.
22. 자연어의 문장들을 다른 언어로 번역하기 위해 컴퓨터로 구현된 번역기로, 1번 내지 21번 중 적어도 어느 하나에 따른 "올바른 의미 검사"를 이용하는 번역기.
23. 22번에 따른 방법은, 점수(SS)가 1인 문장이 자동으로 취득되거나, 1번에 따라 텍스트가 처리되되, 문장 점수가 1인 적어도 1개의 문장이 존재하거나 미처리된 문장이 더 이상 없을 때까지 처리되는 것을 특징으로 한다.
24. 22번 또는 23번 중에 적어도 어느 하나에 따른 방법은, 텍스트를 사용자의 선택된 목표어로 번역하는 것이 수행되되, 모든 단어들의 소정의 일의적인 의미-신호들을 고려하고 이러한 단어들에 태깅된 모든 추가 정보를 고려하여 수행되는 것을 특징으로 한다. 이를 위해, 모든 의미-신호들을 포함하는 데이터베이스 시스템(1)의 데이터베이스를 이용하는 것, 그리고 이와 결부되어 모든 단어들을 단어들의 유효한 의미-신호들과 연계하여 출발어 및 목표어로 올바르게 번역하되, 모든 출발어 및 목표어의 어형변화들에서 올바르게 번역하는 것.
25. 1번 내지 24번 중 적어도 어느 하나에 따른 방법은, 데이터베이스 시스템(1)으로부터 언어-쌍 특정 규칙들의 적용이 수행되고, 이러한 적용은 단어들의 어형론 및 어형변화에 관련하는 단어들의 순서 및 7번의 메모리(6)에서 문장 요소들의 순서의 조정에 의해 문장을 목표어로 나타내되, 목표어에서 의미론적, 어형론적, 문법적 및 통사론적으로 올바른 순서로 나타내는 것을 특징으로 한다. 이때 7번의 출발 언어의 태깅된 문장 구조를 특별히 고려하며, 이러한 문장 구조는 언어-쌍 조건적으로 목표어에서 문장 부분들의 새로운 올바른 순서를 규정한다.
26. 종래 기술에 따른, 자연어의 자동 음성 인식으로부터 유래하는 텍스트의 컴퓨터 구현 처리로서, 1번 내지 21번 중 적어도 어느 하나에 따른 "올바른 의미 검사"를 이용하는 처리로, 다음을 특징으로 한다:
27. 24번에 따른 방법은, 종래 기술에 따른 음성 인식 시스템으로부터의 문장들을 포함하는 텍스트를 자동으로 취득하는 것을 특징으로 하는 방법.
28. 26번 또는 27번 중 어느 하나에 따른 방법은, 문장 내에서 동음이의어의 존재를 계산하는 것은, 문장의 단어들을 데이터베이스 시스템(1)의 데이터베이스로부터 사용자가 알고 있는 자연어의 동음이의어 그룹들과 대조함으로써 수행되는 것을 특징으로 한다.
29. 24번 내지 28번 중 적어도 어느 하나에 따른 방법은, 모든 가능한 문장 변이형들의 생성은 문장 내에서 관련 동음이의어 변이형들의 순차적인 상호 대체/교체를 통해 수행되는 것을 특징으로 한다.
30. 29번에 따른 방법은, 각 문장을 1번 내지 22번에 따른 적어도 하나의 방법에 따라 평가하고, 오프라인 모드에서 자동 번역 메모리(5) 또는 오류 알림 메모리(4)로부터의 알림들로 태깅하는 것을 특징으로 한다.
31. 30번에 따른 방법은, 모든 생성된 문장들의 문장 점수들을 평가하고, 모든 문장들 중에 단일의 문장만이 점수(SS)가 1이면, 이러한 문장은 결과물로서 활용하고, 14번에 따라 태깅하는 것을 특징으로 한다.
32. 31번에 따른 방법은, 모든 생성된 문장들의 문장 점수를 평가하고, 1개 보다 많은 문장의 점수가 1이면, 모든 동음이의어에서 산술적으로 최대 일치점을 갖는 문장이 채택되는 것을 특징으로 한다.
33. 1번 내지 32번 중 적어도 어느 하나에 따른 방법은, 문장들 중에 어느 문장도 점수(SS)가 1이 아니어서 명확한 결정이 불가능한 경우, 입력 문장은 분석된 동음이의어의 정보, 자동 번역 메모리(5) 또는 오류 알림 메모리(6)로부터의 알림들로 태깅되는 것을 특징으로 한다.
종래 기술에 비해 이러한 변형예들의 이점:
종래 기술에 따른 음성 인식은 동음이의어 및 대문자/소문자 정서법을 인식할 수 없다. 26번에 설명한 과정에 의해, 데이터베이스 시스템(1)의 데이터베이스에 등록된 자연어의 모든 알려진 동음이의어(예컨대 독일어에서 약 1000개, 부분적으로 er/eher, ist/isst, jaeh/je, sie/sieh, Feld/faellt, 등등과 같은 것은 매우 빈번함, 다른 언어에서 영어는 10,000개, 일본어는 25,000개이하)에서 문장 맥락에서 올바른 정서법은 의미-신호들을 통해 식별될 수 있다. 이는 소프트웨어 운영 시 트레이닝 비용을 줄이고, 인식된 텍스트의 품질을 현저히 증대시킨다.
34. 종래 기술에 따른, 백그라운드 노이즈가 있을 때 자연어의 예컨대 자동 음성 인식으로부터 정서법 오류는 포함하나 완전히 틀린 단어들을 포함하는 것은 아닌 훼손된 텍스트를 1번 내지 21번 중 적어도 어느 하나에 따른 "올바른 의미 검사"를 이용하여 컴퓨터 구현 처리/재구성하는 것.
35. 34번에 따른 방법은, 자동으로 취득된 텍스트에서, 틀린 단어들의 정확한 정서법에 의해 문장을 바꾸어 표현하는 가능성들이 통사론적으로 산출되는 것을 특징으로 한다. 이는 예컨대 "유사 음향(sounds-Like)" 방식 또는 유사한 검색 알고리즘에 따라 데이터베이스 시스템(1)으로부터의 데이터들에 의거하여 수행될 수 있다. 우선, 동음이의어 그룹과 유사한 단어들, 또는 대문자/소문자 철자, 억양 등을 포함하여 키보드 조작 시의 문자 탈자 또는 통상적인 타이핑 오류에 상응하는 단어들에 대한 우선 순위를 이용한다.
36. 34번에 따른 방법은, 35번에 따른 가능성을 이용하여 문장 점수(SS)가 1인 문장들이 도출되는지의 여부를 시험하는 것을 특징으로 한다.
37. 34번 내지 36번 중 적어도 어느 하나에 따른 방법은, 사용자에 의해 정해진 시간 -예컨대 5초 - 후 유용한 적중 결과가 산출될 수 없을 때 과정이 중단되는 것을 특징으로 한다(기준 = 초당 약 500~1000회 시도).
38. 34번 내지 37번 중 적어도 어느 하나에 따른 방법은, 입력 문장은 분석된 동음이의어의 정보, 자동 번역 메모리(5) 또는 오류 알림 메모리(6)로부터의 알림들로 태깅되는 것을 특징으로 한다. 점수가 1이 아닌 문장들만 존재할 시, SW=0인 최소 단어들을 포함하는 문장들이 태깅을 위해 우선 처리된다.
39. 데이터베이스에서 검색을 수행하는 검색기의 컴퓨터로 구현된 구동 모드로, 이러한 데이터베이스의 자연어의 텍스트들은 1번 내지 21번 중 적어도 어느 하나에 따른 "올바른 의미 검사"에 의해 태깅되고, 태깅에 기반하여 인덱싱되는 것을 특징으로 하는 컴퓨터로 구현된 구동 모드.
40. 39번에 따른 방법은, 검색 프로세스 전에, 그리고 1번 내지 21번 중 적어도 어느 하나에 따라 문장 점수(SS)가 1이고 이에 상응하여 태깅되었던 모든 문장들에서, 자동 데이터베이스 인덱싱이 1번에 따른 모든 단어들의 의미-신호들에 따라 수행되는 것을 특징으로 한다.
41. 39번 또는 40번 중 적어도 어느 하나에 따른 방법은, 동일한 언어의 모든 동의어들이 모든 유효한 어형변화에서 검색에 (검색어와 동일한 의미 신호) 자동으로 산입되는 것을 특징으로 한다.
42. 39번 내지 41번 중 적어도 어느 하나에 따른 방법은, 외국어의 동의어들이 모든 유효한 어형변화에서도 검색에 (검색어와 동일한 의미 신호) 자동으로 결부되는 것을 특징으로 한다.
43. 39번 내지 42번 중 적어도 어느 하나에 따른 방법은, 복수의 검색어들을 사용할 때 검색어들의 연관 논리에 따라 의미-신호 적중 결과들의 조합이 수행되는 것을 특징으로 한다.
39번 내지 43번에 따라 설명된 과정에 따른 검색기의 구동은, 검색 시 검색어의 의미-신호에 상응하는 적중 결과만이 생성된다는 현저한 이점이 있다. 검색어가 동형동음이의어일 때, 검색기에서 적중 결과의 수는 99%를 초과하는 만큼 감소한다. 또한, 검색어의 유효한 어형변화 및 이러한 검색어의 동의어들의 모든 유효한 어형변화에 대해, 필요 시 외국어에서도 검색이 수행된다. 이는 무엇보다도 비즈니스-인텔리전스-적용 분야를 위해 검색 결과의 품질을 현저히 증대시키며, 최종적인 적중 결과를 선택하기 위한 사용자의 읽기 소모를 줄이되, 이에 반비례적으로 품질 이득은 증대된다.
44. 1번 내지 21번 중 적어도 어느 하나에 따라 자연어 텍스트 형태를 갖는 진술문이 소정의 주제를 위해 이용 가능한지를 컴퓨터로 구현된 방식으로 평가하는 것.
45. 44번에 따른 방법은, 문장 점수(SS)가 1인 자동으로 취득된 문장에서 이러한 문장의 단어들의 의미 신호들이 의미-신호들의 소정 조합 또는 패턴을 이용하여 1번에 따라 태깅된 비교 주제 문구와 자동으로 비교되는 것을 특징으로 한다.
46. 44번 또는 45번에 따른 방법은, 주제-규정의 의미-신호들 및 입력 문장들이 소정의 중첩 패턴으로 커버되는 것을 평가하고, 입력 문장의 문장 구조 내에서 논리적 연산자들(예컨대 "nicht(~이 아니다)", "auch(또한)", "oder(또는)" 등)의 의미 신호들이 존재하는지가 1번 내지 22번 중 어느 하나에 따라 고려되는 것을 특징으로 한다.
47. 26번, 34번, 39번, 04번에 따른 "올바른 의미 검사"의 청구들을 조합하여, 컴퓨터/또는 "응답형 컴퓨터"와 인간 사용자간의 자동 대화의 컴퓨터 구현 실행.
48. 47번에 따른 방법은, 사용자의 구두 입력은 26번, 34번, 39번, 04번을 이용하여 응답형 컴퓨터에 의해 텍스트로서 감지되는 것을 특징으로 하는 방법.
49. 47번 또는 48번에 따른 방법은, 응답형 컴퓨터에 의해 입력 텍스트를 개별 문장들로 나누기가 수행되고, 이 중에 어느 것이 진술문이고 어느 것이 의문문인지를 자동 평가가 수행되는 것을 특징으로 한다. 예컨대 문장 말미에 물음표가 있는지 또는 없는지, 또는 그러한 문장들의 통상적인 문장 구조에 의해 평가함.
50. 선행 번호들 중 적어도 어느 하나에 따른 방법은, 사용자의 진술문 및 의문문의 의미 신호들의 대조가 1번에 따라 수행되되, 사용자가 상호 작용할 때 사용하는 자연어와 동일한 자연어로 존재하는, 응답형/대화참여형 컴퓨터의 기계 판독 가능한 텍스트 온톨로지의 진술문, 응답문, 표준 의문문의 데이터베이스와 각각 매칭/일치점에 따라 수행되는 것을 특징으로 하며, 이때 이러한 데이터베이스는 47번에 따라 태깅되었다. (응답형 컴퓨터의 온톨로지를 위한 기준 = 서비스되는 FAQ 데이터베이스의 예컨대 500개의 정확한 문장들, 예컨대 각각 문장 점수(SS)가 1인 문장들).
51. 선행하는 번호들 중 적어도 어느 하나에 따른 방법은, 사용자의 문장들의 의미-신호들의 매칭-값들이 특정한 레벨을 초과할 때, 응답형 컴퓨터의 컴퓨터 온톨로지를 이용하여, 매칭/일치-값에서 각각 최고 등급의 응답문 및 평서문이 컴퓨터 온톨로지로부터 식별되는 것을 특징으로 한다.
52. 선행하는 번호들 중 적어도 어느 하나에 따른 방법은, 응답형 컴퓨터에 의해 사용자를 위한 구조화된 자동 응답이 생성되는데, 예컨대 다음의 패턴에 따라 생성되는 것을 특징으로 한다:
a) 컴퓨터 온톨로지와 관련하여 50번에 따른 사용자의 문장들로서, 예컨대 2개의 최고 등급 문장들 A, B를 종래 기술에 따른 음성 출력 시스템을 통해 응답형 컴퓨터에 의해 구두의 형태로 최대한 확인함(confirm). (예컨대 "Wenn ich Sie richtig verstanden habe, sagten Sie das..."Wortlaut von Satz A 및 "Wortlaut von Satz B(제가 당신의 말을 올바로 이해했다면, 당신은 ..."문장 A의 문구" 및 "문장 B의 문구"를 말하였습니다))
b) 종래 기술에 따른 음성 출력 시스템을 통해, 50번에 따른 컴퓨터 온톨로지의 최고 등급 응답문을 제공하고, 응답형 컴퓨터의 50번으로부터의 최고 등급 응답문으로 종결함, 이러한 종결은 사용자에게 조회에 따라 제어된 응답만을 허용한다: 예컨대 "예" 또는 "아니오".
c) 대안적으로, - 특정한 규칙에 따라 - 사용자가 획득한 링크를 응답형 컴퓨터를 통해 전송하는 것으로 응답함, 이로부터 사용자의 질문에 대해 보다 세부적인 정보를 판독 출력(read-out)하고, 응답형 컴퓨터에 보다 선별적인 질문을 할 수 있으며, 질문은 사용자가 컴퓨터 온톨로지에서 예컨대 고유의 일부 검색 활동을 들여서만 찾을 수 있는 것이다.
53. 선행한 번호들 중 적어도 어느 하나에 따른 방법은, 매칭 값들이 특정한 레벨 미만일 때, 응답형 컴퓨터에서 예컨대 표준 대화가 호출되고, 사용자는 이러한 표준 대화를 오로지 예 또는 아니오로만 응답할 수 있거나, 제어된 소정의 구두의 문자 옵션의 언급에 의해 수행되는 것을 특징으로 한다.
54. 선행한 번호들 중 적어도 어느 하나에 따른 방법은, 응답형 컴퓨터에서 인간의 개입이 필요한 시점이 자동으로 인식되되, 예컨대 대화의 중복성(redundancy)의 자동 평가, 또는 사용자의 응답에서 의미 신호들의 내용 기반 패턴들에 의해 인식되는 것을 특징으로 한다.
종래 기술에 비해 47번의 현저한 유연성은 1번 내지 21번 중 적어도 어느 하나에 따른 의미 신호들을 이용하여 작업이 수행됨에 따라 획득되는 것임을 유의해야 한다:
- 사용자는 비교적 자유롭게 말할 수 있다(제한은 오로지 컴퓨터 온톨로지에 포함된 상이한 의미 신호들 및 이러한 의미 신호들의 세트별(set by set) 조합의 수).
- 컴퓨터 온톨로지에서의 인식율은, 상당한 프로그래밍 비용을 들이지 않고, 의미-신호들을 이용한 작업에 의해 높고 정확하며, 이러한 프로그래밍 비용은 오늘날 수고스럽게도 특정한 개별 단어들의 규정에 국한되거나, 인식된 단어들의 허용된 어형변화 종류 한계를 포함한다.
55. 1번 내지 22번 중 적어도 어느 하나에 따른 "올바른 의미 검사"를 이용하여 컴퓨터로 구현된 확장 정서법 검사.
56. 55번에 따른 방법은, 1번 내지 22번 중 적어도 어느 하나에 따른 자동 실행이 수행되나, 0을 초과하는 문장 점수에 도달한 후 이러한 문장은 의미 신호들 자체로 태깅되지 않는 것을 특징으로 한다. 이로써, 텍스트는 정서법 오류에 대해 검사되고, 사용자에 의해 상호 작용 방식으로 교정되나, 문장에 추가 정보 태깅이 반드시 수행되지는 않는다.
57. 1번 내지 21번 중 적어도 어느 하나에 따른 "올바른 의미 검사"를 사용하여, 수회 할당된(assigned) 키를 포함할 수 있는 키보드를 통해 단어들을 타이핑할 때 컴퓨터로 구현된 단어 인식.
58. 57번에 따른 방법은, 종래 기술에 따라 예컨대 단어 인식을 포함하는 스마트폰과 같이 사용자의 부수적 시스템으로부터 텍스트를 자동으로 취득하는 것이 수행되되, 예컨대 각각 작동된 키 순서의 로그파일로 태깅되어 수행되며, 이러한 키 순서는 문장의 기존 단어 입력을 위해 작동되었던 것임을 특징으로 한다.
59. 57번 또는 58번에 따른 방법은, 예컨대 키 신호는 다른 시스템을 통해 단어들이 사전에 선택되지 않고 직접적으로 취득되는 것을 특징으로 한다.
60. 57번 내지 59번 중 적어도 어느 하나에 따른 방법은, 기존 입력에 대한 검사가 1번 내지 22번 중 적어도 어느 하나에 따라 수행되고, 눌려진 키 조합 및 키 할당의 로그 파일로부터의 키 시퀀스를 이용하여, 단어의 키 조합에 대하여 데이터베이스 시스템(1)의 데이터베이스에서 단어들의 다른 적중 결과들이 존재하는지, 문장의 기존 단어들과 관련한 이러한 적중 결과들의 의미 점수가 정서법, 통사론, 의미 신호 매칭과 연관하여 이미 기존의 것보다 더 나은 가치를 가지는지에 대하여 계산되는 것을 특징으로 한다.
61. 57번 내지 60번 중 적어도 어느 하나에 따른 방법은, 사용자에게, 이미 기존의 텍스트의 정서법, 어형변화 및 통사론과 관련하여 사용자의 기존 텍스트가 취득되기 위한 개선 제안들이 제공되는 것을 특징으로 한다.
62. 57번 내지 61번 중 적어도 어느 하나에 따른 방법은, 텍스트 입력 중에 타이핑 오류의 자동 교정이 수행되되, 대/소문자 쓰기 알파벳 순서의 변경 시 예컨대 통상적인 타이핑 오류 패턴에 따른 것인 알파벳 시퀀스로서, 데이터베이스 시스템(1)의 데이터베이스에서 말머리로 포함되지 않는 알파벳 시퀀스는 인식 가능하게 수행되고, 이와 동시에 문장에 이미 존재하는 단어들의 의미 신호 매칭 및 통사론이 고려되는 것을 특징으로 한다.
63. 57번 내지 62번 중 적어도 어느 하나에 따른 방법은, 예컨대 텍스트의 입력 시 적합한 단어들이 제안되되, 현재 단어보다 "m"% 이상을 초과하지 않는 가능성이 그 단어를 위해 단일로 존재하거나 "n" 개 미만으로 존재할 때 제안되는 것을 특징으로 한다. "n">=1;"m"<75%, 예컨대 상기 가능성은 단어들의 의미 신호들과 관련하여 문장에 이미 존재하는 다른 단어들에 대해 높은 매칭을 포함한다.
64. 57번 내지 63번 중 적어도 어느 하나에 따른 방법은, 방금 쓰여진 단어에 대한 제안들 또는 옵션들은 사용자의 모니터에 시각적으로 표시되고, 예컨대 방금 쓰여진 단어 위에서 반투명 모드로 표시되는 것을 특징으로 한다.
65. 57번 내지 64번 중 적어도 어느 하나에 따른 방법은, 텍스트가 26번 또는 34번에 따른 음석 인식을 통해 수행되는 것을 특징으로 한다.
66. 1번 내지 21번 중 적어도 어느 하나에 따른 "올바른 의미 검사"를 이용하여, 자연어로 이루어진 문장들의 의미론적 암호화를 위한 컴퓨터로 구현된 시스템. 이는 청구항 제35항에서 청구된다.
67. 66번에 따른 방법은, 문장 점수가 반드시 1이 아닌 문장들을 포함하나, SW가 0보다 큰 상태의 적어도 3개의 단어들을 각각 포함하는 텍스트가 판독 입력되는 것을 특징으로 한다.
68. 66번 또는 67번에 따른 방법은, 각 문장에서 "m"개의 단어들은 문법적으로 적합하게 교체되거나 "n"개의 단어들은 문법적으로 적합하게 부가되고, 이러한 단어들은 적합한 의미-신호들을 가지고, 이러한 단어들의 직접적인 환경에 비해, 예컨대 삽입, 부정, 상대화 또는 생략에 의해 또는 데이터베이스 시스템(1)의 데이터베이스로부터 이러한 단어들의 반의어를 이용하여 문장 의미는 결정적으로 변경될 수 있으나, 문장 점수는 변경되지 않는 것을 나타내는 것을 특징으로 한다. "m" >=1 또는 "n" >= 0.
69. 66번 내지 68번 중 적어도 어느 하나에 따른 방법은, 고유의 의미 신호들을 갖는 고유 명사 및/또는 날짜 정보 및/또는 순수한 숫자인 모든 문자 숫자식 연쇄를 위해, 또는 특히 사용자에 의해 사전에 표시된 개별 단어들을 위해, 각각 코딩된 숫자 조합들로 교체되고, 이러한 숫자 조합들은 전체 텍스트에서 전체로서(as a whole) 반복되지 않는 것을 특징으로 한다.
70. 67번 내지 69번 중 적어도 어느 하나에 따른 방법은, 사용자의 시작 문장들은 원래 순서를 고려하여 사용자의 시스템에 저장되고, 변이형들(variants)로서 구축된 모든 변동의 로그 파일은 저장되며, 특히 각 변동에 대하여 적어도 변동 내용 및 문장에서의 그 위치를 제공하며 저장되는 것을 특징으로 한다.
71. 67번 내지 70번 중 적어도 어느 하나에 따른 방법은, 이러한 방법은 사용자를 지원하되, 현재 텍스트 자체와 상이한 사용자 소유의 텍스트 데이터베이스로부터 암호화해야 할 입력 텍스트의 문장들과 유사하고 문장 점수(SS)가 1인 문장들을 예컨대 44번을 적용하여 식별할 때 지원하는 것을 특징으로 한다.
72. 67번 내지 71번 중 적어도 어느 하나에 따른 방법은, 68번에 따라 입력 텍스트에 걸쳐 변이형 및 암호화해야 할 문장이 7개 미만으로 존재할 때, 텍스트에서 문장들의 수는 적어도 7개로 증대되는 것을 특징으로 한다. 이는 유리하게도 예컨대 71번을 통해 산출되는 문장들에 의해 구현될 수 있다.
73. 67번 내지 72번 중 적어도 어느 하나에 따른 방법은, 사용자의 시작 문장들 및 68번에 따라 구축된 변이형의 "m"개의 종속 문장들을 포함하는 텍스트가 구축되며, 상기 텍스트는 69번에 따라 익명화되는(anonymised) 것을 특징으로 한다.
74. 67번 내지 73번 중 적어도 어느 하나에 따른 방법은, 해당 문장들의 순서의 확률적 스크램블링(stochastic scrambling)이 수행되고, 70번에 따른 로그 파일의 스크램블링 전,후에 명시적 순서 변경이 부가되는 것을 특징으로 한다.
75. 67번 내지 74번 중 적어도 어느 하나에 따른 방법은, 73번으로부터의 변경되지 않았으나 스크램블링된 텍스트가 존재하고, 70번으로부터의 로그 파일이 존재할 때, 원본 텍스트는 오류 없이 재구성되는 것을 특징으로 한다.
- 사용자 스스로 작성한 문장에 비해 형식적으로 더 의미 없는 단일의 문장 또한 포함하지 않는 - 의미론적으로 암호화된 텍스트에서, 이제 사용자의 문장들의 최초 시작 순서는 오로지 현저한 노력을 들여 수동적인 읽기를 통해 식별 가능하다. 예컨대 10개의 시작 문장들 및 10개의 추가적 문장-변이형들이 있을 때, 원본 순서는 20의 순열(permutation)에서 1개의 가능성에 불과하다. 즉 20! = 2.4329*1018, 즉 약 1:2.5조개의 가능성들.
그러나 텍스트의 각 수신자는 오로지 텍스트 구축자의 로그 파일의 정보를 이용하여 시작 문장들을 간단한 방식으로 다시 작성할 수 있다.
65번은 매우 유리하게도 표준 상업적 암호화 시스템에 대한 부가물로서 사용될 수 있다.
표준 상업적 암호화의 코드가 해독된다면, 해독한 자는 전체 텍스트의 참된 의미를 결정하기 위해 수동으로 분석해야 하는 문장의 양으로 인해 실제적으로 해결할 수 없는 시간상 문제에 대면하게 되며, 더욱이 텍스트에는 사람, 시간 정보 및 수치를 참조하는 모든 정보가 빠져 있고, 정보에는 원본 텍스트에 비해 더 변경된 한정사 및 논리적 연산자 또한 포함되어 있다. 본원에서 유일한 위험 요소는, 표준 상업적 암호화 코드의 보안 전달에 부가하여, 선행 청구된 것들 중 적어도 어느 하나에 따른 시작 순서의 코드의 보안 전달이다.
1번에 따른 본원의 고유한 방법을 사용하더라도, 스크램블링된 텍스트에는 원본 텍스트의 일의성 레벨과 유사한 일의성 레벨을 갖는 문장들만이 존재하기 때문에 암호 해독을 할 수 없을 것이다.
[표 1]
[표 2]
[표 3]
[표 4]
[표 5]
[표 6]
[표 7]
Claims (28)
- 다수의 입력 단어들을 포함하는 텍스트, 특히 적어도 하나의 문장을 포함하는 텍스트에서 자동으로 의미 패턴을 인식하기 위한 기계 번역 방법으로서,
한 언어의 단어들, 상기 단어들의 특성을 설명하는 다수의 소정의 의미 범주들, 데이터베이스로 저장된 모든 단어들에 대한 의미-신호들을 포함하는 데이터베이스 시스템(1)을 이용하고, 의미-신호는 의미 범주들을 이용하여 단어들의 의미를 일의적으로(univocal) 숫자상으로 특성화한 것이며,
데이터 처리 장치에 의해 수행되는 적어도:
a) 데이터 처리 장치와 연결되는 데이터 입력 장치에 입력 단어들을 포함하는 텍스트를 판독하는 단계,
b) 데이터 처리 장치와 직접적으로 및/또는 데이터 원격 라인을 통해 결합된 데이터베이스 시스템(1)의 단어들과 모든 입력 단어들을 비교하는 단계,
c) 상기 b) 단계의 비교에 기초하여, 상기 데이터 처리 장치에 의해 상기 입력 단어들 각각에 대하여 적어도 하나의 의미-신호를 할당하는 단계로서, 동형동음이의어의 경우에 2개 이상의 의미-신호들이 할당되는 단계;
d) 상기 c) 단계에서 상기 입력 단어들에 대한 상기 의미-신호들의 할당이 일의적인 경우 의미 패턴 인식이 종료되고 단계 h)로 진행하는 단계,
e) 상기 c) 단계에서 하나의 입력 단어에 1개보다 많은 의미-신호가 할당될 수 있는 경우 상기 데이터 처리 장치에 의해 관련 의미-신호들은 배타적으로 맥락에 의해 제어되는 방식으로 서로 비교되는 단계,
f) 상기 입력 단어들의 의미-신호들의 조합을 이용하여, 입력 단어의 의미에서 - 특히 동형동음이의어의 경우 - 맥락과의 모순점 또는 일치점이 존재하는지가 확정되는 단계,
g) 모순점을 야기하는 의미-신호 조합들은 가려내지고, 일치점에 해당하는 의미-신호 조합들은 의미 신호들의 일치 정도에 따라 소정의 일치 기준을 이용하여 자동으로 숫자상으로 평가 및 등록되는 단계 - 텍스트의 모든 단어들, 특히 문장의 모든 단어들에 대해 의미 변조기(2)에 의해 단어 의미 점수(SW) 및 문장 의미 점수(SS)가 계산된 후에 - 단어 의미 점수는 문장의 맥락에서 각 단어의 의미 패턴의 관련성과 연결되는, 데이터베이스 시스템(1)의 각 단어의 엔트리들(entries)의 개수임 -:
문장의 단어에 대하여 의미 점수(SW)가 0(제로)이면, 상기 단어의 철자가 잘못 쓰여진 것이고 상기 문장의 문장 점수(SS)는 0이고,
문장의 단어에 대하여 의미 점수(SW)가 1을 초과하면, 분석된 문장은 잘못 표현되고 및/또는 일의적이지 않게 표현된 것으로서, SW가 1을 초과하는 단어들은 문장 및 맥락 내에서 1개 보다 많은 가능한 의미를 포함하기 때문이며, 이때 문장 점수(SS)는 SW와 같게 설정되고,
문장에서 의미 점수(SW)가 1을 초과하는 단어가 1개 보다 많이 있으면, 문장 점수(SS)는 각각의 문장의 단어들의 의미 점수들의 최대값(SW)으로 설정되고,
문장의 모든 단어들의 의미 점수(SW)가 1이면, 문장은 일의적이고, 문장 점수(SS)는 1이고,
의미 점수(SW)가 -2인 단어들은 대문자 철자뿐만 아니라 소문자 철자도 허용되며, 추가적인 반복적 단계들을 통해 상기 문장에서 SW=-2인 단어들의 올바른 대/소문자 정서법이 최종적으로 계산될 때까지 문장 점수(SS)의 값은 -2로 획득되고,
음성 입력에 따른 텍스트에서 단어들의 의미 점수(SW)가 1이 아니고, - 데이터베이스 시스템(1)으로부터 식별된 - 동음이의어 그룹에 속할 경우, 이러한 단어들의 의미 점수(SW)는 -3으로 획득되고, 문장 점수(SS)는 -3이란 값을 유지하되, 추가적 반복적 단계들을 통해 상기 문장 및 맥락에서 동음이의어 그룹들 중에 올바른 동음이의어가 최종적으로 계산될 때까지 그러하고,
문장의 단어들에서 의미 점수(SW)가 1보다 크면, 텍스트에서 임의의 수 v개의 선행 문장들 또는 n개의 후속 문장들의 단어들을 이용하여, 입력 문장에서 의미 신호들의 변조에 의해 SW=1의 결과에 이르는 단어들이 포함되어 있는지가 점검되며, 이때 일반적 음성 어플리케이션 및 양호하게 이해 가능한 텍스트에 대해서는 일반적으로 v=1, n=0임 -;
h) 단계들 d), g)로부터 획득되는 모든 입력 단어들의 자동 편성은 텍스트, 특히 문장의 의미 패턴으로서 출력되는 단계가 수행되는, 의미 패턴 인식을 위한 기계 번역 방법. - 청구항 1에 있어서,
상기 소정의 일치 기준에 따라 자동으로, 텍스트의 적어도 하나의 입력 단어를 위한 의미 패턴이 1개 보다 많은 잔류 의미를 포함하여, 문장의 유일한 의미 및/또는 유일한 의미 패턴이 맥락 내에 존재하지 않는 것이 결정되고, 비유일성(non-uniqueness) 및 비유일성의 원인이 표시되고, 및/또는 필요 시 사용자 상호 작용 매니저(7)에서 이용 가능하게 되는, 의미 패턴 인식을 위한 기계 번역 방법. - 청구항 1에 있어서,
입력 단어들을 포함하는 텍스트는 문자열이고, 상기 문자열은 서면 텍스트로부터 유래하고 및/또는 음성 인식 프로그램을 이용하여 음향적으로 기록된 텍스트 또는 사진 촬상된 텍스트, OCR 등과 같이 기타 소스로부터 유래하는, 의미 패턴 인식을 위한 기계 번역 방법. - 청구항 1에 있어서,
청구항의 e) 단계 후 텍스트의 모든 입력 단어들에 대한 잔류 의미 신호들의 개수를 알게 되면, 텍스트의 일의성의 정도를 위한 추가 처리 가능한 신호가 생성되는, 의미 패턴 인식을 위한 기계 번역 방법. - 청구항 1에 있어서,
SW=0인 단어들의 경우 저장 가능한 오류 알림이 생성되고, 상기 오류 알림은 특히 텍스트의 모든 단어들의 정서법 오류를 나타내고, 특히 계산된 오류 해소 가능성을 나타내며, 오류 알림 메모리(4)에 순차적으로 저장되고, 필요 시 사용자 상호 작용 매니저(7)에서 이용 가능하게 되는, 의미 패턴 인식을 위한 기계 번역 방법. - 청구항 4에 있어서,
SW=-2인 단어들의 경우 저장 가능한 오류 알림이 시작되고, 상기 오류 알림은 특히 문장의 모든 단어들의 대/소문자 철자에서 오류가 있음을 나타내되, 문장 내에서 단어 위치 및 오류 원인의 언급, 및 데이터베이스 시스템(1)의 메모리로부터 계산된 오류 해소 가능성의 표시와 함께 나타내고, 오류 알림 메모리(4)에 순차적으로 저장되고, 필요 시 사용자 상호 작용 매니저(7)에서 이용 가능하게 되는, 의미 패턴 인식을 위한 기계 번역 방법. - 청구항 1에 있어서,
SW=0인 단어가 없는 경우, 의미 변조기(3)는 현재 단락의 주요 주제를 - 의미 신호의 형태로 의미 변조기(3)로부터의 최빈의 유효 제한 참조(EV)로서 - 제한 참조의 의미-신호들의 형태로 롤링 업데이트되고, 계층적으로 검색 가능하게 되며, 필요 시 사용자 상호 작용 매니저(7)에서 이용 가능하게 되는, 의미 패턴 인식을 위한 기계 번역 방법. - 청구항 1에 있어서,
SS가 1을 초과하는 문장들의 경우 자동 번역 알림이 생성되고, 상기 자동 번역 알림은 각 단어에서 여전히 존재하는 #SW 의미 가능성들을 열거하고, 상기 데이터베이스 시스템(1)으로부터 각 단어의 가장 통상적인 동의어를 상기 단어의 유효한 의미-신호들을 통해 검색하고, 자동 번역 메모리(5)에 순차적으로 저장하며, 필요 시 사용자 상호 작용 매니저(7)에서 이용 가능하게 하는, 의미 패턴 인식을 위한 기계 번역 방법. - 청구항 1에 있어서,
상기 방법은 "올바른 의미 검사"를 사용하여 자연어의 텍스트들, 특히 자연어의 문장들을 목표어로 번역하기 위한 컴퓨터로 구현된(computer-implemented) 번역 장치의 일부이고, 이때 점수(SS)가 1인 문장이 자동으로 취득되거나, 또는 텍스트가 처리되되, 문장 점수가 1인 적어도 하나의 문장이 존재하고 및/또는 SS가 1이 아닌 미처리된 문장이 더 이상 존재하지 않을 때까지 처리되는, 의미 패턴 인식을 위한 기계 번역 방법. - 청구항 9에 있어서,
오류 알림 메모리(4), 자동 번역 메모리(5), 문장부-메모리(6) 및 사용자 상호 작용 매니저(7)에서 이용 가능한 모든 단어들의 소정의 일의적인 의미-신호들 및 모든 추가 정보를 고려하여 텍스트가 선택된 목표어로 번역되는, 의미 패턴 인식을 위한 기계 번역 방법. - 청구항 9에 있어서,
데이터베이스 시스템(1)으로부터의 언어쌍-특정 규칙들을 적용하되, 상기 적용은 입력 문장에서 단어들의 어형론 및 어형변화과 관련하는 단어들의 순서, 및 문장 요소의 순서를 조정함으로써 주문장, 부문장, 삽입된 부문장, 주어, 술어, 목적어, 대시선 사이의 텍스트 부분, 2개의 괄호(여는 괄호/닫는 괄호) 사이의 텍스트 부분 등을 결정하고, 이를 문장부-메모리(6)에서 목표어로 제공하되, 자동 번역 메모리(5) 및 상기 문장부-메모리(6)의 모든 문장 관련 엔트리들을 고려하여, 상기 목표어에서 의미론, 어형론, 문법적 및 통사론적으로 적어도 입력 문장과 마찬가지의 정확한 순서로 제공하는, 의미 패턴 인식을 위한 기계 번역 방법. - 청구항 1에 있어서,
번역물의 결과 단어들이 표시 및/또는 음향적 재현, 또는 다른 감각 기관을 통해 인지 가능하도록 출력 수단 상에서 표현되는, 의미 패턴 인식을 위한 기계 번역 방법. - 청구항 1에 있어서,
문장에서 동음이의어를 포함한 단어들이 존재하고, 이에 해당하는 규정이 있을 때, 맥락과 관련하여 데이터베이스 시스템(1)으로부터 존재하는 단어 및 상기 단어의 모든 추가적 동음이의어 정서법의 의미 신호 일치성 정도에 대한 자동 검사가 수행되고, 그 결과 상기 맥락에서 동일한 동음이의어 그룹의 단어들의 의미 신호들 중에 충분한 계산상의 구별이 없다면, 상기 문장에서 최고 의미-변조를 포함하는 동음이의어로 자동 대체가 수행되고 및/또는 오류 알림 메모리(4) 및 사용자 상호 작용 매니저(7)를 통해 오류 알림이 출력되는, 의미 패턴 인식을 위한 기계 번역 방법. - 청구항 1에 있어서,
백그라운드 노이즈가 있을 때 자연어의 자동 음성 인식으로부터의 훼손된 텍스트 및/또는 타이핑 오류, OCR 등을 포함하는 텍스트를 처리 및/또는 재구성하기 위해, 그리고 적어도 하나의 단어가 SS=0인 경우, 오류가 있는 단어들의 정확한 정서법에 의해 문장을 바꾸어 표현할 가능성들이 자동으로 체계적 산출되고, 이는 특히 "유사 음향(sounds-like)" 또는 "유사 외관(looks-like)" 방식 또는 유사한 검색 알고리즘에 따라 데이터베이스 시스템(1)의 데이터를 이용하여 수행되고, 이때 우선 관련 단어의 동음이의어와 유사한 단어들, 또는 대/소문자 철자, 억양 등을 포함하여 키보드 조작 시의 문자, 공백 탈자들 또는 통상적 타이핑 오류들에 상응하는 단어들에 대한 우선순위를 이용하는, 의미 패턴 인식을 위한 기계 번역 방법. - 청구항 14에 있어서,
교정 가능한 단어들의 의미-신호들을 이용하여, 문장 점수(SS)가 1인 문장들이 도출되는지의 여부가 검사되고, 사용자는 문장들을 우선순위를 갖는 (prioritized) 출력으로서 수득하고, 및/또는 사용자가 정한 시간 -예컨대 5초- 경과 후 유용한 적중 결과가 산출될 수 없을 때 프로세스가 중단되며(기준 = 초당 약 500~1000회의 시험-시도), 이때 상기 입력 문장은 교정을 위해 분석된 단어들의 정보로 태깅되고, 점수가 1이 아닌 문장들만 존재하는 경우, SW=0인 최소 단어들을 포함하는 문장들이 상기 태깅을 위해 우선순위를 갖게 되며, 이때 산출된 전체 결과는 오류 알림 메모리(4) 및 자동 번역 메모리(5)를 통해 사용자 상호 작용 매니저(7)에서 이용 가능하게 되는, 의미 패턴 인식을 위한 기계 번역 방법. - 청구항 1에 있어서,
데이터베이스에서의 검색을 위한 검색기를 위해, 상기 데이터베이스의 텍스트 내용은 "올바른 의미 검사"에 의해 태깅되고, 자동 태깅에 기반하여 자동으로 질의될 수 있는, 의미 패턴 인식을 위한 기계 번역 방법. - 청구항 16에 있어서,
검색 프로세스 전에, 그리고 비배타적으로 특히 문장 점수(SS)가 1이고 이에 상응하여 자동으로 태깅되었던 모든 문장들에서, 데이터베이스의 모든 단어들의 의미 신호들에 상응하여 자동 데이터베이스 갱신이 수행되는, 의미 패턴 인식을 위한 기계 번역 방법. - 청구항 17에 있어서,
동일한 언어 및 외국어의 모든 동의어들이 모든 유효한 어형변화에서 검색 (검색어와 동일한 의미 신호)에 자동으로 산입되는, 의미 패턴 인식을 위한 기계 번역 방법. - 청구항 1에 있어서,
복수의 검색어들을 사용할 때 검색어들의 연관 논리에 따라 의미-신호 적중 결과들의 조합이 수행되는, 의미 패턴 인식을 위한 기계 번역 방법. - 청구항 1에 있어서,
서면으로 규정된 주제에 대한 자연어 텍스트 형태를 갖는 진술문의 관련성에 대해 컴퓨터로 구현된 평가가 수행되되, 문장 점수(SS)가 1인 자동 취득된 문장의 경우 의미-신호들의 소정의 조합들 또는 패턴들을 이용하여 문장의 단어들의 의미-신호들이 비교 주제의 태깅된 단어들과 자동으로 비교되면서 수행되는, 의미 패턴 인식을 위한 기계 번역 방법. - 청구항 20에 있어서,
주제-규정의 의미 신호들과 입력 문장의 의미 신호들의 중첩에 대한 평가가 소정의 의미-변조 패턴을 이용하여 수행되고, 입력 문장의 문장 구조 내에서 논리적 연산자 및/또는 이접 접속사 및/또는 다른 순접 접속사(예컨대 "nicht(~이 아니다)", "auch(또한)", "oder(또는)", "immer(항상)", "nie(결코 ~이 아니다)", "selten(드문)", "aber nicht(하지만 ~하지 않는다)" 등)의 의미-신호들이 존재하는 것이 고려되는, 의미 패턴 인식을 위한 기계 번역 방법. - 청구항 1에 있어서,
컴퓨터 및/또는 "응답형 컴퓨터"와 사용자와의 자동 대화의 컴퓨터 구현 실행에 의해, 사용자의 구두 입력은 응답형 컴퓨터에 의해 텍스트로서 취득되고, 청구항 1에 따라 "올바른 의미 검사"를 이용하여 처리되는, 의미 패턴 인식을 위한 기계 번역 방법. - 청구항 22에 있어서,
입력 텍스트는 상기 응답형 컴퓨터에 의해 개별 문장들로 분할되고, 이러한 문장들 중에 어느 것이 진술문, 의문문, 감탄문 등인지가 자동으로 평가되되, 예컨대 통상적인 문장 부호, 예컨대 물음표, 아포스트로피, 느낌표, 대시선 등이 문장의 말미 및/또는 문장 내에 존재함으로써, 및/또는 통상적 문장 구조 및/또는 의도된 의미에 의해 평가되는, 의미 패턴 인식을 위한 기계 번역 방법. - 청구항 22에 있어서,
사용자의 진술문 및 의문문의 의미 신호들의 대조가 수행되되, 사용자가 상호 작용할 때 사용하는 자연어와 동일한 자연어에 존재하지만 반드시 그렇지는 않으며, 상기 응답형 컴퓨터의 기계 판독 가능한 텍스트 온톨로지의 진술문, 응답문, 표준 의문문의 태깅된 데이터베이스와 상기 의미 신호들이 매칭/일치되는 것에 따라 수행되며:
a) 사용자의 입력 문장들의 의미-신호들의 매칭-값들이 특정한 레벨을 초과할 때, 상기 응답형 컴퓨터의 컴퓨터 온톨로지를 이용하여, 매칭/일치값에서 각각 최고 등급의 응답문, 진술문 등이 사용 중인 컴퓨터 온톨로지로부터 식별되는 것,
b) 상기 응답형 컴퓨터에 의해, 사용자를 위한 구조화된 자동 응답이 생성되되, 상기 응답형 컴퓨터에 의한 컴퓨터 온톨로지와 관련한 사용자의 최고 등급 문장들이 종래 기술에 따른 음성 출력 시스템 및/또는 다른 감각 기관으로 감지 가능한 전송 방법을 통해 확인(confirm)됨으로써 생성되는 것,
c) 상기 응답형 컴퓨터의 컴퓨터 온톨로지의 최고 등급 응답문이 종래 기술에 따른 음성 출력 시스템 및/또는 다른 감각 기관으로 감지 가능한 전송 방법을 통해 제공되고, 상기 전송 방법은 사용자에게 요청에 따라 오로지 제어된 응답, 예컨대 "예" 또는 "아니오"만을 허용하는 것,
d) 응답형 컴퓨터에 의해 - 온톨로지의 특정한 규칙에 따라 사용자의 질문 의미에 적합하게 - 링크(link) 및/또는 다른 감각 기관으로 감지 가능한, 사용자가 수신하는 정보가 전송됨으로써, 사용자의 질문에 대한 보다 세부적인 정보가 검색 및/또는 판독되고 및/또는 이후 보다 선별된 질문을 상기 응답형 컴퓨터에 할 수 있으며, 이는 사용자가 여타의 경우에 사용자 판독 가능한 컴퓨터 온톨로지에서 일부의 고유 검색 활동을 들여서만 찾을 수 있는 것, 및
e) 의미-신호들의 매칭 값이 특정한 매칭 레벨 미만일 때, 상기 응답형 컴퓨터에서 선행 질문에 기반한 표준 대화가 검색되고, 이에 대해 사용자는 오로지 "예" 또는 "아니오"로만 응답할 수 있고, 및/또는 제어된 소정의, 특히 구두의, 문자 옵션, 청각적, 감각적, 또는 시각적으로 인지 가능한 옵션들의 언급에 의해 수행되고, 및/또는 상기 응답형 컴퓨터에서 인간의 개입이 필요한 시점의 자동 검출이 수행되되, 대화 중에 사용자의 구술상의 응답 및/또는 사용자의 데이터 입력 기기의 직접적 환경에서 카메라를 통한 사용자의 시각적으로 인지 가능한 응답에서 의미 신호 패턴들로부터 대화의 리던던시(redundancy) 또는, 분노나 성급함과 같은 내용 기반 패턴이 자동으로 평가됨으로써 수행되는 것
중에 적어도 하나의 단계가 수행되는, 의미 패턴 인식을 위한 기계 번역 방법. - 청구항 1에 있어서,
"올바른 의미 검사"를 이용하여 수행되는 컴퓨터로 구현된 확장 정서법 검사로서, 특히 자동 실행이 수행되나, 문장 점수가 0을 초과한 후 문장에 의미-신호들이 자체적으로 태깅되지 않으며, 이는 예컨대 의미론적 또는 논리적 부가 정보가 상기 문장에 반드시 태깅되지는 않고 텍스트가 오로지 정서법 오류에 대해서만 검사되고 사용자에 의해 상호 작용 방식으로 교정되는 것에 상당하는 것인, 의미 패턴 인식을 위한 기계 번역 방법. - 청구항 1에 있어서,
"올바른 의미 검사"를 이용하여, 예컨대 다중 할당된 키들을 포함할 수 있는 키보드 상에서 단어들을 타이핑할 때 컴퓨터로 구현된 단어 인식이 수행되고, 상기 단어들이 이러한 시점에 존재하는 맥락과 통사론에 최상으로 매칭되는 데이터베이스 시스템(1)으로부터의 단어들로 자동 완성되는, 의미 패턴 인식을 위한 기계 번역 방법. - 청구항 1에 따라 "올바른 의미 검사"를 이용하여 자연어의 문장들의 의미론적 암호화를 위한 컴퓨터 구현 방법에 있어서,
각각의 문장에서 "m"개의 단어들이 문법적/의미론적으로 적합하게 교체되고 및/또는 "n"개의 단어들이 문법적/의미론적으로 적합하게 부가되되, 상기 단어들의 직접적인 맥락 환경에 비해 상기 단어들은 적합한 의미-신호들을 가지며, 상기 단어들은, 삽입, 부정, 상대화 또는 생략에 의해 및/또는 데이터베이스 시스템(1)의 데이터베이스로부터 상기 단어들의 반의어 사용에 의해 상기 문장 의미가 실질적으로 변경될 수 있으나, 문장 점수는 변경되지 않음을 나타내고, 이는, "m">=1, 또는 "n">=0 인 경우 자동 변경 이후의 텍스트가 텍스트 생성 원본보다 의미론적/사실적으로 더 의미 없는 부가적 문장들을 포함하지 않는 점에 상당하는 것이고,
데이터 처리 장치에 의해 수행되는:
a) 고유의 의미 신호들을 가지거나, 자동 매칭된 의미 신호들이 자동으로 할당될 수 있는 고유 명사들 및/또는 날짜 정보들 및/또는 순수한 숫자들인 모든 문자 숫자식(alphanumeric) 연쇄들 및/또는 특히 사용자에 의해 미리 표기된 개별 단어들은 각각 코딩된 익명화된 키워드들로 교체되고, 상기 키워드들에는 익명성 정도에 맞게 축약된 의미 신호들이 자동으로 부가되는 것,
b) 사용자의 시작 문장들은 원본 순서를 고려하여 사용자의 시스템에 저장되고, 문장-변이형들 또는 익명화로서 구축된 모든 변동들의 로그 파일이 저장되되, 각각의 변동 및 유도 가능한 변동 내용과 텍스트의 각 문장에서의 위치가 기록되는 것,
c) "올바른 의미 검사"를 통해 사용자를 보조하되, 사용자가 사용하는 시스템 상에서 검색 가능하며 현재 텍스트와 상이한 텍스트 데이터베이스로부터, 암호화해야 할 입력 텍스트의 문장들과 의미론적으로 유사하지만 논리적으로 유사하지 않고 문장 점수(SS)가 1인 문장들을 식별하는 것을 보조하는 것,
d) 입력 텍스트에 걸쳐 문장 변이형 및 암호화해야 할 문장이 7개 미만으로 존재하는 경우, 원본 텍스트의 문장의 수를 최소 7개로 증대시키는 것,
e) 사용자의 시작 문장들과 자동으로 구축된 문장 변이형들인 "m"개의 종속 문장들을 포함하는 텍스트가 구축되는 것,
f) 기존 문장들의 순서가 확률적으로 스크램블링되고, 상기 스크램블링 전, 후에 명시적 순서 변경이 로그 파일에 부가되는 것,
g) 변경되진 않았으나 스크램블링된 텍스트 및 생성된 로그 파일이 있을 때, 사용자가 최초 입력한 원본 텍스트는 오류 없이 원본에 매칭되게 재구성될 수 있는 것, 및
h) 암호화된 텍스트의 잠재적인 시스템 쿼리는 개별 단어들 및 문장들에 태깅됨으로써, 상기 원본 텍스트의 재구성 후에 자동 번역 쿼리, 오류 알림 및 문장의 의미론적 정보가 서로 간에 자동으로 상쇄될 수 있어서, 상기 스크램블링으로 인하여 처음에 더 이상 맥락 내에 있지 않은 맥락 관련 정보 항목은 원본 텍스트에서 자동으로 재구성되고, 스크램블링되지 않은 텍스트에서 사용자 상호 작용이 필요하지 않았다면 상기 사용자 상호 작용 없이도 재구성되는 것
중에 적어도 하나의 단계가 수행되는, 의미론적 암호화를 위한 컴퓨터 구현 방법. - 삭제
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE102014001119 | 2014-01-28 | ||
DE102014001119.4 | 2014-01-28 | ||
PCT/EP2014/002111 WO2015113578A1 (de) | 2014-01-28 | 2014-07-29 | Verfahren zur automatischen sinnerkennung und messung der eindeutigkeit von text |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20160114668A KR20160114668A (ko) | 2016-10-05 |
KR102425917B1 true KR102425917B1 (ko) | 2022-07-26 |
Family
ID=51429239
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020167023610A KR102425917B1 (ko) | 2014-01-28 | 2014-07-29 | 자동으로 텍스트의 의미를 검출하고 텍스트의 일의성을 측정하기 위한 방법 |
Country Status (7)
Country | Link |
---|---|
US (2) | US10303769B2 (ko) |
EP (1) | EP3100174A1 (ko) |
JP (2) | JP2017511914A (ko) |
KR (1) | KR102425917B1 (ko) |
CA (1) | CA2938064C (ko) |
IL (1) | IL246990B (ko) |
WO (1) | WO2015113578A1 (ko) |
Families Citing this family (60)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9348812B2 (en) * | 2014-03-14 | 2016-05-24 | Splice Software Inc. | Method, system and apparatus for assembling a recording plan and data driven dialogs for automated communications |
US10019567B1 (en) * | 2014-03-24 | 2018-07-10 | Amazon Technologies, Inc. | Encoding of security codes |
WO2016147034A1 (en) * | 2015-03-19 | 2016-09-22 | Yandex Europe Ag | Method of and system for processing a text stream |
US9672206B2 (en) * | 2015-06-01 | 2017-06-06 | Information Extraction Systems, Inc. | Apparatus, system and method for application-specific and customizable semantic similarity measurement |
CA3008462A1 (en) | 2016-04-05 | 2017-10-12 | Thomson Reuters Global Resources Unlimited Company | Self-service classification system |
US10891421B2 (en) * | 2016-04-05 | 2021-01-12 | Refinitiv Us Organization Llc | Apparatuses, methods and systems for adjusting tagging in a computing environment |
US11217266B2 (en) * | 2016-06-21 | 2022-01-04 | Sony Corporation | Information processing device and information processing method |
US10318640B2 (en) * | 2016-06-24 | 2019-06-11 | Facebook, Inc. | Identifying risky translations |
DE102016114265A1 (de) | 2016-08-02 | 2018-02-08 | Claas Selbstfahrende Erntemaschinen Gmbh | Verfahren zum zumindest teilweise maschinellen Transferieren einer in einer Quellsprache abgefassten Wortfolge in eine Wortfolge einer Zielsprache |
US10834439B2 (en) | 2016-09-30 | 2020-11-10 | Rovi Guides, Inc. | Systems and methods for correcting errors in caption text |
US10380263B2 (en) * | 2016-11-15 | 2019-08-13 | International Business Machines Corporation | Translation synthesizer for analysis, amplification and remediation of linguistic data across a translation supply chain |
CN106650493B (zh) * | 2016-12-14 | 2019-08-02 | 咪咕文化科技有限公司 | 一种行为数据的获取方法和装置 |
US11151130B2 (en) * | 2017-02-04 | 2021-10-19 | Tata Consultancy Services Limited | Systems and methods for assessing quality of input text using recurrent neural networks |
JP7017027B2 (ja) * | 2017-03-17 | 2022-02-08 | 富士フイルムビジネスイノベーション株式会社 | 検索装置、検索プログラム、および検索システム |
KR102318502B1 (ko) * | 2017-03-20 | 2021-10-29 | 이베이 인크. | 대화 중 미션 변경의 검출 |
US10796088B2 (en) * | 2017-04-21 | 2020-10-06 | International Business Machines Corporation | Specifying a conversational computer agent and its outcome with a grammar |
US11468234B2 (en) * | 2017-06-26 | 2022-10-11 | International Business Machines Corporation | Identifying linguistic replacements to improve textual message effectiveness |
US10657327B2 (en) * | 2017-08-01 | 2020-05-19 | International Business Machines Corporation | Dynamic homophone/synonym identification and replacement for natural language processing |
CN109558303B (zh) * | 2017-09-25 | 2023-02-28 | 阿里巴巴集团控股有限公司 | 一种应用行为分析方法、装置及电子设备 |
CN110019994A (zh) | 2017-11-13 | 2019-07-16 | 阿里巴巴集团控股有限公司 | 数据加密、解密及查询方法、数据加密解密及查询装置 |
CN108763462B (zh) * | 2018-05-28 | 2021-11-12 | 深圳前海微众银行股份有限公司 | 平行语句库的更新方法、设备及计算机可读存储介质 |
KR102133825B1 (ko) | 2018-06-22 | 2020-07-16 | 서강대학교 산학협력단 | 단어자질을 강화한 음성 대화 방법 및 시스템 |
AU2018433736B2 (en) | 2018-07-23 | 2022-05-12 | Fujitsu Limited | Generating method, generating program, and information processing apparatus |
US10467344B1 (en) | 2018-08-02 | 2019-11-05 | Sas Institute Inc. | Human language analyzer for detecting clauses, clause types, and clause relationships |
US20220164678A1 (en) * | 2018-09-26 | 2022-05-26 | Entigenlogic Llc | Curing a deficiency of a knowledge database |
KR102219189B1 (ko) * | 2018-09-28 | 2021-02-23 | 주식회사 솔루게이트 | 버추얼 상담 시스템 및 이를 이용한 상담방법 |
KR102122560B1 (ko) * | 2018-11-22 | 2020-06-12 | 삼성생명보험주식회사 | 글자 인식 모델의 업데이트 방법 |
US11593561B2 (en) * | 2018-11-29 | 2023-02-28 | International Business Machines Corporation | Contextual span framework |
KR102299001B1 (ko) * | 2019-03-25 | 2021-09-07 | 김현진 | 문장의 중의성을 해결하고 생략된 문법 요소를 함께 표시하는 사용자 맞춤형 번역 방법 및 그 장치 |
US20220383148A1 (en) * | 2019-04-03 | 2022-12-01 | Entigenlogic Llc | Processing a contradiction in a knowledge database |
US11397731B2 (en) * | 2019-04-07 | 2022-07-26 | B. G. Negev Technologies And Applications Ltd., At Ben-Gurion University | Method and system for interactive keyword optimization for opaque search engines |
US11295080B2 (en) | 2019-06-04 | 2022-04-05 | International Business Machines Corporation | Automatic detection of context switch triggers |
CN110457713B (zh) * | 2019-06-19 | 2023-07-28 | 腾讯科技(深圳)有限公司 | 基于机器翻译模型的翻译方法、装置、设备和存储介质 |
CN110610000A (zh) * | 2019-08-12 | 2019-12-24 | 央视国际网络无锡有限公司 | 一种关键人名语境错误检测方法及系统 |
CN112449057B (zh) * | 2019-08-15 | 2022-07-29 | 腾讯科技(深圳)有限公司 | 消息的提示方法和装置、存储介质及电子装置 |
US11620535B2 (en) * | 2019-09-25 | 2023-04-04 | International Business Machines Corporation | Heuristic ideation |
CN110991196B (zh) * | 2019-12-18 | 2021-10-26 | 北京百度网讯科技有限公司 | 多义词的翻译方法、装置、电子设备及介质 |
CN111191459B (zh) * | 2019-12-25 | 2023-12-12 | 医渡云(北京)技术有限公司 | 一种文本处理方法、装置、可读介质及电子设备 |
US11316806B1 (en) * | 2020-01-28 | 2022-04-26 | Snap Inc. | Bulk message deletion |
CN112749251B (zh) * | 2020-03-09 | 2023-10-31 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、计算机设备和存储介质 |
WO2021207768A1 (en) * | 2020-04-10 | 2021-10-14 | Square Panda Inc. | Custom text generation based on skill profile |
CN111651973B (zh) * | 2020-06-03 | 2023-11-07 | 拾音智能科技有限公司 | 一种基于句法感知的文本匹配方法 |
CN111767733A (zh) * | 2020-06-11 | 2020-10-13 | 安徽旅贲科技有限公司 | 一种基于统计分词的文献密级甄别方法 |
WO2022043675A2 (en) * | 2020-08-24 | 2022-03-03 | Unlikely Artificial Intelligence Limited | A computer implemented method for the automated analysis or use of data |
US11687724B2 (en) * | 2020-09-30 | 2023-06-27 | International Business Machines Corporation | Word sense disambiguation using a deep logico-neural network |
KR102398980B1 (ko) * | 2020-10-23 | 2022-05-17 | 주식회사 아이브랩 | 사용자 특성에 따른 정보 데이터 변환 방법 및 장치 |
US11886794B2 (en) * | 2020-10-23 | 2024-01-30 | Saudi Arabian Oil Company | Text scrambling/descrambling |
CN112435651B (zh) * | 2020-11-20 | 2023-05-02 | 昆明学院 | 一种语音数据自动标注的质量评估方法 |
CN112560511B (zh) * | 2020-12-14 | 2024-04-23 | 北京奇艺世纪科技有限公司 | 台词翻译方法、装置及翻译模型训练方法、装置 |
KR102637025B1 (ko) * | 2021-03-26 | 2024-02-16 | 구글 엘엘씨 | 자동 음성 인식을 위한 다언어 리스코어링 모델들 |
US11823427B2 (en) * | 2021-06-24 | 2023-11-21 | Accenture Global Solutions Limited | Automatic artwork review and validation |
US12073180B2 (en) | 2021-08-24 | 2024-08-27 | Unlikely Artificial Intelligence Limited | Computer implemented methods for the automated analysis or use of data, including use of a large language model |
US12067362B2 (en) | 2021-08-24 | 2024-08-20 | Unlikely Artificial Intelligence Limited | Computer implemented methods for the automated analysis or use of data, including use of a large language model |
US11989507B2 (en) | 2021-08-24 | 2024-05-21 | Unlikely Artificial Intelligence Limited | Computer implemented methods for the automated analysis or use of data, including use of a large language model |
US11977854B2 (en) | 2021-08-24 | 2024-05-07 | Unlikely Artificial Intelligence Limited | Computer implemented methods for the automated analysis or use of data, including use of a large language model |
US11989527B2 (en) | 2021-08-24 | 2024-05-21 | Unlikely Artificial Intelligence Limited | Computer implemented methods for the automated analysis or use of data, including use of a large language model |
US11681878B2 (en) * | 2021-11-22 | 2023-06-20 | Ernst & Young U.S. Llp | Methods and apparatus for creating domain-specific intended-meaning natural language processing pipelines |
CN114218393A (zh) * | 2022-02-22 | 2022-03-22 | 北京新唐思创教育科技有限公司 | 数据分类方法、装置、设备和存储介质 |
DE102022128157A1 (de) | 2022-10-25 | 2024-04-25 | Bayerische Motoren Werke Aktiengesellschaft | Computerimplementiertes Verfahren zur Standardisierung von Teilenamen |
CN116882414B (zh) * | 2023-09-05 | 2023-11-07 | 深圳爱马奇科技有限公司 | 基于大规模语言模型的评语自动生成方法及相关装置 |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE4330847A1 (de) | 1993-09-11 | 1995-03-16 | Sel Alcatel Ag | Vorrichtung und Verfahren zur Datenverarbeitung |
US20020133347A1 (en) | 2000-12-29 | 2002-09-19 | Eberhard Schoneburg | Method and apparatus for natural language dialog interface |
US7184948B2 (en) | 2001-06-15 | 2007-02-27 | Sakhr Software Company | Method and system for theme-based word sense ambiguity reduction |
US6792323B2 (en) * | 2002-06-27 | 2004-09-14 | Openpeak Inc. | Method, system, and computer program product for managing controlled residential or non-residential environments |
US7302383B2 (en) * | 2002-09-12 | 2007-11-27 | Luis Calixto Valles | Apparatus and methods for developing conversational applications |
US8548795B2 (en) | 2006-10-10 | 2013-10-01 | Abbyy Software Ltd. | Method for translating documents from one language into another using a database of translations, a terminology dictionary, a translation dictionary, and a machine translation system |
US8145473B2 (en) * | 2006-10-10 | 2012-03-27 | Abbyy Software Ltd. | Deep model statistics method for machine translation |
BG66255B1 (en) * | 2007-11-14 | 2012-09-28 | Ivaylo Popov | Natural language formalization |
US8190423B2 (en) * | 2008-09-05 | 2012-05-29 | Trigent Software Ltd. | Word sense disambiguation using emergent categories |
US8260605B2 (en) | 2008-12-09 | 2012-09-04 | University Of Houston System | Word sense disambiguation |
WO2012000013A1 (en) | 2010-06-29 | 2012-01-05 | Springsense Pty Ltd | Method and system for determining word senses by latent semantic distance |
US8635059B2 (en) * | 2010-11-15 | 2014-01-21 | Google Inc. | Providing alternative translations |
US20140019443A1 (en) * | 2012-07-10 | 2014-01-16 | Venor, Inc. | Systems and methods for discovering content of predicted interest to a user |
US20140067731A1 (en) * | 2012-09-06 | 2014-03-06 | Scott Adams | Multi-dimensional information entry prediction |
-
2014
- 2014-07-29 JP JP2016549324A patent/JP2017511914A/ja active Pending
- 2014-07-29 CA CA2938064A patent/CA2938064C/en active Active
- 2014-07-29 WO PCT/EP2014/002111 patent/WO2015113578A1/de active Application Filing
- 2014-07-29 US US15/114,607 patent/US10303769B2/en active Active
- 2014-07-29 EP EP14757840.5A patent/EP3100174A1/de not_active Ceased
- 2014-07-29 KR KR1020167023610A patent/KR102425917B1/ko active IP Right Grant
-
2016
- 2016-07-28 IL IL246990A patent/IL246990B/en active IP Right Grant
-
2019
- 2019-05-16 US US16/414,051 patent/US11068662B2/en active Active
-
2020
- 2020-01-31 JP JP2020015540A patent/JP2020098616A/ja active Pending
Non-Patent Citations (2)
Title |
---|
Lim Beng Tat 외 4명, 'Primitive-Based Word Sense Disambiguation For SENSEVAL-2', 2001.1., pp103-106. 1부.* |
Nancy Ide 외 1명, 'Introduction to the Special Issue on Word Sense Disambiguation: The State of the Art', 1998. 3., pp1-40. 1부.* |
Also Published As
Publication number | Publication date |
---|---|
WO2015113578A1 (de) | 2015-08-06 |
CA2938064A1 (en) | 2015-08-06 |
US20190332670A1 (en) | 2019-10-31 |
JP2017511914A (ja) | 2017-04-27 |
US11068662B2 (en) | 2021-07-20 |
IL246990A0 (en) | 2016-09-29 |
KR20160114668A (ko) | 2016-10-05 |
US20160357731A1 (en) | 2016-12-08 |
IL246990B (en) | 2020-07-30 |
US10303769B2 (en) | 2019-05-28 |
EP3100174A1 (de) | 2016-12-07 |
JP2020098616A (ja) | 2020-06-25 |
CA2938064C (en) | 2024-05-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102425917B1 (ko) | 자동으로 텍스트의 의미를 검출하고 텍스트의 일의성을 측정하기 위한 방법 | |
US9633006B2 (en) | Question answering system and method for structured knowledgebase using deep natural language question analysis | |
Unger et al. | An introduction to question answering over linked data | |
WO2016050066A1 (zh) | 知识库中问句解析的方法及设备 | |
KR102256240B1 (ko) | 논팩토이드형 질의 응답 시스템 및 방법 | |
US20150081277A1 (en) | System and Method for Automatically Classifying Text using Discourse Analysis | |
US11068653B2 (en) | System and method for context-based abbreviation disambiguation using machine learning on synonyms of abbreviation expansions | |
JP2012069142A (ja) | 非ローマ文字および単語のスペル修正のためのシステムおよび方法 | |
WO2012134598A2 (en) | System for natural language understanding | |
CN111858894A (zh) | 语义缺失的识别方法及装置、电子设备、存储介质 | |
Lee | Natural Language Processing: A Textbook with Python Implementation | |
Yun et al. | Semantic‐based information retrieval for content management and security | |
Silva et al. | Xte: Explainable text entailment | |
Sharma et al. | Recognizing textual entailment using dependency analysis and machine learning | |
JP5882241B2 (ja) | 質問応答用検索キーワード生成方法、装置、及びプログラム | |
Mohler et al. | Applying textual entailment to the interpretation of metaphor | |
Kumar Kolya et al. | A hybrid approach for event extraction | |
CN111814456A (zh) | 一种基于动词的中文文本相似度计算方法 | |
Verhoeven et al. | Semantic classification of Dutch noun-noun compounds: A distributional semantics approach | |
Yesuf et al. | Amharic Word Sense Disambiguation Using Wordnet | |
Polpinij | Ontology-based knowledge discovery from unstructured and semi-structured text | |
Rassam et al. | Analyzing Textual Documents Indexes by Applying Key-Phrases Extraction in Fuzzy Logic Domain Based on A Graphical Indexing Methodology | |
Chen | Understanding mental states in natural language | |
Juric et al. | Reasoning with Textual Queries: A Case of Medical Text. | |
Ong | An architecture and prototype system for automatically processing natural-language statements of policy |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |