KR20010041069A

KR20010041069A - 공유 메모리 상호 접속을 구비하는 암호 처리기 및 그 방법

Info

Publication number: KR20010041069A
Application number: KR1020007009108A
Authority: KR
Inventors: 존스데이비드이; 오코넬코르막엠
Original assignee: 와그너 조오지 제이. 제이.; 모사이드 테크놀로지스 인코포레이티드
Priority date: 1998-02-27
Filing date: 1999-02-26
Publication date: 2001-05-15
Also published as: DE19983127T1; JP5025180B2; US6434699B1; JP5208174B2; WO1999044329A2; JP2006320014A; USRE44697E1; FR2778519A1; GB0021091D0; GB2350218B; WO1999044329A3; FR2778519B1; GB2350218A; US6088800A; CA2244337A1; KR100638189B1; JP2002505451A; JP3979786B2; CA2244337C; JP2011008285A

Abstract

암호 칩은 다양한 비밀 키 및 공개 키 암호 알고리즘을 처리하도록 프로그래머블하다. 상기 칩은 한 파이프라인의 처리 소자를 포함하고, 각각은 비밀 키 알고리즘 범위내의 한 라운드를 처리할 수 있다. 데이타는 이중 포트 메모리를 통해 처리 소자사이에 전송된다. 중앙 처리부는 단일 사이클로 글로벌 메모리로부터 광범위한 데이타 문자의 처리를 허용한다. 가산기 회로는 합계 및 복수의 사이클로 역으로 루프된 자리올림으로 복수의 상대적으로 작은 가산기 회로를 사용하여 단순화할 수 있다. 승산기 회로는 범용 중앙 프로세서 승산기로서 연결하기 위한 작은 처리 소자 승산기를 선택함으로써 처리 소자 및 중앙 프로세서 사이를 공유할 수 있다.

Description

공유 메모리 상호 접속을 구비하는 암호 처리기 및 그 방법{ENCRYPTION PROCESSOR WITH SHARED MEMORY INTERCONNECT}

인터넷이 출현하기 전에, 통합 데이타 네트워크는 전형적으로 공중 전화 회사로부터 리스된 전용 전기 통신선으로 구성된다. 상기 데이타 네트워크에 대한 하드웨어 구현은 매체에 대해 절대적 독점권을 갖는 규제된 공익 사업주인 상기 전화 회사가 배타권을 가지기 때문에, 보안은 큰 문제가 없었고, 즉 단일 공급업자는 계약으로 보안이 강제적으로 보장되고, 외부로부터 스위칭 네트워크로 접근이 불가능하여 외부 해킹 및 도청이 어려웠다.

현재, 점점 더 기업체는 인터넷의 가치를 발견해 가고 있으며, 인터넷 세계의 어떠한 다른 단일한 컴퓨터 네트워크보다 광범위하게 설치되어 다국적 기업 네트워크로 사용하기가 용이하다. 또한 인터넷은 컨슈머 레벨의 제품이기 때문에, 전용 전화 회사 네트워크에 의해 공급되는 동일한 서비스보다 상당히 저 비용으로 인터넷에 접근할 수 있다. 결론적으로, 인터넷에 대한 최종 사용자의 이용은 개인이 가정 또는 다른 원격지로부터 기업 네트워크로의 용이한 접근을 가능하게 할 수 있다.

그러나, 인터넷은 정밀한 조사에 의해 개방적인 개방 프로토콜, 대역 내 라우팅 및 콘트롤를 사용하여 공공회사에 의해 운영되고 있다. 이러한 환경은 해커들에게는 풍부한 시험장이 된다. 오늘날, 산업 스파이는 돈벌이가 되는 사업이며, 인터넷으로 사업을 행하는 기업은 그들 자신이 주의하지 않는 한 산업 스파이의 공격에 노출되게 된다.

오늘날, 수개의 표준이 프라이버시 및 인터넷 상에서의 강력한 인증을 위해 존재한다. 프라이버시는 암호/해독을 통하여 달성된다. 전형적으로, 암호/해독은 당사자 사이의 공개 채널로 데이타 전송을 허용함과 동시에 메시지 내용의 프라이버시를 유지하게 하는 알고리즘에 기초해서 수행된다. 이것은 전송자가 암호 키를 사용하여 데이타를 암호화하고, 수신자가 해독 키를 사용하여 해독함으로써 달성된다(때때로, 암호 및 해독 키는 동일하다).

암호 알고리즘의 형태

암호 알고리즘은 공개 키 및 비밀 키 알고리즘으로 분류될 수 있다. 비밀 키 알고리즘에서, 양쪽 키는 비밀인 반면에 공개 키 알고리즘에서는 상기 키 중 하나는 일반인에게 공지되어 있다. 블록 암호(block ciphers)는 현재 사용중인 비밀 키 암호 방식이 대표적이다. 보통, 블록 암호용 암호 키는 해독 키와 동일하다. 블록 암호는 입력으로 데이타 블록, 전형적으로, 32 내지 128 비트를 취하고, 출력으로서 동일한 비트를 발생한다. 암호 및 해독은 56 내지 128 비트 길이의 키를 사용하여 수행된다. 암호 알고리즘은 키를 알지 못하고 메시지를 해독하는 것이 어렵게 되어 있다.

블록 암호이외에도, 인터넷 보안 프로토콜은 또한 공개 키 알고리즘을 많이 사용하고 있다. 포그 및 리베스트에게 특허된 미국 특허 제5,144,167호에 기술되어 있는 리베스트(Rivest), 샤미르(Shamir), 아델만(Adelman)(RSA) 암호 방식과 같은 공개 키 알고리즘은 2 개의 키를 사용하며 그 중 하나는 공개되어 있다. 일단 누군가 키를 공개하는 경우에, 누구나 그 키를 사용하여 비밀 메시지를 그 사람에게 전송할 수 있다. 그러나, 메시지의 해독은 비밀 키의 사용에 의해 달성된다. 이러한 공개 키 암호의 장점은 모든 당사자의 대화 전에 비밀 키를 분배하여야 할 필요성이 없는 것이다. 그러나, 공개 키 암호가 사용되는 경우에도, 다수의 비밀 키가 발생되고, 각 당사자를 위해 하나의 메시지를 수신하고 각각의 비밀 키는 사적으로 통신되어야 한다. 사적으로 비밀 키를 통신하기 위한 시도는 비밀 키 암호를 사용하여 메시지를 전송하는 그 자체와 동일한 문제를 발생시키고 이것을 키 분배 문제라고 불린다.

키 교환은 공개 키 기술의 다른 응용이다. 키 교환 프로토콜에서, 대화를 제3자가 가로 챈다하더라도 2 명의 당사자는 비밀 키를 동의 할 수 있다. 디피-헬만(Diffie-Hellman) 지수 키 교환은 이러한 프로토콜의 예시로 미국 특허 제4, 200,770호에 기술되어 있다.

RSA 및 디피-헬만 키 교환과 같은 대부분의 공개 키 알고리즘은 모듈러 지수화를 기초로 하여, α^x모듈로 p로 계산된다.

이러한 표현은 "α그 자체를 x번 곱하고 그것을 p로 나누고 그 나머지를 취한다"는 의미이다. 이러한 계산은 후술되는 이유 때문에 수행하는 것은 고 비용이 든다. 이러한 연산을 수행하기 위하여, 많은 반복된 곱셈 및 나눗셈을 필요로 하고, Mathematics of Computation, vol. 44, No.170(1985년 4월)에 "Modular multiplication without trial division"으로 기술되어 있는 몽고메리 방법과 같은 기술을 사용하는 경우라도, 필요로 하는 나눗셈의 회수를 축소할 수 있다. 더우기, 사용된 숫자는 상당히 크며(전형적으로 1024 비트 이상), 공통 CPU에 알려진 곱셈 및 나눗셈 명령어를 직접 사용할 수는 없다. 대신에, 큰 곱셈과 나눗셈을 작게 하여 CPU에 실시될 수 있을 만큼 충분히 작은 연산으로 분해하는 특정한 알고리즘이 사용될 수 있다. 이러한 알고리즘은 보통 포함된 기계어의 개수의 제곱에 비례하는 런 타임을 가진다. 이러한 요소는 큰 숫자의 곱셈을 매우 느리게 연산한다. 예를 들어, 등록 상표 Pentium은 10 번의 클럭 사이클로 32×32 비트 곱셈을 수행한다. 2048 비트 수는 64 개의 32 비트 문자로 표시할 수 있다. 2048×2048 비트 곱셈은 64×64 번의 별도 32×32 곱셈을 필요로 하며, 이는 상기 펜티엄에서 40960 클럭을받아들이게 한다. 2048 비트 지수를 가진 지수화는 정상 방법으로 행해진 경우에 4096 곱셈을 필요로 하고, 1억 6천 7백만 클럭 사이클을 필요로 한다. 펜티엄이 166Mhz로 연산하는 경우에 전체의 연산은 대략 1초를 필요로 한다. 이러한 예시는 모두 나눗셈을 수행하기 위해 필요한 시간은 고려되지 않는다. 명백히, 펜티엄과 같은 일반적인 CPU는 임의의 큰 비율로 키 발생 및 교환을 할 수 없다.

공개 키 알고리즘은 계산이 매우 어렵기때문에, 전형적으로 전체의 메시지를 암호화하여 사용되지 않는다. 대신에, 개인 키 암호 방식은 메시지 전송용으로 사용된다. 개인 키는 메시지를 암호화하여 사용되고, 세션 키라 불리며, 공개 키를 사용하여 랜덤하게 선택되고 암호화된다. 암호 메시지는 물론 암호 세션 키는 다른 당사자로 전송된다. 다른 당사자는 비밀 키로 세션 키를 해독하기 위해 사용하고 메시지는 세션 키를 사용하여 해독될 수 있다. 다른 세션 키는 각각의 통신용으로 사용되고, 그 결과, 한 개의 세션 키가 알려진 경우에, 그것으로 해독한 단지 한 개의 메시지를 판독할 수 있다. 이러한 공개 키/ 개인 키 방법은 또한 정상 연산으로 종결되지 않는 쌍방향 단자 세션과 같은 연속적인 통신을 보호하기 위하여 사용될 수 있다. 이러한 경우에, 세션 키는 공개 키 발생 기술을 반복함으로써 주기적으로(예컨대, 1시간 당) 변화한다. 또한, 상기 세션 키의 빈번한 변화는 암호가 알려진 경우에 합의되는 데이타의 양을 제한한다.

종래 기술

네트워크급 암호 장치는 소프트웨어를 기초로 한 솔루션을 사용하여 네트워크를 통합하기 위한 접근을 허용하면서 광범위하게 사용되고 있다. 랩터 이글 리모트(Rapter Eagle Remote) 및 다른 종류와 같은 제품은 소프트웨어로 전반적으로 암호를 수행한다. 소프트웨어는 암호기의 처리량을 제한한다. 공개 키 기술을 사용하는 세션 키 발생은 수분이 걸릴 수 있다. 이러한 이유로, 세션 키는 소수 사람들이 좋아하는 만큼 재생되지 않는다. 그러나, 소프트웨어는 암호 알고리즘에 대한 기술의 진보에 대응하여 용이하게 변화되는 장점이 있다.

다른 장치는 하드웨어 및 소프트웨어의 조합으로 사용된다. 예를 들어, 노던 텔레콤(현 인트러스트) 센티넬X.25 제품은 DES 비밀 키 암호를 실시하기 위해 AMD에 의해 생산된 DES 칩을 사용한다. DES의 하드웨어 구현은 충분히 빠르며, 그 이유는 DES가 하드웨어로 효율적으로 구현할 수 있도록 설계되어 있기 때문이다. 소프트웨어로 많은 CPU 명령어를 취하는 전치(transposition)는 병렬의 특정 목적 조사표 및 배선을 사용하여 행할 수 있다.

상기 센티넬은 또한 공개 키 연산을 실시하기 위해 모토로라 DSP56000 프로세서를 사용한다. 이때, 상기 DSP의 단일 사이클 곱셈 능력은 보통 CISC 마이크로프로세서의 공개키 알고리즘을 구현하는 것보다 빠른 접근을 만들 수 있다.

대부분의 하드웨어 암호 장치는 실시할 수 있는 수개의 알고리즘으로 제한된다. 예를 들어, 센티넬에 사용된 AMD 칩은 DES만을 수행한다. Hi/Fn으로부터의 최근 장치는 DES 및 RC4를 수행할 수 있다. 그러나, RC5 또는 IDEA를 실시할 필요가 있는 경우에, 다른 제품을 사용할 필요가 있다.

본 발명은 고 성능 네트워크 암호 장치에 관한 것으로, 특히 하드웨어 및 소프트웨어로 구성되는 암호 장치에 관한 것이다.

본 발명의 전술한 목적 및 다른 목적, 특징, 장점은 본 발명의 바람직한 실시예에 대한 후술하는 좀더 상세한 기술과 다른 모습 전체에 동일한 부분의 참조 문자로 첨부된 도면으로 명백해질 것이다. 도면은 축척이 없지만 본 발명의 특징을 설명하는 데 목적을 두고 있다.

도 1a 및 도 1b는 본 발명의 잠재적인 응용에 대한 블록도.

도 2는 본 발명이 포함하는 암호 칩에 대한 블록도.

도 3은 도 2 암호 칩의 처리 소자에 대한 블록도.

도 4는 도 2 및 도 3의 회로에 대한 바람직한 칩 설계를 나타내는 도면.

도 5는 도 4의 설계에 대응하도록 재도시된 도 3 에 대한 처리 소자를 나타내고 PE 국부 버스 및 글로벌 버스 접속을 나타내는 도면.

도 6은 도2 의 PK ALU로 사용된 가산기 회로를 나타내는 도면.

도 7은 PK ALU의 승산기로 사용된 전체 가산기 기호를 나타내는 도면.

도 8은 전 가산기를 사용하여 4×4 승산기의 제1단으로 처리를 나타내는 도면.

도 9는 3 단의 4×4 승산기를 나타내는 도면.

도 10은 4×4 승산기의 가산기 위에 놓여진 범용 승산기의 가산기를 나타내는 도면.

도 11은 도 10의 범용 문자 길이 승산기로 유사 승산기에 연결되어 선택된 4×4 승산기에 대한 블록도.

도 12는 전 가산기를 사용하는 8 비트 가산기에 대한 종래의 구현을 나타내는 도면.

도 13은 자리올림 선독 가산기에 대한 종래의 실시를 나타내는 도면.

도 14는 DES 암호 라운드를 나타내는 블록도.

도 15a 내지 15d는 본 발명의 실시예에 따른 모듈러 덧셈, 뺄셈, 조정 및 3 가지 연산 모두의 조합을 나타내는 기능도.

단일 칩 위에 집적화된 바람직한 고성능 프로그래머블 네트워크 암호 장치는 명령어 세트가 공통의 암호 알고리즘으로 최적화되는 병렬 파이프라인된 프로세서 시스템이다. 본 발명은 하드웨어 및 소프트웨어의 문제 해결로서 그 장점을 달성하고 있다. 프로세서가 프로그래머블 프로세서이기 때문에, 어떠한 알고리즘도 실시될 수 있고, 반대로 하드웨어는 단지 하나의 알고리즘을 실행하도록 된 암호 프로세서를 장착하고 있다. 그러나, 프로세서의 설계는 암호를 위해 유용한 병렬 계산을 허용하므로 그 성능은 전용 하드웨어 장치의 성능에 근접한다.

본 발명의 바람직한 실시예에 따르면, 전자 암호 장치는 처리 소자 배열을 포함한다. 각각의 처리 소자는 한 라운드의 암호 알고리즘을 저장하기 위한 명령어 메모리를 포함하고, 상기 라운드는 일련의 명령어를 포함한다. 상기 처리 소자는 또한 명령어 메모리로부터의 상기 라운드를 실시하기 위한 프로세서와 상기 라운드의 실시로부터 발생한 암호 데이타 연산수 및 암호 데이타를 저장하기 위한 데이타 스토리지를 포함하고 있다. 각각의 처리 소자 배열은 라운드 중 하나를 실시하고 상기 배열의 처리 소자가 처리 소자 파이프 라인으로 연속 라운드의 암호 알고리즘을 실시하도록 결과를 연속 처리 소자로 전송한다.

바람직한 실시예로, 상기 데이타 스토리지는 선형 배열의 인접 처리 소자 사이의 데이타 전송을 위해 선형 배열의 인접 처리 소자 사이에 공유되는 것의 일부를 구비하고 있다. 상기 공유 데이타 스토리지는 이중 포트 메모리를 구성하지만 또한 공유 레지스터를 포함한다.

바람직한 처리 소자는 제어부 및 ALU를 포함한다. 국부 데이타 메모리 및 공유 데이타 메모리를 포함하여 상기 제어부, 명령어 메모리 및 데이타 스토리지는 국부 처리 소자 데이타 버스에 접속된다. 상기 국부 버스는 스위치에 의해 상기 제어부 및 명령어 메모리가 접속되는 국부 명령어 버스 세그먼트로 세그먼트되고, 국부 명령어 버스 세그먼트는 상기 ALU, 국부 데이타 메모리 및 공유 데이타 메모리에 접속된다. 상기 스위치는 2 개의 국부 버스 세그먼트로 독립한 동시 연산 또는 2 개의 버스 세그먼트 사이의 통신을 허용한다. 각각의 처리 소자는 상기 처리 소자 내의 곱셈 연산을 실시하기 위한 승산기를 더 포함한다.

바람직한 암호 장치는 데이타가 글로벌 어세스 메모리 및 처리 소자 데이타 스토리지 사이에 전송됨을 통해 글로벌 랜덤 어세스 메모리 및 글로벌 버스를 더 포함한다. 중앙 처리기는 처리 소자에 의해 처리된 데이타 문자보다 광범위한 데이타 문자를 처리하기 위한 글로벌 버스에 접속된다. 복수의 처리 소자에 대한 상기 승산기는 중앙 처리기에 의해 사용된 범용 승산기의 세그먼트로서 연결하기 위해 선택될 수 있다. 바람직하게는, 각각의 승산기는 개별의 승산기로서 연산하는 경우에 제1 세트의 입력을 선택하기 위한 입력 선택 회로를 구비하는 부분 곱셈 가산기를 포함하고, 제2 세트의 입력은 연결된 경우에 인접 처리 소자로부터의 입력을 포함한다.

바람직하게, 상기 중앙 처리기는 신규의 가산기를 포함한다. 가산기로, 각각의 상기 복수의 가산기 세그먼트는 자리올림 출력 및 합계 출력을 구비하고 각각의 가산기 세그먼트는 2 개의 연산수에 대한 세그먼트를 처리한다. 선택기는 연속적인 가산기 세그먼트에 자리올림 입력으로서 자리올림 출력을 선택하고 임의의 자리올림이 연산기 사이클로 발생하는 경우에 연속적인 클럭 사이클을 위해 자리올림 출력을 선택한다. 선택기는 또한 임의의 자리올림이 가산기 사이클로 발생하는 경우에 연속적인 클럭 사이클을 위해 동일한 가산기 세그먼트에 연산수 입력으로서 각각의 합계 출력을 선택한다. 따라서, 임의의 자리올림이 가산기 사이클로 발생하는 경우에, 가산기의 합계 출력은 입력으로 피드백되고 가산기 세그먼트는 이전 사이클로 이전 세그먼트로부터의 자리올림 출력으로서 발생된 자리올림 입력을 수신한다.

바람직하게는, 각각의 처리 소자는 구동 회로 없이 M 모듈로 N으로 계산하도록 모듈러 조정 연산을 수행한다. 각각의 처리 소자는 또한 A ±B 모듈로 N으로 계산하도록 모듈로 덧셈 또는 뺄셈 연산을 수행한다. 더우기, 각각의 처리 소자는 A ×B 모듈로 N으로 계산하도록 모듈로 곱셈 연산을 수행한다.

본 발명의 암호 칩은 임의의 응용으로 하나 또는 그 이상의 데이타 스트림의 공통 데이타 암호 및 해독 알고리즘을 수행하도록 프로그램되어 있다. 암호 칩의 주요한 목적은 알고리즘을 사용하여 100-2000 Mbps의 데이타율로 인터넷의 사용이 예상되는 고속 데이타 암호를 실시하는 것이다.

실시예 응용은 도 1a 및 도 1b에 나타내고 있다. 도 1a로, 소스(22)로부터의 데이타는 데이타가 공중 네트워크(26)로 통과하기 전에 암호 칩(24)으로 암호화된다. 이후 데이타는 목적지(30)에 전송되기 전에 암호 칩(28)으로 해독된다. 한 실시예로, 소스 및 목적지는 지역 네트워크(LAN)와 같이 그 자체가 네트워크된다. 이러한 경우에, 암호 칩은 지역 네트워크 및 공중 네트워크(26) 사이를 보안 경로로 제공한다.

도 1b에 도시된 링크 암호 응용으로, 라우터 사이로 각각의 링크 범위 내로 전송된 데이타는 암호화된다. 이 경우에, 링크 사이의 라우터(32)에서 수신된 암호 데이타는 먼저 암호 칩(34)으로 해독되고, 상기 데이타는 암호 칩(36)으로 다음 링크의 암호 알고리즘에 따라 재 해독된다.

3 개의 주요한 비밀 키 블록 암호 알고리즘은 DES, RC5 및 IDEA로 공통적으로 사용된다. 첫째 2 개의 알고리즘은 표준 인터넷 프로토콜 보안(IPSEC) 표준 알고리즘이다. IDEA는 인기 있는 e 메일 암호 프로그램, PGP에 의해 사용된 알고리즘이다.

전형적으로, 블록 알고리즘은 수개의 라운드로 구성되어, 각각의 라운드는 암호 알고리즘으로 일련의 연산이다. 8-32 라운드로부터 어디서나 암호 알고리즘을 완벽하게 실시하는 하는 것을 필요로 한다. 각 라운드에 의해 수행된 연산은 필요한 경우는 아닐지라도 종종 동일하다. 소프트웨어로, 각각의 라운드는 수개의 기계 명령어로 실시된다. 하드웨어로, 각각의 라운드는 전용 회로로 실시된다. 하드웨어는 전형적으로 파이프라인되어 각각의 라운드는 그 자체의 파이프라인 단으로 실시된다.

도 2는 집적 칩 솔루션을 나타내고, 본 발명의 실시에 따른 암호 칩에 대해 설명한다. 칩에 내재된 암호 칩은 암호를 실시할 수 있는 경우에도, 칩이 암호 및 메시지 요약 기능도 수행하도록 되어 있다.

데이타는 입력단(40)을 통해 암호 칩에 입력하고 네트워크 데이타, 전형적으로 직렬 비트 스트림을 수신한다. 에더넷, ATM, 또는 다른 직렬 포맷을 사용될 수 있다. 입력단은 암호/해독 파이프라인의 입력으로서 처리하기 위해 적절한 직렬 데이타 스트림을 블록 배열 데이타로 변환한다. 입력 블록의 크기는 프로그래머블하다. 도 2의 바람직한 실시예로, 파이프라인은 선형 배열로 배치된 복수의 처리 소자(37)로 구성되고, 각각은 명령어 메모리, 레지스터 파일, ALU, 국부와 공유 데이타 메모리 및 제어 회로를 포함한다. 각각의 처리 소자는 32 비트 범용 데이타 문자를 처리하기 위해 설계되어 있다. 암호 데이타는 파이프라인으로 마지막 처리 소자로부터 출력단(42)으로 수용되고, 블록 데이타는 직렬 스트림 포맷으로 다시 변환되고 네트워크 또는 국부 목적지에 대해 데이타를 전송한다.

데이타는 글로벌 데이타 버스(38)를 경유하여 암호 칩 내의 비인접 처리 소자 및/또는 다른 소자로 전송될 수 있다. 또, I/O 통신 로직(54)은 글로벌 데이타 버스(38)에 접속되고, 호스트 CPU(도시 안됨)와 통신이 허용된다. 호스트 CPU 통신은 사용에 앞서 암호 칩을 프로그램할 필요가 있다. 글로벌 랜덤 어세스 메모리(RAM, 44)는 또한 글로벌 데이타 버스(38)에 접속되고 처리 소자 사이의 글로벌 통신을 허용한다. 제어 CPU(52)는 암호 파이프라인 프로세서의 연산을 동기화한다. 이러한 CPU는 MIPS, ARM 또는 ARC와 같은 가용 CPU 코어를 사용하여 실시될 수 있다. 더우기, 공개 키 암호 알고리즘, 공개 키(PK) 코어 프로세서(46)와 같은 범용 연산수를 사용하는 알고리즘의 처리를 허용하기 위해, 공개 키(PK) 코어 프로세서(46)는 제어 CPU(52)에 접속된다. 공개 키(PK) 코어 프로세서(46)는 PK ALU(50)은 물론 8 내지 16 개의 512 비트 범용 레지스터로 구성되는 레지스터 파일(48)을 포함한다. 공개 키(PK) 코어 프로세서(46)는 한 시스템 클럭 사이클로 512 비트 버스에 대해 글로벌 RAM(44)로부터 및 RAM으로의 데이타 전송을 만들 수 있다. 512 비트 연산수는 ALU(50), 전형적으로 2 내지 32 클럭 사이클로 처리된다. PK 코어 ALU(50)는 로드 및 저장에 따라 산술 및 로직 연산을 수행하는 제어 CPU(52)에 의해 제어되는 코프로세서이다. PK 알고리즘을 실시하기 위해 필요한 다른 명령어는 제어 CPU(52) 내에서 실행할 수 있다.

암호 칩은 파이프라인의 별개 처리 소자로 비밀 키 알고리즘의 각 라운드를 위한 코드를 실시한다. 일단 계산이 되면, 한 개의 PE로부터의 데이타는 다음 라운드가 실시될 다음 PE로 전송된다. 첫째 PE는 이후 들어오는 데이타의 다음 블록을 위한 암호 라운드 처리가 자유롭다. 파이프라인 방법은 잔여 PE을 위해 계속된다. 이 설계를 사용하여 블록을 암호화하기 위해 필요한 시간은 한 라운드를 암호화하기 위해 필요한 시간과 같다.

많은 블록 알고리즘은 데이타를 암호화하기 위한 한 세트의 연산과 키를 확장하기 위한 별개의 세트의 연산을 사용한다. 키 확장은 상대적으로 작은 키(56 내지 128 비트)를 통계적으로 랜덤한 성질을 가진 큰 수(512 비트 이상)로 변환되는 방법이다. 이러한 확장 키는 보다 작은 서브키로 분배되고, 확장 키의 다른 부분은 각 라운드를 위해 사용된다. 확장 키는 데이타를 변화시키지 않음에 주의하는 것이 중요하다. 그러므로, 임계 경로가 아니기 때문에, 미리 계산되고 메모리에 저장된다. 후술될 샘플 코드는 키 정보가 미리 계산되고 각 PE의 국부 데이타 메모리에 저장된다.

블록 알고리즘의 기초적 응용은 한 블록의 평문(암호화되지 않은 정보)을 유사 크기 블록의 암호문(암호화된 정보)등으로 변환한다. 이러한 연산 모드는 전자 코드북 모드(ECB)로 공지되어 있다. 많은 고유의 보안 약점에 기인하여, 피드백을 몇 개의 기초 출력을 입력으로 되돌리는 사이클링에 의한 암호로 도입하는 방법을 공통적으로 사용된다. 암호 칩은 암호 피드백(CFB)을 수행하기 위해 글로벌 데이타 버스(38)를 사용한다. ECB 모드에서, 새로운 블록의 데이타는 파이프라인 사이클 당, 10 내지 100 개의 명령어로 암호화 할 수 있다. 그러나, CFB 모드에서, 각각의 데이타는 파이프라인을 통해 다수의 시간을 통과해야 한다. 이러한 모드는 실질적으로 단일 채널의 스루풋으로 축소한다. 그러나, 피크 성능은 파이프라인으로 인터리브된 다수의 데이타 채널을 암호화함으로써 달성될 수 있다.

본 발명의 실시예에 따른 별개의 처리 소자(PE)의 블록도가 도 3에 도시된다. 처리 소자(37)는 8 내지 16 개의 32 비트 레지스터로 구성된 레지스터 파일(58)로부터 32 비트 문자로 연산하는 ALU(56)로 구성한다. 레지스터 파일(58) 및 ALU(56)은 처리 소자 명령어 메모리(62)로부터의 명령어를 해독하는 제어부(60)에 의해 제어된다. 각각의 처리 소자 명령어 메모리는 적어도 하나의 라운드의 암호 알고리즘에 저장하고, 한 개의 라운드는 암호 알고리즘으로 일련의 명령어로 정의된다. 각각의 처리 소자에 의해 접근 가능한 PE 데이타 메모리 공간은 모든 PE에 접근 가능한 도 2를 참조로 기술된 바와 같이 국부 PE 메모리(64, 도 3에 PE_n국부 메모리로 설계됨), 공유 메모리(66, 도 3에 n 및 n-1 번째 처리 소자사이에 공유된 PE_{n, n-1}공유 메모리로 설계됨), 제2 공유 메모리 (68, 도 3에 n+1 및 n 번째 처리 소자사이에 공유된 PE_{n+1, n}공유 메모리로 설계됨) 및 글로벌 메모리(44)의 4 개의 영역으로 나누어진다. 모든 이러한 메모리는 처리 소자의 어드레스 공간, 말하자면 n번째 처리 소자로 맵핑된다. 어떠한 형의 메모리에 접근하기 위한 특정한 명령어는 필요로 하지 않는다. 모든 메모리는 모든 메모리 어세스 명령어에 의해 접근 할 수 있다.

처리 소자의 메모리(66 및 68)는 이중 포트 SRAMs이고 각각 이전 및 다음 파이프라인 단의 PE와 공유된다. PE의 다음 이웃 메모리는 다음 PE의 이전 이웃 메모리와 동일하다.

이러한 이중 포트 SRAMs는 파이프라인 단을 통해 데이타를 전송하도록 사용된다. 한 개의 처리 소자는 관련된 다음 이웃 공유 메모리로 전송된 데이타를 기입한다. 이후 다음 이웃 처리 소자는 이전 이웃 공유 메모리로부터 저장된 데이타를 판독하고, 전술한 바와 같이 이전 처리 소자의 다음 이웃 공유 메모리와 동일하다.

메모리가 이중 포트이기 때문에, 접근의 제약 시간은 없다. 접근의 동기화는 소프트웨어 작성자 또는 컴파일러에 의해 기계 명령어의 정적 스케줄을 사용하여 수행된다. 더우기, 글로벌 버스는 이웃 PEs 사이에 통신하기 위해 사용되지 않기 때문에, PEs는 모두 동시에 통신할 수 있다.

글로벌 메모리(44)는 글로벌 통신 버스에 접속된다. 단 하나의 처리 소자는 이때에 글로벌 메모리(44)에 접근하도록 허용된다. 이러한 메모리는 예컨대, 피드백 암호 알고리즘 중 비인접 처리 소자사이의 데이타를 통과하도록 사용되고, 개개의 처리 소자를 위한 보충 스토리지로서 적용할 수 있다.

PE 명령어 메모리(62)는 현대의 RISC 프로세서 집적부와 유사한 명령어 세트를 가지고 있다. 명령어 세트는 임의의 레지스터가 임의의 명령어로 연산수로서 사용될 수 있다는 점에서 다소 수직하다. 부동점 또는 메모리 경영 지원은 제공될 필요가 없고, 그 이유는 둘다 암호로 유용하지 않기 때문이다. 그러나, 명령어 세트는 모듈러 덧셈/뺄셈 명령어, 모듈러 곱셈 명령어 및 모듈로 조정 명령어로 후술하는 유용한 향상을 포함한다.

모듈러 덧셈/뺄셈 명령어는 A ±B 모듈로 N으로 계산한다("M 모듈로 N"은 M을 N으로 나누는 경우에 나머지이다). 도 15a 내지 15d는 모듈러 덧셈, 뺄셈 및 조정의 조합을 한 개의 3-in-1 모듈로 산술부로 설명한다.

도 15a는 모듈로 덧셈 연산을 설명한다. 더해지는 2 개의 수, A 및 B 모두가 N 보다 작은 경우에, 가산기(120)로부터의 합계는 감산기(122)로 N을 감산함으로써 모듈로 N으로 축소될 수 있고, 이후 멀티플렉서(MUX, 124)를 통한 선택은 부호 차이에 의존하는 감산기 또는 초기 숫자의 출력이다. 유사하게, 도 15b에 도시한 바와 같이 모듈러 감산 연산의 경우에, 2 개의 수 A 및 B가 N 보다 작다면 그 차이 모듈로 N은 감산기(128)로부터의 차이가 음인 경우 가산기(126)로 N을 더함으로써 또는 그 차이가 양인 경우 멀티플렉서(130)를 통해 차이를 선택함으로써 계산될 수 있다. 모듈로 덧셈 및 뺄셈은 나눗셈을 필요로 하지 않는다. 그러나, 직렬로 2 개의 덧셈을 필요로 한다(합계/차이를 계산하기 위한 것 및 모듈로 N을 축소하기 위한 것). 중복 덧셈을 임계 경로에 영향을 주는 경우에, 축소 모듈로 N은 "모듈로 조정" 명령어라 불리는 별개의 명령어로서 암호화할 수 있다.

도 15c에 도시한 모듈로 조정 명령어는 M 모듈로 N으로 계산하고, M은 A 및 B의 합계 또는 차이로 주어지고 이미 모듈로 N으로 축소된다. M이 음인 경우에, 로직(132)은 가산기/감산기(134)로 하여금 멀티플렉서(136)를 통해 결과를 발생하는 N에 M을 더하도록 한다. M이 양인 경우에, 로직(132)은 N의 감산을 발생하고 양인 경우에 차이 또는 차이가 음인 경우에 M을 리턴한다. 이 명령어는 불필요한 모듈로 덧셈/뺄셈 명령어를 부여하기 위해 합계 및 차이 명령어를 병행하여 사용될 수 있다.

도 15d로, 3-in-1 산술부는 모듈로 덧셈, 모듈로 뺄셈, 모듈로 조정을 각각의 처리 소자 내로 실시된 단일 단위로 조합한다. 명령어에 응답하는 로직(144)의 제어(모듈러 덧셈, 모듈러 뺄셈 또는 모듈러 조정) 및 가장 중요한 비트(MSB) 부호 입력, 가산기/감산기(138)는 장치(120 및 128) 모두의 기능을 적용하고, 가산기/감산기(140)는 장치(122, 126 및 134)의 기능을 적용한다. 멀티플렉서(142)는 장치(124, 130 및 136)에 대응한다. 모듈로 조정 연산으로, M은 A 입력으로 적용되고 B 입력은 영으로 설정된다. 이러한 조합부는 속도 비용 영역에서 가장 효율적이다. 이러한 조합부는 또한 "Mathematics of Computation, vol. 44, No.170 pages 519-521(1985년 4월)에 Peter L. Montgomery에 의해 게재된 "Modular multiplication without trial division"에 트라이얼 나눗셈 없는 모듈로 곱셈을 위한 몽고메리 방법을 실시하는 데 유용하다.

모듈러 덧셈 및 뺄셈을 단지 2 내지 3 개의 명령어를 사용하여 종래의 프로세서로 수행할 수 있는 경우에도 암호 칩 명령어 설정의 주요한 기능으로서 이러한 명령어의 포함은 특정한 경우의 암호 알고리즘을 위해 약간의 능률 촉진을 제공한다.

모듈로 곱셈 명령어는 A*B 모듈로 N을 계산한다. 이러한 명령어를 위해 사용된 승산기는 후술된다. 암호 칩은 전체 모듈러 곱셈 명령어를 제공하고, 그 이유는 후술될 것이다.

표 1은 차후의 실시예에 사용된 PEs의 명령어 세트의 대표적 샘플이다. 다른 종래의 RISC 명령어는 또한 실시될 것이다.

샘플 명령어 세트

명령어	설명
load rn,addrstore rn,addr	레지스터 n을 메모리에 로드한다.레지스터 n을 메모리에 저장한다.
xor r1, r2, r3add r1, r2, r3rol r1, r2, r3	r1=r2 xor r3r1= r2 + r3r1= r2 ＜＜＜ r3 (＜＜＜는 회전 명령어를 위한 자바 오퍼레이터이다. 32 비트 연산수를 위해 비트 31은 비트 위치 0로 회전한다.)
xor r1, addradd r1, addrrol r1, addr	r1=r1 xor memory[aadr]r1=r1+memory[aadr]r1=r1＜＜＜memory[aadr]
moda r1, r2moda r1, addr	모듈로 조정 : r1=r1 모듈로 r2, r1은 모듈로 덧셈 또는 r1=r1 모듈로 memory[addr]을 곱한 결과이다.
mul r1, r2, r3mulm r1, r2, r3, r4	곱셈 : r1=r2×r3, 32비트 실행.모듈로 곱셈 : r1=r2×r3 모듈로 r4
jump labelsync label	무조건 제어를 라벨로 전송파이프라인 싱크 : 모든 PEs는 "sync" 명령어에 도달될 때까지 기다리고, 그후 라벨로 분기함.
Dbra rn, label	rn=rn-1;rn!=0인 경우에 라벨로 점프
cbra r1 cond r2,label	비교 및 분기 : 조건이 참인 경우에 r1 및 r2를 비교하고 라벨로 분기. "Cond"는 ==, !=, ＜, ＞, ＜= 또는 ＞=중 하나이다.

설계 문제

암호 칩의 일반적인 설계는 도 4에 도시되고, 16 개의 처리 소자 및 512 비트 범용 공개 키 PK 코어부를 가지고 있다. 512 비트의 PK 코어 문자 폭은 설계 편의에 기인하여 선택된다. 예를 들어, 1024 비트의 폭은 더 많은 실리콘 영역을 필요로 하지만 2 배의 성능이 있다.

개개의 소자는 도 2 및 도 3의 소자와 비교될 수 있다. 16 개의 처리 소자는 도시한 바와 같이, 좌측 하부에 설계의 대면적에 열로 선형 배열 된다. 공유 승산기 소자(70)는 후술하는 처리 소자와 관련하여 도시된다. 전술한 바와 같이, 32×32 승산기 세그먼트(70)는 각각의 처리 소자 내의 32 비트 곱셈을 실시하기 위한 각각의 처리 소자와 관련되어 있다. 한편, 승산기 소자(70)는 공개 키 ALU(50)를 위해 범용 512×32 비트 승산기로서 적용하도록 연결된다. 공개 키 PK ALU(50)는 비밀 키 SK 소자의 오른쪽에 위치하고 전술한 처리소자로 구성되어 있다. 공개 키 PK ALU(50) 옆에는 PK 레지스터 파일(48)이 있다. 더불어, 공개 키 PK ALU(50) 및 PK 레지스터 파일(48)은 PK 처리 코어를 구성하고 도 2에 46으로 도시되어 있다. PK 코어의 오른쪽에는 글로벌 메모리(RAM)가 위치하고 있다. 칩 위쪽을 따라 제어 CPU(52), 통신 로직(54)과 입력 및 출력 처리 블록(40 및 42)이 있다. 글로벌 데이타 버스(38)는 SK 소자, PK 코어(46), 글로벌 RAM(44), 통신 로직(54) 및 제어 CPU(52)를 링크한다.

국부 버스 접속을 가진 전형적인 처리 소자의 설계는 도 5에 도시되어 있다. 처리 소자의 모든 부품은 국부 처리 소자 데이타 버스(72)를 경유하여 통신될 수 있고 모든 메모리-레지스터 전송을 다룬다. 다음 이웃 공유 PE 메모리(68)는 처리 소자의 다른 소자와 일렬로 놓이는 반면에, 이전 이웃 공유 PE 메모리(66)는 이전 이웃 처리 소자의 상기 소자와 일렬로 놓인다. 프로그래밍 및 테스트 과정에 대해 모든 PE 메모리는 글로벌 버스(38)로부터 접근 가능하다. 스위치(74)는 보통 국부 버스(72)를 글로벌 버스(38)로부터 접속을 끊지만, 국부 RAM(64) 및 글로벌 RAM(44)사이의 데이타 전송을 가능하게 하도록 선택적으로 연결될 수 있다. 다른 스위치(76)는 제어부(60)는 버스(72)의 데이타 전송으로 동시에 RAM(62)으로부터 명령어를 판독할 수 있도록 국부 버스(72)를 독립한 세그먼트로 세그먼트를 허용한다. 이와 같이 처리 소자 내의 연산은 제어부에서 처리되는 한 개의 명령어와 파이프라인됨과 동시에 사전 명령어는 PE ALU(56)으로 실행된다. 암호 코드의 실행 중, 스위치(74 및 76)는 정상적으로 오픈이고, 그 결과 명령어 RAM으로부터의 명령어 인출은 데이타 메모리 및 레지스터 파일로부터 데이타 인출과 동시에 처리된다.

많은 다중 프로세서 설계는 고안되고 있다. 대부분은 일반용 다중 처리를 위해 설계되고, 처리 소자 사이의 통신은 한 PE 에서 임의의 다른 것으로 데이타를 능동적으로 스위치하도록 구성된 보통 스위칭 매트리스를 사용하여 행할 수 있다. 이러한 스위치 디자인은 매우 복잡하다. 암호를 필요로 하지 않기 때문에, 본 발명의 실시예는 매우 적은 스위치 회로로 단순한 선형 배열의 PEs를 사용한다.

더우기, 문헌과 같은 I/O 포트라기보다 상호 접속 기술로서 공유 메모리의 사용은 상당히 간단하고 강력한 프로그래밍 모델을 발생한다. 2 개의 PEs A 및 B는 단일한 32 비트 I/O 포트에 접속된다. A가 데이타의 다수 문자를 B로 전송하도록 하기 위하여, A는 각각의 문자를 I/O 포트에 기입하고 B가 판독할 수 있도록 기다린다. 그러나, A 및 B는 통신의 모든 문자를 보유할 만큼 충분히 큰 공유 메모리에 연결된 경우에, A는 B가 판독함을 기다리지 않고 기입할 수 있다. 더우기, PE B는 문자를 임의의 순서로 판독하거나, 즉시 일에 필요한 데이타를 골라내는 자유가 있다. 결론적으로, 몇개의 공유 메모리는 통신을 필요로 하지 않는 경우에, 부가적인 국부 작업 공간을 제공하도록 국부 메모리의 확장부로서 사용될 수 있다.

공개 키 지원

충분한 공개 키 암호는 충분한 모듈라 지수화를 필요로 하고, 이는 공개 키 코프로세서에 의해 제공된다. 이러한 유닛은 후술하는 아래 항목을 포함한다 :

16개의 512 비트 범용 레지스터로 구성된 PK 레지스터 파일(48)

SK 승산기 소자와 연결되어 구성된 PK 512×32 비트 승산기(70) (이러한 유닛은 단지 32 클럭 사이클로 512×512 곱셈을 실시할 수 있다)

2-16 사이클, 전형적으로 2 이상으로 덧셈을 실시할 수 있는 PK 512비트 가산기 ALU(50)

단일 클럭 사이클로 512 비트 문자를 로드하고 저장하기 위한 PK 코프로세서로부터 512 비트 병렬 접근을 위해 조직된 글로벌 메모리(44)

PK 코어 프로세서는 512 비트 문자를 사용하여 수행함으로써 모듈러 곱셈을 가속화한다. 본 발명의 PK 유닛을 사용하여 512×512 곱셈 연산은 후술되는 16 개의 처리 소자의 연결된 승산기 소자를 사용하여 16 번의 512×32 곱셈을 수행함으로써 실시된다. 각각의 곱셈은 2 클럭 사이클을 필요로 하고, 16 번의 곱셈을 필요로 하며, 512×512 곱셈은 32 클럭 사이클을 필요로 하며 2048×2048 곱셈은 단지 512 클럭 사이클을 필요로 한다. 전 모듈러 지수화 연산은 4096 번의 곱셈을 필요로 하고, 전체 2 백만 클럭 사이클을 취한다. 이것은 전술한 펜티엄 실시예로 80 배 개선으로 표시된다. PK 알고리즘의 성능 향상이 유사하게 예상된다. 이것은 공지 기술과 비교해 성능 게인을 표시할 수 있고, 세션 키의 빈번한 변경을 할 수 있고, 이에 따라 보안성이 증가된다.

512 비트 가산기

가산기는 공개 키 PK 및 비밀 키 SK부를 공유하지 않는다. 오히려, 덧셈 및 로직 연산은 PK 및 SK에 대해 모두 공통이고, 각각의 유닛은 그 자체가 가산기이고, 그 결과 연산을 동시에 처리될 수 있다.

공개 키 PK ALU(50) 내의 512 비트 단일 사이클 가산기는 매우 복잡하고 실질적으로 ALU의 임계 경로 시간에 더해진다. 따라서, ALU(50)의 512 비트 가산기는 도 6에 도시된 바와 같이 16개의 32 비트 가산기를 형성하고 있다. 동작으로, AND-게이트(78) 및 멀티플렉서(80)는 초기에 2 개의 32 비트 연산수 세그먼트를 각각의 32 비트 가산기 A0-A15에 적용한다. AND-게이트(78)는 32 비트 범용 연산을 나타낸다. 각각의 32 비트 가산기는 자리올림 출력에 따라 32 비트 합계를 계산한다. 한 개의 가산기에 대한 자리올림 출력은 D 플립플롭(79)을 통해 다음의 자리올림 입력에 접속된다. 자리올림이 제1 사이클로 발생하는 경우에, 플립플롭으로 클럭되고 다음 클럭 사이클을 위해 자리올림 입력이 가능하다. 각각의 합계는 D 플립플롭(81) 및 멀티플렉서(80)를 통해 동일 가산기의 한 개의 입력으로 리턴되고, 가산기의 다른 입력은 연속 클럭 사이클 중 AND 게이트(78)를 사용하여 영으로 유지된다. 각각의 가산기에 대한 자리올림 입력으로서 합계를 역으로 더하는 단계는 자리올림이 임의의 32 비트 가산기에 대한 출력으로 발생하는 한 반복된다.

512 비트 가산기의 연산은 실제 실시에 대한 16 개의 32 비트 문자대신에 4 개의 4 비트 이진 문자를 사용하여 후술되는 실시예를 참조로하여 잘 설명된다.

덧셈 : 1101 0110 1001 1011

0001 0101 1100 1011

01110 01011 10101 10110 자리올림 출력은 0, 0, 1, 1이다.

1110 1011 0101 0110

0 1 1 0 이전 자리올림

1110 1100 0110 0110 최종 합계

2 개의 덧셈은 최종 합계에 도달할 필요성이 있고 더이상 자리올림이 발생하지 않는다. 이것은 전형적인 경우이다. 상기 가산기는 암호 연산을 사용하기 때문에, 더해진 숫자는 다소 랜덤하게 분배되는 것이 안전하다. 제1 가산 후의 자리올림 출력에 대한 확률은 상당히 높다. 그러나, 자리올림, 최소한 주요 비트로서의 역 덧셈이 대부분의 주요 비트로부터의 다른 자리올림을 발생하는 확률은 상당히 낮다. 이러한 이유로, 대부분의 가산 연산은 단지 2 개의 클럭 사이클을 수용하는 것이 예상된다.

512 비트 가산기를 만드는 초기 문제로 돌아가면, 표준 자리올림 선독 또는 자리올림 바이패스 가산기 디자인이 사용되는 경우에, 가산기를 통한 임계 경로는 상당히 길고, 그 이유는 자리올림이 512 비트를 연산하는 최적화된 회로를 통하여 전송하기 때문이다. 이러한 가산기는 상당히 크고 느리다. 그러나, 본 발명의 한 실시예로, 512 비트 가산기는 32 비트 가산기로 구성되고, 디자인은 공지되어 있고 최적화된다. 개개의 32 비트 가산기의 최대 클럭 속도는 512 비트 자리올림 선독 디자인의 2 배 이상이 되는 것을 예상할 수 있다. 따라서, 본 발명의 2 또는 그 이상 사이클 가산기는 칩 영역을 덜 소비하고 평균적으로 512 비트 가산기보다 빠르게 연산한다.

후술되는 바와 같이 최악의 경우에, 16 개의 사이클은 16 개의 32 비트 가산기 실시를 위해 자리올림없이 최종 합계를 완벽히 계산하는 것이 필요할 수 있다. 4 비트 이진 문자 사용하여 후술되는 목적을 다시 예시한다.

덧셈 : 1111 1111 1111 1111

0000 0000 0000 0001

01111 01111 01111 10000 1차 자리올림 출력은 0, 0, 0, 1이다.

1111 1111 1111 0000

0 0 1 0

01111 01111 10000 00000 2차 자리올림 출력은 0, 0, 1, 0이다.

1111 1111 0000 0000

0 1 0 0

01111 10000 00000 00000 3차 자리올림 출력은 0, 1, 0, 0이다.

1111 0000 0000 0000

1 0 0 0

10000 00000 00000 00000

4 개의 덧셈이 필요로 한다. 일반적으로, n 그룹의 숫자를 위해 고작, n 덧셈을 필요로 한다.

512×32 승산기

승산기는 영역이 크다. 각각의 비밀 키 처리 소자는 곱셈, 예컨대 후술되는 IDEA을 필요로하는 비밀 키 알고리즘을 실시하기 위하여 그 자체의 승산기를 포함한다. 각각의 PE 승산기에 의해 수용된 영역은 조합적으로 중요하고, 결과적으로 이 영역의 사용은 512×32 비트 공개 키 승산기를 실시하는 데 만들 수 있다. 영역을 절감하기 위해, 큰 512×32 승산기는 각각의 비밀 키 처리 소자로 16 개의 32×32 승산기를 연결함으로써 실시된다. 다시 말해, 비밀 및 공개 키 부는 도 4의 칩의 설계에 도시한 바와 같이, 승산기 소자를 공유할 수 있다. 승산기 소자의 사용은 비밀 키 처리 소자 및 PK 코어 프로세서사이에 위치하고 그 이유는 비밀 키 처리 소자 중 하나가 곱셈 연산을 독립적으로 수행하는 경우에 PK 코어 프로세서가 곱셈 연산을 수행할 수 없기 때문이다.

승산기의 접속을 설명하기 위해, 조합 4×4/4×N 승산기의 단순 디자인은 후술된다. 부스 암호(Booth encoding) 및 4:2 압축기와 같은 승산기 디자인에 대한 보다 진보적인 기술을 이용할 수 있다. 후술하는 실시예는 단순 표시를 제공한다.:

1 0 1 1

× 0 1 0 0

0 0 0 0

1 0 1 1 부분 곱셈

1 0 1 1

0 0 0 0

1 0 0 0 0 1 0

한 자리수 곱셈은 AND 게이트를 사용함으로써 용이하게 실시할 수 있다. 결과적으로, 2 개의 4 비트 연산수를 사용하여 16 비트의 부분 곱셈으로 구성된다. 이러한 부분 곱셈은 효율적으로 함께 더해질 수 있다. 예컨대, 부분 곱셈은 2 개의 4 비트 및 1 개의 6 비트 전가산기를 사용하여 더해질 수 있지만, 부분 곱셈의 덧셈을 수행하기 위한 실질적인 시간이 걸리고, 그 이유는 자리올림이 수개의 가산기를 통해 전송하기 때문이다. 이러한 가산기 실시의 전체 결과는 매우 느리다. 바람직한 시도는 수개의 단계를 통해 자리올림을 하는 가산기를 구성한다.

바람직한 승산기의 기초 부품은 전가산기로, 3 개의 입력 및 상기 입력의 2 개 비트 합계를 수용하는 회로이다. 전가산기는 도 7의 심볼을 사용하여 설명된다. 2 진수 대신에 사각형의 사용은 일반성 및 편리성을 위함이다. 상부에 3 개의 사각형은 전가산기의 3 개 입력을 도시한다. 하부에 2 개의 사각형은 합계 및 자리올림 출력을 도시한다. 그 자리값을 표시하기 위해 좌측 하부에 있는 자리올림은 합계의 2 배이다.

4×4 승산기의 덧셈의 제1단은 도 8에 도시한다. 합계 라인 위에, 흑색 및 백색 박스로 도시한 16 개의 사각형은 더해지는 부분 곱셈의 비트를 표시한다. 흑색으로 도시한 비트는 4 개의 전가산기(82)를 사용하여 제1단으로 더해진다. 백색으로 도시한 비트는 4 개의 전가산기(82)를 사용하여 제1단으로 더해지지 않지만, 다음 덧셈단에 대한 준비로 도 8에 화살표로 도시한 바와 같이 간단히 전송된다. 제1단에서 가산기의 합계는 합계 라인 하부에 도시한다. 제2단은는 도 9에 도시한다. 화살표는 현단계 중에 연산하지 않는 비트를 다시 표시하고 간단히 전송함과 동시에 흑색 박스는 현(제2) 단계로 더해지는 비트를 기술한다. 다시, 4 개의 전가산기(84)는 흑색 박스 소자를 더하기 위해 사용된다. 제2단의 출력에서 전가산기(84)에 의해 생산되고, 정규 4 비트 자리올림 가산기(86)로 더해지는 2 개의 수가 있다.

다양한 가산기 및 승산기 설계의 성능 비교는 본 발명에 따른 승산기의 장점을 설명하는 데 도움을 준다. 4 비트 가산기의 기본 실시는 도 12에 도시한 바와 같이, 4 개의 직렬 전가산기 A0-A3로 구성된다. 이 디자인으로, 가장 오른쪽 가산기의 자리올림 출력(Cout)은 잠정적으로 그 왼쪽의 각 가산기 단계마다 영향을 줄 수 있다. 전형적인 전가산기는 2 또는 그 이상의 로직 단계로 구성되고, 4 비트 가산기의 전체 게이트 지연은 8 단계를 초과한다.

개선된 4 비트 가산기는 자리올림 선독 가산기이다. 3 비트 자리올림 선독 가산기는 도 13에 도시된다. 4 비트 디자인은 약간 더 복잡하다. AND 게이트(102), OR 게이트(104) 및 배타적 OR 게이트(106) 연산의 설명은 공지 회로이기 때문에 표현되지 않는다. 자리올림 선독 가산기의 장점은 자리올림을 4 개의 로직 게이트의 최종 합계 비트로 전송한다. 큰 범위 숫자를 위한 복잡한 디자인은 로직 단계이지만 자리올림 연쇄 디자인보다 빠르다.

전 4×4 승산기로, 자리올림 절감 디자인은 2 개의 전가산기 및 최종 자리올림 선독 가산기를 통해 임계 경로를 발생한다. 전가산기를 사용하는 구현은 보다 긴 임계 경로를 가지며, 그 이유는 연쇄 자리올림을 사용하여 초기 가산기는 자리올림 선독 가산기보다 느리다. 결론적으로, 부분 곱셈 합계의 초기 2 개 단계로 전 자리올림 선독 가산기를 사용하는 경우에, 합계 승산기는 느려지며, 그 이유는 자리올림 선독 가산기는 개개의 전가산기보다 느리기 때문이다. 본 발명에 따른 승산기 디자인은 동일한 부분 곱셈 레벨에서 한 가산기로부터 다른 것까지 자리올림을 전송하지 않는다. 이 방법으로, 승산기를 통한 임계 경로는 초기 2 개 단계의 부분 곱셈 합계로 기껏해야 2 개의 전가산기를 포함한다.

도 10은 범용 4×N 승산기를 도시한다. 큰 흑색 박스(82,84, 86)는 도 9에 사용되는 동일한 전가산기 하드웨어를 나타낸다. 전가산기는 이 경우에 필요하며, 그 이유는 각각의 환경에서 3 개의 입력은 서로 가산된다. 도 9에서 간단한 회로는 모든 환경이 3 개의 입력의 덧셈을 필요로 하지 않기 때문이다. 그러나, 4N 케이스를 다룰 수 있는 시스템을 발생하기 위하여, 전가산기는 3 개의 입력보다 적은 케이스를 다루는 방법을 결정하기 위해 부가 회로를 가진 모든 단계에 사용된다. 이중 모드 가산기가 발생되고, 이들중 이전 단계 출력 및 단일 비트 부분 곱셈 사이를 선택하기 위한 그 입력 중 하나가 들어오는 멀티플렉서를 구비한다.

도 11은 좌측 하부에서 각각의 자리올림 출력으로 도 10의 박스 영역(82,84,86)을 실시하는 전가산기(A)를 도시한다. 바람직한 구현으로, 각각의 가산기(A)는 전가산기이다. 가산기중 몇개는 4×4 케이스(즉, 비밀 키 경우)로 2 개의 입력을 가짐과 동시에, 다른 가산기는 4×N 케이스(즉, 공개 키 경우)로 3 개의 입력을 가진다. 2 개의 입력 가산기는 가용 신호로 게이트되는 제3 입력을 가진다. 몇 개의 가산기는 또한 멀티플렉서가 이전 단계의 출력 또는 단일 비트 부분 곱셈 사이를 선택하도록 그 입력 중 하나를 제공하는 것을 필요로 한다. 하부의 자리올림 선독 가산기(86)는 4×4 케이스로 곱셈의 최종 비트를 발생하도록 4 위치마다 자리올림 출력을 필요로 한다.

도 11에서, 4×4 멀티플렉서의 부분 곱셈은 후술하는 부분 곱셈 시나리오에 대응하도록 라벨된다.:

A B C D

E F G H

I J K L

M N O P

4×N 멀티플렉서를 위해, 이웃의 부분 곱셈은 또한 고려된다. 도 11은 후술하는 시나리오에 따라 라벨된다.:

D' A B C D

E F G H

I J K L I'

M N O P M'

D'은 D의 등가로 이웃(그 왼쪽 또는 오른쪽)한다. 8 비트 최종 합계는 S7, S6, S5, S4, S3, S2, S1, S0 로서 도시되고 3 개의 좌측의 이웃 합계중 하부 크기 비트는 S2', S1', S0'이다. 2:1 멀티플렉서(88)는 선택 신호(Sel)를 가진다. 일반적으로, Sel이 로직 1인 경우에, 왼쪽 입력은 멀티플렉서의 출력으로 통과되거나, Sel이 로직 0인 경우에, 오른쪽 입력은 멀티플렉서의 출력으로 통과된다. Sel 신호는 또한 AND 게이트(90)를 게이트하도록 사용된다. Sel이 로직 1인 경우에, AND 게이트로 다른 입력은 멀티플렉서의 출력으로 통과되거나, Sel이 로직 0인 경우에, AND 게이트(90)는 다른 입력값에 관계없이 디세이블되고 로직 0을 통과한다. 따라서, 도 11의 구현으로, Sel이 로직 1인 경우에, 4×N 멀티 플렉서의 세그먼트는 출력(S6-S3)으로 나타나는 곱셈으로 실시된다. Sel이 로직 0인 경우에, 4×4 멀티 플렉서가 출력(S7-S0)으로 나타나는 8 비트 곱셈으로 실시된다. 이와 같이, 도 11의 실시는 또한 승산기 소자로 이용할 수 있고, 다른 유사 승산기 소자와 연결된 경우에 넓은 폭 공개 키 승산기를 실시하는 데 사용되는 비밀 키 승산기 소자를 나타낸다.

실시예 구현

공통 알고리즘에 대한 실시예 구현은 전술한 바람직한 실시예로 암호칩을 참조하여 기술한다. RC5는 아마도 실시하는 가장 간단한 암호 알고리즘 중 하나이다. 표 1에 기술한 바와 같이, 전술한 처리 소자 중 하나에 의하여 지원할 수 있는 것으로 기본적으로 XOR, 덧셈 및 회전인 3 가지 형의 연산을 이용하고 있다. RC5가 가변 길이 블록, 가장 공통적으로, 각각의 라운드의 RC5 알고리즘은 라운드 및 키에만 의존하는 각각의 처리 소자 내의 상수인 64 비트 데이타 블록과 Si1 및 Si2에 저장된 키 값을 연산한다. 데이타를 암호화하기 위해, 64 비트 입력 블록은 이후 이전 이웃 메모리에 위치(A 및 B)에 저장되는 2 개의 32 비트 문자로 나누어지고, 출력 블록은 다음 이웃 메모리로 A_next 및 B_next로 기입된다. 한 라운드의 RC5 암호 알고리즘에 대한 실시예는 다음과 같다. :

Loop :

load r1, A

xor r1, B

rol r1, B

add r1, Si1

store r1, A_next

load r2, B

xor r2, r2, r1

rol r2, r2, r1

add r2, Si2

store r2, B_next

sync Loop

각각의 라운드는 11개의 클럭 사이클을 필요로 한다. 암호 칩은 400 ㎒까지 운영할 수 있는 로직 방법을 사용하여 설계되는 경우에, 3천 6백만 블록은 초당 또는 ECB 모드로 288 MB/s를 암호화할 수 있다. 12 개의 라운드가 있는 경우(RC5를 위해 전형적인 경우)에 동일한 클럭 스피드로 운영되는 종래의 CPU로 비교되고, 본 발명의 실시예에 따른 다수 PEs의 동시 실행은 종래의 소프트웨어 실시에 대해 12 개의 성능 개선을 발생한다.

IDEA는 대부분의 가용 보안 블록 알고리즘 중 하나이고 실질적으로 복잡한 구조를 가진다. 이것은 64 비트 평문 블록으로 연산한다. 128 비트 키가 사용된다. 동일한 알고리즘은 암호 및 해독을 위해 모두 사용한다. 알고리즘의 주요 특징은 XOR, 덧셈 모듈로 2¹⁶및 곱셈 모듈로 2¹⁶+1과 같은 연산으로 상이한 산술군으로부터 연산을 혼합하는 것이다. 이러한 연산은 16 비트 블록으로 연산하도록 사용된다.

IDEA는 그러므로 소프트웨어로 고가의 연산인 모듈러 곱셈 및 덧셈을 사용한다. 곱셈은 영에 대한 IDEA 처리에 의해 복잡하다. :곱셈으로, 영은 (-1) 모듈로 65537로서 설명된다. 65537 값은 처리 소자의 레지스터 파일에 대한 레지스터(r8)로 미리 로드되고, 레지스터(r0)는 영이 포함되고, 후술하는 곱셈 마크로는 상세한 목적으로 표현된다.

MACRO MMULT(A,B,RESULT)

cbra A== r0, L1

load RESULT, #1

sub RESULT, B, RESULT

jump L2

L1:

cbra B== r0, L3

load RESULT, #1

sub RESULT, A, RESULT

jump L2

L3:

mulm A,B, RESULT, r8

andi #0xFFFF, RESULT

L2:

ENDMACRO

각각의 라운드의 IDEA는 모듈러 곱셈, 모듈러 덧셈, 배타적 OR을 구성한다. 128 비트 키는 서브 키로 나누어진다. 각각의 처리소자의 서브 키는 단지 키 및 처리 소자의 기능이고, 그러므로 미리 계산되고 PE에 저장된다. IDEA로 평문 입력은 전술한 바와 같이, X4를 통하여 4 개의 16 비트 서브블록(X1)으로 구성된다. 각각의 라운드는 K6를 통해 6 개의 서브 키(K1)를 사용하고 다음과 같이 암호화할 수 있다.

Loop:

load r1, X1

load r9, K1

MMULT r1, r9, r1

load r2, X2

load r9, K2

MMULT r2, r9, r2

load r3, X3

load r9, K3

MMULT r3, r9, r3

load r4, X4

load r9, K4

MMULT r4, r9, r4

xor r5, r1, r3

xor r6, r2, r4

load r9, K5

MMULT r5, r9, r5

add r6, r5

and r6, #0xFFFF

load r9, K6

MMULT r6, r9, r6

add r5, r6

and r5, #0xFFFF

xor r1, r6, r1

xor r3, r6, r3

xor r2, r5, r2

xor r4, r3, r4

store r1, X1_next

store r2, X3_next

store r3, X2_next

store r4, X4_next

sync Loop

IDEA는 8 개의 라운드이기 때문에, 본 발명의 실시예에 따른 암호 칩 하드웨어 구현은 8 개 또는 그 이상의 요소에 의하여 실행을 가속한다. 부가적인 가속은 마이크로프로세서로 이용할 수 없는 모듈러 곱셈 명령어에 의해 제공된다. 상기 코드는 한 라운드를 실시하기 위하여 대략 50 번의 클럭 사이클을 필요로 한다. 400 ㎒에서, 암호칩은 쮜리히의 ETH 대학에서 개발한 25 ㎒ 하드웨어 실시보다 약 3 배 빠른 64MB/s 비율의 IDEA로 암호화할 수 있다.

데이타 암호 표준(DES)는 처음부터 하드웨어 구현을 위해 설계되어 소프트웨어를 실시하기에는 어렵다. 그러나, 본 발명의 실시예에 따른 암호 칩으로 용이하게 암호화할 수 있다. 이전 2 개의 알고리즘과 같이, DES는 또한 64 비트 블록으로 데이타를 암호화하는 블록 암호이다. 64 비트 블록의 평문은 입력이고 64 비트 암호문은 출력이다. 일단 암호 및 해독 모두를 DES 대칭 알고리즘으로 만드는 동일 알고리즘을 사용한다. DES는 이 경우 56 비트로 단일 키로부터 서브 키를 만든다. 서브 키는 PE 및 56 비트 키의 기능을 하고 미리 계산될 수 있다.

도 14에 도시한 바와 같이, DES 후의 기초 개념은 키를 기초로 문장의 순환에 의한 대체로 구성한다. 다음의 연산은 DES의 핵심을 구성한다. :

확장 : 64 비트 블록은 2 개의 32 비트 조각(108, 110)으로 나누어진다. 한 조각은 암호에 의해 영향을 받지 않는다. (조각은 매 다른 라운드로 연산된다) 영향을 받는 조각은 8 개 그룹의 4 비트로 나누어진다. 각 그룹은 이에 인접한 2 개 비트로 복사함으로써 확장된다.

각각의 확장 그룹은 서브 키로 112에서 XOR된다.

XOR의 6 비트 결과는 S 박스로 불리는 64 엔트리 4비트 조사표(114)를 색인하는데 사용한다. 각각의 8개 그룹은 그 자체의 S 박스를 사용한다.

S 박스로부터의 출력은 116에서 순환된다 : 비트는 스크램블된다. 8 개의 출력은 32 비트를 산출한다.

32 비트 출력은 블록의 다른 1/2의 32 비트로 118에서 XOR된다.

연산은 다음과 같이 암호화된다. : 확장은 입력 문자를 복사함으로써 실시되고, 하나는 짝수 S 박스 입력을 표시하고 다른 하나는 홀수 S 박스 입력을 표시하는 2 개의 문자로 비트를 마스킹함으로써 실시된다. 2 개 문자는 키 정보로 XOR된다. 결과는 S 박스 조사표를 색인하기 위해 사용된다. 각각의 S 박스에서 데이타는 미리 순환되고, 그 결과 S 박스의 출력은 32 비트 데이타이다. 최종값은 모든 부품의 로직 OR이다. 샘플 코드는 다음과 같다. :

Loop:

load r1, A

load r2, B

load r3, r2

store r2, A_next

and r2, #0xF9F9F9F9

and r3, #0xF9F9F9F9

xor r2, K1

xor r3, K2

load r5, K2

load r4, r3

rol r4, #1

and r4, #0x3f

or r5, [r4 + S1]

load r4, r2

ror r4, #3

and r4, #0x3f

or r5, [r4 + S2]

load r4, r3

rol r4, #7

and r4, #0x3f

or r5, [r4 + S3]

load r4, r2

ror r4, #11

and r4, #0x3f

or r5, [r4 + S4]

load r4, r3

rol r4, #15

and r4, #0x3f

or r5, [r4 + S5]

load r4, r2

ror r4, #19

and r4, #0x3f

or r5, [r4 + S6]

load r4, r3

rol r4, #23

and r4, #0x3f

or r5, [r4 + S7]

load r4, r2

rol r4, #27

and r4, #0x3f

or r5, [r4 + S8]

xor r5, r1, r5

store r5, B_next

sync Loop

이 샘플 코드는 44 번의 클럭 사이클을 한 개의 라운드로 실행하기 위해 필요로 한다. 400 ㎒에서 72MB/s의 데이타 비율은 달성될 수 있다. 이러한 비율은 1-36 MB/s의 범위의 비율로 암호화되는 1990년대 중반에 이용가능한 DES의 하드웨어 실시와 비교한다. VLSI 기술의 VM007은 200MB/s까지 암호화할 수 있다.

전술한 경우에, 성능은 종래의 CPU 의 소프트웨어 구현보다 상당히 빠른 것으로 도시되지만, 전용 하드웨어 구현보다는 느리다. 하드웨어 구현에 대한 본 발명의 장점은 암호 칩이 프로그래머블하고, 그 결과 이미 착상한 것까지 포함하여 임의의 알고리즘을 실시할 수 있다.

특정한 공개 키 알고리즘 실시예가 주어지지 않더라도, 현존하는 시도에 대한 유사한 개선은 본 발명에 대한 바람직한 실시예로 설명된 기술을 사용함으로써 결론될 것이다.

등가성

본 발명은 바람직한 실시예를 참조로하여 설명되었고, 당업자는 본 발명의 특징을 벗어남이 없이 다양하고 세부적인 변화를 하여 부가 청구항을 정의할 수 있다. 당업자는 경험을 바탕으로 본 발명의 특정한 실시예로 많은 등가성 있는 설명을 인식할 수 있다. 이러한 등가성은 본 발명의 범위내에 있다.

Claims

단일 칩 위에 처리 소자의 배열을 포함하는 전자 암호 장치에 있어서,

각각의 처리 소자는 명령어의 시퀀스를 포함하는 한 라운드의 암호화 알고리즘을 저장하기 위한 명령어 메모리와,

상기 명령어 메모리로부터 상기 라운드를 처리하기 위한 처리기와,

상기 라운드 처리로부터 발생하는 암호 데이타 연산수 및 암호화 데이타를 저장하기 위한 데이타 스토리지를 포함하고,

상기 배열의 처리 소자 각각은 처리 소자 배열이 처리 소자 파이프라인으로 암호 알고리즘의 연속적인 라운드를 처리하도록 상기 라운드 중 하나를 각각 처리하고 그 결과를 연속 처리 소자로 전송하는 것을 특징으로 하는 전자 암호 장치.
제1항에 있어서, 상기 데이타 스토리지는 선형 배열의 인접 처리 소자 사이의 데이타 전송을 위해 선형 배열의 인접 처리 소자 사이에 그 일부가 공유되는 것을 특징으로 하는 전자 암호 장치.
제2항에 있어서, 각각의 처리 소자는 제어부 및 ALU를 포함하며, 상기 제어부, 명령어 메모리 및 데이타 스토리지는 국부 처리 소자 데이타 버스에 접속되고, 상기 국부 데이타 버스는 스위치에 의해 2 개의 독립부로 세그먼트되고, 상기 제어부 및 명령어 메모리는 상기 세그먼트 중 하나에 접속되고, 상기 ALU 및 데이타 스토리지는 상기 세그먼트중 다른 하나에 접속되는 것을 특징으로 하는 전자 암호 장치.
제2항에 있어서, 각각의 처리 소자는 제어부 및 ALU를 포함하며, 상기 제어부, 명령어 메모리, 국부 데이타 메모리 및 공유 데이타 스토리지는 국부 처리 소자 버스에 접속되고, 상기 국부 버스는 스위치에 의해 상기 명령어 메모리 및 제어부에 접속하는 국부 명령어 버스 세그먼트로 세그먼트되고, 상기 국부 데이타 버스 세그먼트는 상기 ALU, 국부 데이타 메모리 및 공유 데이타 스토리지에 접속하고, 상기 스위치는 2 개의 국부 버스 세그먼트로 독립한 동시 연산 또는 2 개의 버스 세그먼트 사이의 통신을 허용하는 것을 특징으로 하는 전자 암호 장치.
제4항에 있어서, 각각의 처리 소자는 상기 처리 소자 내의 곱셈 연산을 수행하기 위한 승산기를 더 포함하는 것을 특징으로 하는 전자 암호 장치.
제2항에 있어서, 암호화 알고리즘의 처리중, 파이프라인의 각각의 처리 소자는 결과 데이타를 순차 처리 소자에 의해 직접 접근하기 위해 순차 처리 소자와 공유된 데이타 스토리지에 기입하는 것을 특징으로 하는 전자 암호 장치.
제2항에 있어서, 상기 처리 소자의 상기 공유 데이타 스토리지는 상기 선형 배열의 인접 처리 소자 사이의 데이타 전송을 위해 상기 선형 배열의 인접 처리 소자 사이에 공유되는 이중 포트 메모리로 구성되는 것을 특징으로 하는 전자 암호 장치.
제7항에 있어서, 상기 각각의 처리 소자는 제어부 및 ALU를 포함하며, 상기 제어부, ALU, 명령어 메모리, 국부 데이타 메모리 및 공유 데이타 스토리지는 국부 처리 소자 데이타 버스에 접속되고, 상기 국부 데이타 버스는 스위치에 의해 2 개의 독립한 세그먼트로 세그먼트되고, 상기 제어부 및 명령어 메모리는 상기 세그먼트 및 상기 ALU 중 하나에 접속되고, 상기 국부 데이타 메모리 및 공유 데이타 스토리지는 세그먼트중 다른 하나에 접속되는 것을 특징으로 하는 전자 암호 장치.
제1항에 있어서, 상기 각각의 처리 소자는 상기 처리 소자 내의 곱셈 연산을 수행하는 승산기를 더 포함하는 것을 특징으로 하는 전자 암호 장치.
제9항에 있어서, 복수의 처리 소자에 대한 상기 승산기는 범용 승산기의 세그먼트로서 연결하기 위해 이용되는 것을 특징으로 하는 전자 암호 장치.
제10항에 있어서, 상기 승산기는 개별의 승산기로서 연산하는 경우에 제1 세트의 입력과 연결된 경우에 인접 처리 소자로부터의 입력을 포함하는 제2 세트의 입력을 선택하기 위한 입력 선택 회로를 구비하는 부분 곱셈 가산기를 포함하는 것을 특징으로 하는 암호 장치.
제1항에 있어서, 상기 각각의 처리 소자는 제어부 및 ALU를 포함하며, 상기 제어부, ALU, 명령어 메모리, 국부 데이타 메모리 및 공유 데이타 스토리지는 국부 처리 소자 데이타 버스에 접속되고, 상기 국부 데이타 버스는 스위치에 의해 2 개의 독립한 세그먼트로 세그먼트되고, 상기 제어부 및 명령어 메모리는 상기 세그먼트 및 상기 ALU 중 하나에 접속되고, 상기 국부 데이타 메모리 및 공유 데이타 스토리지는 세그먼트중 다른 하나에 접속되는 것을 특징으로 하는 전자 암호 장치.
제1항에 있어서, 글로벌 랜덤 어세스 메모리 및 데이타가 상기 글로벌 어세스 메모리 및 상기 처리 소자 데이타 스토리지 사이에 전송되는 글로벌 버스를 더 포함하는 것을 특징으로 하는 전자 암호 장치.
제13항에 있어서, 처리 소자에 의해 처리된 데이타 문자보다 광범위한 데이타 문자를 처리하기 위한 글로벌 버스에 접속된 중앙 처리기를 더 포함하는 것을 특징으로 하는 전자 암호 장치.
제14항에 있어서, 상기 각각의 처리 소자는 처리 소자 내의 곱셈 연산을 수행하기 위한 승산기를 더 포함하는 것을 특징으로 하는 전자 암호 장치.
제15항에 있어서, 복수의 처리 소자에 대한 상기 승산기는 범용 승산기의 세그먼트로서 연결하기 위해 선택되는 것을 특징으로 하는 전자 암호 장치.
제16항에 있어서, 상기 각각의 승산기는 개별의 승산기로서 연산하는 경우에 제1 세트의 입력과 연결된 경우에 인접 처리 소자로부터의 입력을 포함하는 제2 세트의 입력을 선택하기 위한 입력 선택 회로를 구비하는 부분 곱셈 가산기를 포함하는 것을 특징으로 하는 암호 장치.
제13항에 있어서, 상기 중앙 처리기는 가산기를 포함하며,

자리올림 출력 및 합계 출력을 구비하고 2 개의 연산수에 대한 세그먼트를 처리하는 복수의 가산기 세그먼트와,

연속적인 가산기 세그먼트로의 자리올림 입력으로서 자리올림 출력을 선택하고 임의의 자리올림이 가산기 사이클로 발생하는 경우에 연속적인 클럭 사이클 동안에 자리올림 출력을 선택하기 위한 자리올림 선택기와,

임의의 자리올림이 가산기 사이클로 발생하는 경우에 연속적인 클럭 사이클 동안에 동일한 가산기 세그먼트로의 연산수 입력으로서 각각의 합계 출력을 선택하기 위한 연산수 선택기를 포함하는 것을 특징으로 하는 전자 암호 장치.
제1항에 있어서, 각각의 처리 소자에 대한 각각의 처리기는 모듈로 조정 연산을 M 모듈로 N으로 계산하도록 수행하는 것을 특징으로 하는 전자 암호 장치.
제1항에 있어서, 각각의 처리 소자에 대한 각각의 처리기는 모듈로 덧셈 또는 뺄셈 연산을 A ±B 모듈로 N으로 계산하도록 수행하는 것을 특징으로 하는 전자 암호 장치.
제1항에 있어서, 각각의 처리 소자에 대한 각각의 처리기는 모듈로 곱셈 연산을 A ×B 모듈로 N으로 계산하도록 실시하는 것을 특징으로 하는 전자 암호 장치.
제1항에 있어서, 상기 암호 장치는 가산기를 더 포함하며,

자리올림 출력 및 합계 출력을 구비하고 2 개의 연산수에 대한 세그먼트를 처리하는 복수의 가산기 세그먼트와,

연속적인 가산기 세그먼트로의 자리올림 입력으로서 자리올림 출력을 선택하고 임의의 자리올림이 가산기 사이클로 발생하는 경우에 연속적인 클럭 사이클동안에 자리올림 출력을 선택하기 위한 자리올림 선택기와,

임의의 자리올림이 가산기 사이클로 발생하는 경우에 연속적인 클럭 사이클동안에 동일한 가산기 세그먼트로 연산수 입력으로서 각각의 합계 출력을 선택하기 위한 연산수 선택기를 포함하는 것을 특징으로 하는 전자 암호 장치.
단일 칩 위에 처리 소자의 선형 배열을 포함하는 전자 암호 장치에 있어서,

각각의 처리 소자는 최소한의 암호화 알고리즘의 라운드를 실시하는 데 필요로 하는 코드를 저장하기 위한 명령어 메모리와,

상기 명령어 메모리로부터 상기 라운드를 처리하기 위한 처리기와,

국부 데이타 메모리와,

2 개의 인접 처리 소자 사이의 공유 데이타 스토리지를 포함하며,

상기 선형 배열의 처리 소자 각각은 상기 선형 배열이 처리 소자의 파이프라인으로 암호 알고리즘의 연속적인 라운드를 처리하도록 상기 라운드 중 하나를 각각 처리하고 그 결과를 연속 처리 소자에 전송하는 것을 특징으로 하는 전자 암호 장치.
제23항에 있어서, 암호화 알고리즘의 처리 중 파이프라인의 각각의 처리 소자는 결과 데이타를 순차 처리 소자에 의해 직접 접근하기 위한 순차 처리 소자와 공유된 데이타 스토리지에 기입하는 것을 특징으로 하는 전자 암호 장치.
상기 처리 소자의 선형 배열을 포함하는 암호 데이타 처리 시스템에 있어서,

각각의 처리 소자는

명령어 메모리와,

상기 명령어 메모리로부터의 명령어를 처리하기 위한 처리기와,

데이타 메모리를 포함하며,

상기 선형 배열의 처리 소자에 대한 데이타 메모리는 상기 선형 배열의 인접 처리 소자 사이의 데이타 전송을 위해 상기 선형 배열의 인접 처리 소자 사이에 공유되는 이중 포트 메모리로 구성되는 것을 특징으로 하는 암호 데이타 처리 시스템.
제25항에 있어서, 각각의 처리 소자는 제어부 및 ALU를 포함하며, 상기 제어부, ALU, 명령어 메모리, 상기 처리 소자의 데이타 메모리는 국부 처리 소자 버스에 접속되고, 상기 국부 버스는 스위치에 의해 2 개의 독립부로 세그먼트되고, 상기 명령어 메모리 및 제어부는 적어도 하나의 세그먼트에 접속되고 상기 ALU와 국부 및 공유 데이타 메모리는 상기 세그먼트 중 다른 하나에 접속하는 것을 특징으로 하는 전자 암호 시스템.
제25항에 있어서, 각각의 처리 소자는 처리 소자 내의 곱셈 연산을 실시하기 위한 승산기를 더 포함하는 것을 특징으로 하는 전자 암호 시스템.
제27항에 있어서, 복수의 처리 소자에 대한 상기 승산기는 범용 승산기의 세그먼트로서 연결하기 위해 선택되는 것을 특징으로 하는 전자 암호 시스템.
제28항에 있어서, 각각의 승산기는 개별의 승산기로서 연산하는 경우에 제1 세트의 입력과 연결된 경우에 인접 처리 소자로부터의 입력을 포함하는 제2 세트의 입력을 선택하기 위한 입력 선택 회로를 구비하는 부분 곱셈 가산기를 포함하는 것을 특징으로 하는 암호 시스템.
제25항에 있어서, 글로벌 랜덤 어세스 메모리 및 데이타가 상기 글로벌 랜덤 어세스 메모리 및 처리 소자 데이타 스토리지 사이에 전송되는 글로벌 버스를 더 포함하는 것을 특징으로 하는 전자 암호 시스템.
제30항에 있어서, 처리 소자에 의해 처리된 데이타 문자보다 광범위한 데이타 문자를 처리하기 위한 글로벌 버스에 접속된 중앙 처리기를 더 포함하는 것을 특징으로 하는 전자 암호 시스템.
제31항에 있어서, 각각의 처리 소자는 처리 소자 내의 곱셈 연산을 실시하기 위한 승산기를 더 포함하는 것을 특징으로 하는 전자 암호 시스템.
제32항에 있어서, 복수의 처리 소자에 대한 상기 승산기는 범용 승산기의 세그먼트로서 연결하기 위해 선택되는 것을 특징으로 하는 전자 암호 시스템.
제33항에 있어서, 각각의 승산기는 개별의 승산기로서 연산하는 경우에 제1 세트의 입력과 연결된 경우에 인접 처리 소자로부터의 입력을 포함하는 제2 세트의 입력을 선택하기 위한 입력 선택 회로를 구비하는 부분 곱셈 가산기를 포함하는 것을 특징으로 하는 전자 암호 시스템.
제31항에 있어서, 상기 중앙 처리기는 가산기를 포함하며,

자리올림 출력 및 합계 출력을 구비하고 2 개의 연산수에 대한 세그먼트를 처리하는 복수의 가산기 세그먼트와,

연속적인 가산기 세그먼트로 자리올림 입력으로서 자리올림 출력을 선택하고 임의의 자리올림이 가산기 사이클로 발생하는 경우에 연속적인 클럭 사이클 동안에 자리올림 출력을 선택하기 위한 자리올림 선택기와,

임의의 자리올림이 가산기 사이클로 발생하는 경우에 연속적인 클럭 사이클 동안에 동일한 가산기 세그먼트로 연산수 입력으로서 각각의 합계 출력을 선택하기 위한 연산수 선택기를 포함하는 것을 특징으로 하는 전자 암호 시스템.
제25항에 있어서, 각각의 처리 소자에 대한 각각의 처리기는 모듈로 조정 연산을 M 모듈로 N으로 계산하도록 수행하는 것을 특징으로 하는 전자 암호 시스템.
제25항에 있어서, 각각의 처리 소자에 대한 각각의 처리기는 모듈로 덧셈 또는 뺄셈 연산을 A ±B 모듈로 N으로 계산하도록 수행하는 것을 특징으로 하는 전자 암호 시스템.
제25항에 있어서, 각각의 처리 소자에 대한 각각의 처리기는 모듈로 곱셈 연산을 A ×B 모듈로 N으로 계산하도록 실시하는 것을 특징으로 하는 전자 암호 시스템.
제25항에 있어서, 상기 암호 장치는 가산기를 더 포함하며,

자리올림 출력 및 합계 출력을 구비하고 2 개의 연산수에 대한 세그먼트를 처리하는 복수의 가산기 세그먼트와,

연속적인 가산기 세그먼트로 자리올림 입력으로서 자리올림 출력을 선택하고 임의의 자리올림이 가산기 사이클로 발생하는 경우에 연속적인 클럭 사이클 동안에 자리올림 출력을 선택하기 위한 자리올림 선택기와,

임의의 자리올림이 가산기 사이클로 발생하는 경우에 연속적인 클럭 사이클 동안에 동일한 가산기 세그먼트로 연산수 입력으로서 각각의 합계 출력을 선택하기 위한 연산수 선택기를 포함하는 것을 특징으로 하는 전자 암호 시스템.
제25항에 있어서, 암호화 알고리즘의 처리중 파이프라인의 각각의 처리 소자는 결과 데이타를 순차 처리 소자에 의해 직접 접근하기 위한 순차 처리 소자와 공유된 데이타 스토리지로 기입하는 것을 특징으로 하는 전자 암호 장치.
제1 길이에 대한 연산수 문자를 수신하는 복수의 승산기 세그먼트와,

승산기 세그먼트가 개별의 승산기로서 연산하는 경우에 제1 세트의 입력과 제2 문자 길이에 대한 연산수로 연산하는 범용 승산기로서 승산기 세그먼트에 연결하도록 제2 세트의 입력을 선택하는 입력 선택기를 포함하는 승산기 회로.
제41항에 있어서, 각각의 승산기 세그먼트는 부분 곱셈 가산기를 포함하는 것을 특징으로 하는 승산기 회로.
자리올림 출력 및 합계 출력을 구비하고 2 개의 연산수에 대한 세그먼트를 처리하는 복수의 가산기 세그먼트와,

연속적인 가산기 세그먼트로 자리올림 입력으로서 자리올림 출력을 선택하고 임의의 자리올림이 가산기 사이클로 발생하는 경우에 연속적인 클럭 사이클 동안에 자리올림 출력을 선택하기 위한 자리올림 선택기와,

임의의 자리올림이 가산기 사이클로 발생하는 경우에 연속적인 클럭 사이클 동안에 동일한 가산기 세그먼트로 연산수 입력으로서 각각의 합계 출력을 선택하기 위한 연산수 선택기를 포함하는 가산기.
단일 칩을 포함하는 전자 암호 소자에 있어서,

명령어 스토리지, 데이타 스토리지 및 제1 길이에 대한 데이타 문자로 연산하도록 상기 명령어 스토리지로부터 일련의 명령어를 처리하는 처리기를 포함하는선형 배열의 처리 소자와,

글로벌 랜덤 어세스 메모리와,

데이타가 상기 글로벌 랜덤 어세스 메모리 및 상기 처리 소자 데이타 메모리사에 전송되도록 하는 글로벌 버스와,

적어도 상기 제1 길이 이상 크기로 제2 길이에 대한 데이타 문자로 연산하는 공중 키 암호 처리기를 포함하며,

상기 처리 소자에 대한 상기 데이타 스토리지는 상기 배열의 인접 처리 소자 사이로 데이타를 전송하기 위해 인접 처리 소자 사이와 공유된 이중 포트 메모리를 포함하고,

상기 선형 배열에 대한 처리 소자는 암호 알고리즘에 대한 상기 명령어 스토리지 개별 라운드를 저장하고 처리 소자 파이프라인으로 암호 알고리즘에 대한 연속 라운드를 처리하도록 연속 처리 소자로 상기 라운드의 상기 결과를 전송하고,

상기 공중 키 암호 처리기는 상기 제2 길이에 대한 문자 길이로 글로벌 랜덤 어세스 메모리에 접근하는 것을 특징으로 하는 전자 암호 장치.
단일 칩 위에 처리 소자의 배열을 포함하는 전자 암호 장치에 있어서,

각각의 처리 소자는 암호 알고리즘에 대한 라운드를 저장하기 위한 명령어 메모리 수단과,

상기 명령어 메모리로부터 상기 라운드를 실시하기 위한 처리 수단과,

상기 라운드 처리로부터 발생하는 데이타 연산수 및 암호 데이타를 저장하기 위한 데이타 스토리지 수단을 포함하는 것을 특징으로 하는 전자 암호 장치.
제45항에 있어서, 상기 데이타 스토리지 수단은 상기 선형 배열에 대한 인접 처리 소자 사이의 데이타에 대한 전송을 위해 상기 선형 배열의 인접 처리 소자 사이에 그 일부가 공유되는 것을 특징으로 하는 전자 암호 장치.
제46항에 있어서, 글로벌 랜덤 어세스 메모리 및 데이타가 상기 글로벌 랜덤 어세스 메모리 수단 및 상기 처리 소자 데이타 스토리지 수단사이로 전송되는 글로벌 버스 수단을 더 포함하는 것을 특징으로 하는 전자 암호 장치.
제47항에 있어서, 상기 처리 소자에 의해 처리된 상기 데이타 문자보다 넓은데이타 문자를 처리하기 위한 상기 글로벌 버스 수단에 접속된 중앙처리 수단을 더 포함하는 것을 특징으로 하는 전자 암호 장치.
단일 칩 위의 전자 회로에서,

암호화된 데이타를 수신하는 단계와,

상기 데이타를 상기 칩상의 데이타 처리 소자에 대한 파이프라인에 인가하는 단계를 포함하며, 각각의 처리 소자는 암호 라운드를 처리하고 그 결과를 상기 처리 소자가 처리 소자 파이프라인의 암호 알고리즘의 연속 라운드를 실시하도록 연속 처리 소자로 전송하는 단계를 포함하는 것을 특징으로 하는 암호 방법.
제49항에 있어서, 상기 결과는 공유 메모리를 통해 연속 처리 소자로 전송되는 것을 특징으로 하는 암호 방법.
제50항에 있어서, 중앙 처리기로 상기 칩위의 처리 암호 알고리즘이 글로벌 버스를 통해 상기 처리 소자에 접속되는 단계를 더 포함하며, 상기 중앙 처리기는 상기 처리 소자에 의해 처리된 데이타 문자보다 넓은 데이타 문자를 처리하는 것을 특징으로 하는 암호 방법.
제49항에 있어서, 중앙 처리기로 상기 칩위의 처리 암호 알고리즘이 글로벌 버스를 통해 상기 처리 소자에 접속되는 단계를 더 포함하며, 상기 중앙 처리기는 상기 처리 소자에 의해 처리된 데이타 문자보다 넓은 데이타 문자를 처리하는 것을 특징으로 하는 암호 방법.