WO2021241048A1 - Aiチップ - Google Patents
Aiチップ Download PDFInfo
- Publication number
- WO2021241048A1 WO2021241048A1 PCT/JP2021/015475 JP2021015475W WO2021241048A1 WO 2021241048 A1 WO2021241048 A1 WO 2021241048A1 JP 2021015475 W JP2021015475 W JP 2021015475W WO 2021241048 A1 WO2021241048 A1 WO 2021241048A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- dies
- die
- memory
- arithmetic
- chip
- Prior art date
Links
- 238000000034 method Methods 0.000 claims abstract description 15
- 238000004364 calculation method Methods 0.000 claims description 96
- 238000012545 processing Methods 0.000 claims description 83
- 239000004020 conductor Substances 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 5
- 238000009792 diffusion process Methods 0.000 claims description 4
- 238000011176 pooling Methods 0.000 claims description 3
- 238000013473 artificial intelligence Methods 0.000 description 122
- 238000004891 communication Methods 0.000 description 16
- 238000012986 modification Methods 0.000 description 16
- 230000004048 modification Effects 0.000 description 16
- 238000010586 diagram Methods 0.000 description 10
- 230000000149 penetrating effect Effects 0.000 description 6
- 239000000758 substrate Substances 0.000 description 5
- 239000010949 copper Substances 0.000 description 4
- 239000007769 metal material Substances 0.000 description 4
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 3
- XUIMIQQOPSSXEZ-UHFFFAOYSA-N Silicon Chemical compound [Si] XUIMIQQOPSSXEZ-UHFFFAOYSA-N 0.000 description 3
- 229910052802 copper Inorganic materials 0.000 description 3
- 239000004065 semiconductor Substances 0.000 description 3
- 229910052710 silicon Inorganic materials 0.000 description 3
- 239000010703 silicon Substances 0.000 description 3
- 238000007792 addition Methods 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 230000006866 deterioration Effects 0.000 description 2
- 238000009429 electrical wiring Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 241000724291 Tobacco streak virus Species 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000009713 electroplating Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H01—ELECTRIC ELEMENTS
- H01L—SEMICONDUCTOR DEVICES NOT COVERED BY CLASS H10
- H01L27/00—Devices consisting of a plurality of semiconductor or other solid-state components formed in or on a common substrate
- H01L27/02—Devices consisting of a plurality of semiconductor or other solid-state components formed in or on a common substrate including semiconductor components specially adapted for rectifying, oscillating, amplifying or switching and having potential barriers; including integrated passive circuit elements having potential barriers
- H01L27/04—Devices consisting of a plurality of semiconductor or other solid-state components formed in or on a common substrate including semiconductor components specially adapted for rectifying, oscillating, amplifying or switching and having potential barriers; including integrated passive circuit elements having potential barriers the substrate being a semiconductor body
- H01L27/06—Devices consisting of a plurality of semiconductor or other solid-state components formed in or on a common substrate including semiconductor components specially adapted for rectifying, oscillating, amplifying or switching and having potential barriers; including integrated passive circuit elements having potential barriers the substrate being a semiconductor body including a plurality of individual components in a non-repetitive configuration
- H01L27/0688—Integrated circuits having a three-dimensional layout
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F15/00—Digital computers in general; Data processing equipment in general
- G06F15/76—Architectures of general purpose stored program computers
- G06F15/78—Architectures of general purpose stored program computers comprising a single central processing unit
- G06F15/7839—Architectures of general purpose stored program computers comprising a single central processing unit with memory
- G06F15/7864—Architectures of general purpose stored program computers comprising a single central processing unit with memory on more than one IC chip
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11C—STATIC STORES
- G11C5/00—Details of stores covered by group G11C11/00
- G11C5/02—Disposition of storage elements, e.g. in the form of a matrix array
-
- H—ELECTRICITY
- H01—ELECTRIC ELEMENTS
- H01L—SEMICONDUCTOR DEVICES NOT COVERED BY CLASS H10
- H01L23/00—Details of semiconductor or other solid state devices
- H01L23/52—Arrangements for conducting electric current within the device in operation from one component to another, i.e. interconnections, e.g. wires, lead frames
- H01L23/538—Arrangements for conducting electric current within the device in operation from one component to another, i.e. interconnections, e.g. wires, lead frames the interconnection structure between a plurality of semiconductor chips being formed on, or in, insulating substrates
-
- H—ELECTRICITY
- H01—ELECTRIC ELEMENTS
- H01L—SEMICONDUCTOR DEVICES NOT COVERED BY CLASS H10
- H01L25/00—Assemblies consisting of a plurality of individual semiconductor or other solid state devices ; Multistep manufacturing processes thereof
- H01L25/03—Assemblies consisting of a plurality of individual semiconductor or other solid state devices ; Multistep manufacturing processes thereof all the devices being of a type provided for in the same subgroup of groups H01L27/00 - H01L33/00, or in a single subclass of H10K, H10N, e.g. assemblies of rectifier diodes
- H01L25/04—Assemblies consisting of a plurality of individual semiconductor or other solid state devices ; Multistep manufacturing processes thereof all the devices being of a type provided for in the same subgroup of groups H01L27/00 - H01L33/00, or in a single subclass of H10K, H10N, e.g. assemblies of rectifier diodes the devices not having separate containers
- H01L25/065—Assemblies consisting of a plurality of individual semiconductor or other solid state devices ; Multistep manufacturing processes thereof all the devices being of a type provided for in the same subgroup of groups H01L27/00 - H01L33/00, or in a single subclass of H10K, H10N, e.g. assemblies of rectifier diodes the devices not having separate containers the devices being of a type provided for in group H01L27/00
- H01L25/0652—Assemblies consisting of a plurality of individual semiconductor or other solid state devices ; Multistep manufacturing processes thereof all the devices being of a type provided for in the same subgroup of groups H01L27/00 - H01L33/00, or in a single subclass of H10K, H10N, e.g. assemblies of rectifier diodes the devices not having separate containers the devices being of a type provided for in group H01L27/00 the devices being arranged next and on each other, i.e. mixed assemblies
-
- H—ELECTRICITY
- H01—ELECTRIC ELEMENTS
- H01L—SEMICONDUCTOR DEVICES NOT COVERED BY CLASS H10
- H01L25/00—Assemblies consisting of a plurality of individual semiconductor or other solid state devices ; Multistep manufacturing processes thereof
- H01L25/03—Assemblies consisting of a plurality of individual semiconductor or other solid state devices ; Multistep manufacturing processes thereof all the devices being of a type provided for in the same subgroup of groups H01L27/00 - H01L33/00, or in a single subclass of H10K, H10N, e.g. assemblies of rectifier diodes
- H01L25/04—Assemblies consisting of a plurality of individual semiconductor or other solid state devices ; Multistep manufacturing processes thereof all the devices being of a type provided for in the same subgroup of groups H01L27/00 - H01L33/00, or in a single subclass of H10K, H10N, e.g. assemblies of rectifier diodes the devices not having separate containers
- H01L25/065—Assemblies consisting of a plurality of individual semiconductor or other solid state devices ; Multistep manufacturing processes thereof all the devices being of a type provided for in the same subgroup of groups H01L27/00 - H01L33/00, or in a single subclass of H10K, H10N, e.g. assemblies of rectifier diodes the devices not having separate containers the devices being of a type provided for in group H01L27/00
- H01L25/0657—Stacked arrangements of devices
-
- H—ELECTRICITY
- H01—ELECTRIC ELEMENTS
- H01L—SEMICONDUCTOR DEVICES NOT COVERED BY CLASS H10
- H01L25/00—Assemblies consisting of a plurality of individual semiconductor or other solid state devices ; Multistep manufacturing processes thereof
- H01L25/18—Assemblies consisting of a plurality of individual semiconductor or other solid state devices ; Multistep manufacturing processes thereof the devices being of types provided for in two or more different subgroups of the same main group of groups H01L27/00 - H01L33/00, or in a single subclass of H10K, H10N
-
- H—ELECTRICITY
- H01—ELECTRIC ELEMENTS
- H01L—SEMICONDUCTOR DEVICES NOT COVERED BY CLASS H10
- H01L27/00—Devices consisting of a plurality of semiconductor or other solid-state components formed in or on a common substrate
- H01L27/02—Devices consisting of a plurality of semiconductor or other solid-state components formed in or on a common substrate including semiconductor components specially adapted for rectifying, oscillating, amplifying or switching and having potential barriers; including integrated passive circuit elements having potential barriers
- H01L27/0203—Particular design considerations for integrated circuits
- H01L27/0207—Geometrical layout of the components, e.g. computer aided design; custom LSI, semi-custom LSI, standard cell technique
-
- H—ELECTRICITY
- H10—SEMICONDUCTOR DEVICES; ELECTRIC SOLID-STATE DEVICES NOT OTHERWISE PROVIDED FOR
- H10B—ELECTRONIC MEMORY DEVICES
- H10B80/00—Assemblies of multiple devices comprising at least one memory device covered by this subclass
-
- H—ELECTRICITY
- H01—ELECTRIC ELEMENTS
- H01L—SEMICONDUCTOR DEVICES NOT COVERED BY CLASS H10
- H01L2225/00—Details relating to assemblies covered by the group H01L25/00 but not provided for in its subgroups
- H01L2225/03—All the devices being of a type provided for in the same subgroup of groups H01L27/00 - H01L33/648 and H10K99/00
- H01L2225/04—All the devices being of a type provided for in the same subgroup of groups H01L27/00 - H01L33/648 and H10K99/00 the devices not having separate containers
- H01L2225/065—All the devices being of a type provided for in the same subgroup of groups H01L27/00 - H01L33/648 and H10K99/00 the devices not having separate containers the devices being of a type provided for in group H01L27/00
- H01L2225/06503—Stacked arrangements of devices
- H01L2225/06513—Bump or bump-like direct electrical connections between devices, e.g. flip-chip connection, solder bumps
-
- H—ELECTRICITY
- H01—ELECTRIC ELEMENTS
- H01L—SEMICONDUCTOR DEVICES NOT COVERED BY CLASS H10
- H01L2225/00—Details relating to assemblies covered by the group H01L25/00 but not provided for in its subgroups
- H01L2225/03—All the devices being of a type provided for in the same subgroup of groups H01L27/00 - H01L33/648 and H10K99/00
- H01L2225/04—All the devices being of a type provided for in the same subgroup of groups H01L27/00 - H01L33/648 and H10K99/00 the devices not having separate containers
- H01L2225/065—All the devices being of a type provided for in the same subgroup of groups H01L27/00 - H01L33/648 and H10K99/00 the devices not having separate containers the devices being of a type provided for in group H01L27/00
- H01L2225/06503—Stacked arrangements of devices
- H01L2225/06517—Bump or bump-like direct electrical connections from device to substrate
-
- H—ELECTRICITY
- H01—ELECTRIC ELEMENTS
- H01L—SEMICONDUCTOR DEVICES NOT COVERED BY CLASS H10
- H01L2225/00—Details relating to assemblies covered by the group H01L25/00 but not provided for in its subgroups
- H01L2225/03—All the devices being of a type provided for in the same subgroup of groups H01L27/00 - H01L33/648 and H10K99/00
- H01L2225/04—All the devices being of a type provided for in the same subgroup of groups H01L27/00 - H01L33/648 and H10K99/00 the devices not having separate containers
- H01L2225/065—All the devices being of a type provided for in the same subgroup of groups H01L27/00 - H01L33/648 and H10K99/00 the devices not having separate containers the devices being of a type provided for in group H01L27/00
- H01L2225/06503—Stacked arrangements of devices
- H01L2225/06527—Special adaptation of electrical connections, e.g. rewiring, engineering changes, pressure contacts, layout
- H01L2225/06531—Non-galvanic coupling, e.g. capacitive coupling
-
- H—ELECTRICITY
- H01—ELECTRIC ELEMENTS
- H01L—SEMICONDUCTOR DEVICES NOT COVERED BY CLASS H10
- H01L2225/00—Details relating to assemblies covered by the group H01L25/00 but not provided for in its subgroups
- H01L2225/03—All the devices being of a type provided for in the same subgroup of groups H01L27/00 - H01L33/648 and H10K99/00
- H01L2225/04—All the devices being of a type provided for in the same subgroup of groups H01L27/00 - H01L33/648 and H10K99/00 the devices not having separate containers
- H01L2225/065—All the devices being of a type provided for in the same subgroup of groups H01L27/00 - H01L33/648 and H10K99/00 the devices not having separate containers the devices being of a type provided for in group H01L27/00
- H01L2225/06503—Stacked arrangements of devices
- H01L2225/06541—Conductive via connections through the device, e.g. vertical interconnects, through silicon via [TSV]
Definitions
- This disclosure relates to AI chips.
- Patent Document 1 discloses a semiconductor integrated circuit device in which a system-on-chip having a plurality of logic macros and a memory chip having a memory area accessed by each logic macro are laminated. A plurality of memory chips can be stacked, and the memory capacity can be increased.
- AI processes various arithmetic processes using artificial intelligence (hereinafter referred to as AI processes) will be performed at high speed. Even if a semiconductor integrated circuit having a configuration as disclosed in Patent Document 1 can be applied to AI processing, the memory capacity can be increased, but the arithmetic processing itself is not speeded up. In order to improve the processing capacity, it is necessary to redesign the chip itself, and it is difficult to easily improve the processing capacity.
- AI processes artificial intelligence
- the AI chip includes a plurality of memory dies for storing data, a plurality of arithmetic dies for performing operations included in AI processing, and a system chip for controlling the plurality of memory dies and the plurality of arithmetic dies.
- Each of the plurality of memory dies has a first layout pattern
- each of the plurality of arithmetic dies has a second layout pattern
- the second memory die which is one of the plurality of memory dies, has a second memory die.
- the second calculation die which is laminated on the first layout pattern of the first memory die, which is one of the plurality of memory dies, and is one of the plurality of calculation dies, is one of the plurality of calculation dies. It is laminated above the second layout pattern of the first calculation die.
- the processing capacity can be easily improved.
- FIG. 1 is a schematic perspective view showing an AI chip according to an embodiment.
- FIG. 2 is a block diagram showing a configuration of a system chip included in the AI chip according to the embodiment.
- FIG. 3 is a diagram schematically showing the relationship between the block diagram shown in FIG. 2 and the perspective view shown in FIG.
- FIG. 4 is a plan view showing an example of the plan layout of the memory die according to the embodiment.
- FIG. 5 is a plan view showing an example of the plan layout of the calculation die according to the embodiment.
- FIG. 6 is a block diagram showing a configuration of an AI processing block included in the arithmetic die according to the embodiment.
- FIG. 7 is a cross-sectional view showing an example in which a TSV is used for connecting a plurality of memory dies and a plurality of arithmetic dies according to an embodiment.
- FIG. 8 is a cross-sectional view showing an example in which wireless communication is used for connecting a plurality of memory dies and a plurality of arithmetic dies according to an embodiment.
- FIG. 9 is a schematic perspective view showing the AI chip according to the first modification of the embodiment.
- FIG. 10 is a schematic perspective view showing a first example of the AI chip according to the second modification of the embodiment.
- FIG. 11 is a schematic perspective view showing a second example of the AI chip according to the second modification of the embodiment.
- FIG. 12 is a schematic perspective view showing a third example of the AI chip according to the second modification of the embodiment.
- FIG. 13 is a schematic perspective view showing a fourth example of the AI chip according to the second modification of the embodiment.
- the AI chip includes a plurality of memory dies for storing data, a plurality of arithmetic dies for performing operations included in AI processing, and a system chip for controlling the plurality of memory dies and the plurality of arithmetic dies.
- Each of the plurality of memory dies has a first layout pattern
- each of the plurality of arithmetic dies has a second layout pattern
- the second memory die which is one of the plurality of memory dies, has a second memory die.
- the second calculation die which is laminated on the first layout pattern of the first memory die, which is one of the plurality of memory dies, and is one of the plurality of calculation dies, is one of the plurality of calculation dies. It is laminated above the second layout pattern of the first calculation die.
- system chip may include the first memory die and the first calculation die.
- the system chip may include an interposer, and at least one of the first memory die and the first arithmetic die may be laminated on the interposer.
- the interposer by redesigning only the memory die and the arithmetic die, the processing capacity of the AI chip can be improved without redesigning the entire system chip.
- the first memory die and the first calculation die may be stacked on the interposer.
- the system chip has a first region and a second region that do not overlap each other in a plan view, the plurality of memory dies are stacked in the first region, and the plurality of arithmetic dies are the first region. It may be laminated in two regions.
- the memory die and the calculation die are stacked separately, so that the layout pattern of the memory die and the layout pattern of the calculation die may be completely different.
- the layout pattern can be optimized for each of the memory die and the calculation die.
- one of the first memory die and the first calculation die may be stacked above the other of the first memory die and the first calculation die.
- the memory die and the calculation die can be stacked in the same area, so that the area of the system chip can be reduced.
- each of the plurality of arithmetic dies may have a rewritable circuit, and the rewritable circuit may include an accelerator circuit for AI processing.
- the rewritable circuit may include a logic block and a switch block.
- the operation included in the AI process may include at least one of a convolution operation, a matrix operation, and a pooling operation.
- the convolution operation may include an operation performed in a logarithmic region.
- the AI processing may include an error diffusion method using dither.
- the system chip may include a control block and a bus that electrically connects the control block to the plurality of memory dies and the plurality of arithmetic dies.
- the plurality of first layout patterns may be connected to each other via a through conductor.
- the plurality of first layout patterns may be wirelessly connected to each other.
- the plurality of second layout patterns may be connected to each other via a through conductor.
- the plurality of second layout patterns may be wirelessly connected to each other.
- each figure is a schematic diagram and is not necessarily exactly illustrated. Therefore, for example, the scales and the like do not always match in each figure. Further, in each figure, substantially the same configuration is designated by the same reference numeral, and duplicate description will be omitted or simplified.
- the terms “upper” and “lower” do not refer to the upward direction (vertically upward) and the downward direction (vertically downward) in absolute spatial recognition, but are based on the stacking order in the laminated configuration. It is used as a term defined by the relative positional relationship. Also, the terms “upper” and “lower” are used not only when the two components are spaced apart from each other and another component exists between the two components, but also when the two components are present. It also applies when the two components are placed in close contact with each other and touch each other.
- FIG. 1 is a schematic perspective view showing an AI chip 1 according to the present embodiment.
- the AI chip 1 shown in FIG. 1 is a semiconductor chip that executes AI processing.
- AI processing is various arithmetic processing for utilizing artificial intelligence, and is used for, for example, natural language processing, voice recognition processing, image recognition processing and recommendation, control processing of various devices, and the like.
- AI processing includes, for example, machine learning or deep learning.
- the AI chip 1 includes a system chip 100, a package board 101, a plurality of memory dies 201 for storing data, and a plurality of arithmetic dies 301 for performing operations included in AI processing.
- the system chip 100 is mounted on the package board 101.
- the plurality of memory dies 201 and the plurality of arithmetic dies 301 are mounted on the system chip 100.
- Each of the plurality of memory dies 201 and the plurality of arithmetic dies 301 is a bare chip.
- the system chip 100 includes a memory die 200 for storing data and a calculation die 300 for performing operations included in AI processing. Therefore, the system chip 100 can execute the AI process independently (that is, even if the memory die 201 and the calculation die 301 are not stacked).
- a memory die 201 and an arithmetic die 301 are additionally provided in order to speed up the AI processing.
- the memory dies 201 and the calculation dies 301 are provided in the required number to improve the memory capacity and the calculation capacity, respectively.
- the plurality of memory dies 201 are stacked above the memory dies 200. As the number of memory dies 201 is increased, the memory capacity available for AI processing can be increased. The number of memory dies 201 is determined according to the memory capacity required for the AI chip 1.
- the AI chip 1 includes at least one memory die 201. The memory capacity increases in proportion to the number of memory dies.
- the plurality of calculation dies 301 are stacked above the calculation dies 300. As the number of calculation dies 301 is increased, the calculation capacity that can be used for AI processing can be increased. The number of arithmetic dies 301 is determined according to the arithmetic capacity required for the AI chip 1.
- the AI chip 1 includes at least one arithmetic die 301.
- the computing power is, for example, the number of instructions that can be executed per unit time (TOPS: Tera Operations Per Second).
- TOPS Tera Operations Per Second
- one arithmetic die 301 has an instruction execution capability of 40 TOPS with a power consumption of 1 W.
- the AI chip 1 since a total of seven arithmetic dies including the arithmetic die 300 are stacked, the AI chip 1 has an instruction execution capability of 280 TOPS with a power consumption of 7 W. In this way, the processing capacity of the AI chip 1 increases in proportion to the number of arithmetic dies.
- the memory die and the calculation die are stacked separately. That is, the plurality of memory dies and the plurality of arithmetic dies are arranged in different regions in the plan view of the system chip 100.
- the system chip 100 has a first region 102 and a second region 103, as shown in FIG.
- the first region 102 is a region different from the second region 103 in a plan view.
- the memory die 200 and the plurality of memory dies 201 are arranged in the first area 102. Specifically, all the memory dies 201 are stacked on the memory dies 200 arranged in the first area 102. The memory die 200 and all the memory dies 201 overlap each other in a plan view. One memory die 201 is laminated on one memory die 200 or 201.
- the calculation die 300 and the plurality of calculation dies 301 are arranged in the second area 103. Specifically, all the calculation dies 301 are stacked on the calculation dies 300 arranged in the second region 103. The calculation die 300 and all the calculation dies 301 overlap each other in a plan view. One calculation die 301 is laminated on one calculation die 300 or 301.
- the memory die and the calculation die are configured so that the required number of each can be stacked. That is, when the memory capacity is required, the required number of memory dies 201 can be stacked. If computing power is required, the required number of computing dies 301 can be stacked. When both the memory capacity and the calculation capacity are required, the required number of memory dies 201 and calculation dies 301 can be stacked. In this way, the performance of the AI chip 1 can be easily changed to scalable. Therefore, the processing capacity of the AI chip 1 can be easily improved.
- FIG. 2 is a block diagram showing a configuration of a system chip 100 included in the AI chip 1 according to the present embodiment.
- the system chip 100 controls the entire AI chip 1. Specifically, the system chip 100 controls a plurality of memory dies 200 and 201 and a plurality of arithmetic dies 300 and 301.
- the system chip 100 includes a microcontroller 110, a system bus 120, an external interface 130, an image processing engine 140, a DRAM (Dynamic Random Access Memory) controller 150, and an AI accelerator 160. Be prepared.
- the microcontroller 110 is an example of a control block that controls the entire system chip 100.
- the microcontroller 110 transmits / receives data and information to / from each of the external interface 130, the image processing engine 140, the DRAM controller 150, and the AI accelerator 160 via the system bus 120, and executes calculations and instructions.
- the microcontroller 110 includes a plurality of CPUs (Central Processing Units) 111 and an L2 cache 112.
- the number of CPUs 111 included in the microcontroller 110 may be only one. Further, the microcontroller 110 does not have to include the L2 cache 112.
- the microcontroller 110 stores data necessary for AI processing in an arbitrary memory die selected from the memory die 200 and the plurality of memory dies 201. That is, the data that can be stored in one memory die 200 or 201 can also be stored in another memory die 200 or 201.
- the microcontroller 110 uses all the stacked memory dies 201 as an effective memory area. When the memory dies 201 are newly stacked, the microcontroller 110 can control the new memory dies 201 in the same manner as the existing memory dies 200 or 201.
- the microcontroller 110 causes an arbitrary calculation die selected from the calculation die 300 and the plurality of calculation dies 301 to execute the calculation included in the AI processing. That is, an instruction that can be executed by one calculation die 300 or 301 can also be executed by another calculation die 300 or 301.
- the microcontroller 110 uses all the stacked arithmetic dies 301 as an effective arithmetic circuit. When the arithmetic dies 301 are newly stacked, the microcontroller 110 can control the new arithmetic dies 301 in the same manner as the existing arithmetic dies 300 or 301.
- the system bus 120 is wiring used for transmitting and receiving data and signals.
- a microcontroller 110, an external interface 130, an image processing engine 140, a DRAM controller 150, and an AI accelerator 160 are electrically connected to the system bus 120 and can communicate with each other.
- the external interface 130 is an interface for transmitting / receiving data and signals to / from an external device different from the AI chip 1.
- the image processing engine 140 is a signal processing circuit that processes an image signal or a video signal.
- the image processing engine 140 executes image quality adjustment processing and the like.
- the DRAM controller 150 is a memory controller that reads and writes data to an external memory different from the AI chip 1.
- the AI accelerator 160 is a signal processing circuit that performs AI processing at high speed. As shown in FIG. 2, the AI accelerator 160 includes an internal bus 161, a memory die 200, an arithmetic die 300, and a DSP (Digital Signal Processor) 400.
- the AI accelerator 160 includes an internal bus 161, a memory die 200, an arithmetic die 300, and a DSP (Digital Signal Processor) 400.
- DSP Digital Signal Processor
- the internal bus 161 is wiring used for transmitting and receiving data and signals in the AI accelerator 160.
- a memory die 200, an arithmetic die 300, and a DSP 400 are electrically connected to the internal bus 161 and can communicate with each other.
- the internal bus 161 is also used for transmitting and receiving data and signals to a plurality of memory dies 201 and a plurality of arithmetic dies 301.
- the internal bus 161 and the system bus 120 constitute a bus that electrically connects the microcontroller 110, the plurality of memory dies 200 and 201, and the plurality of arithmetic dies 300 and 301.
- the memory die 200 is an example of a first memory die, which is one of a plurality of memory dies included in the AI chip 1. As shown in FIG. 3, a plurality of memory dies 201 are stacked above the layout pattern (first layout pattern) of the memory die 200. Here, FIG. 3 is a diagram schematically showing the relationship between the block diagram shown in FIG. 2 and the perspective view shown in FIG. Each of the plurality of memory dies 201 is an example of a second memory die laminated on the first layout pattern of the first memory die.
- the calculation die 300 is an example of a first calculation die, which is one of a plurality of calculation dies included in the AI chip 1. As shown in FIG. 3, a plurality of calculation dies 301 are laminated on the layout pattern (second layout pattern) of the calculation die 300. Each of the plurality of calculation dies 301 is an example of the second calculation die laminated on the second layout pattern of the first calculation die.
- DSP400 is a processor that performs digital signal processing related to AI processing.
- the configuration of the system chip 100 is not limited to the example shown in FIG.
- the system chip 100 does not have to include the image processing engine 140.
- the system chip 100 may include a signal processing circuit or the like dedicated to predetermined processing.
- FIG. 4 is a plan view showing an example of the plan layout of the memory dies 200 and 201 included in the AI chip 1 according to the present embodiment.
- Each of the memory die 200 and the plurality of memory dies 201 has the same layout pattern. Specifically, the memory die 200 and each of the plurality of memory dies 201 have the same configuration, and the respective memory capacities are the same. Hereinafter, the configuration of the memory die 201 will be mainly described.
- the memory die 201 is, for example, a volatile memory such as DRAM or SRAM.
- the memory die 201 may be a non-volatile memory such as a NAND flash memory.
- the memory die 200 includes one or more memory blocks 210, one or more input / output ports 240, and one or more wiring 260.
- the one or more memory blocks 210, the one or more input / output ports 240, and the one or more wiring 260 are formed on the surface or inside of the silicon substrate constituting the memory die 201, respectively.
- the layout pattern of the memory die 201 is represented by the size, shape, number, and arrangement of the memory block 210, the input / output ports 240, and the wiring 260, respectively.
- Each one or more memory blocks 210 is a storage circuit that includes one or more memory cells and stores data.
- one or more memory blocks 210 include those having different areas (memory capacities), but all the memory blocks 210 may have the same area.
- Each one or more input / output ports 240 are terminals for inputting / outputting data and signals to / from the memory die 201.
- the memory die 201 is electrically connected to the vertically stacked memory dies 200 or 201 via the input / output port 240.
- the memory die 201 is electrically connected to the memory die 200, and is electrically connected to the internal bus 161 and the system bus 120 via the memory die 200.
- one or more input / output ports 240 are arranged in a ring shape along the outer circumference of the memory die 201, but the present invention is not limited to this.
- one or more input / output ports 240 may be provided in the center of the memory die 201.
- One or more wirings 260 are electrical wirings that connect the input / output ports 240 and the memory block 210, and are used for transmitting and receiving data.
- One or more wires 260 include, for example, bit wires and word wires.
- one or more wirings 260 are provided in a grid pattern, but may be in a striped pattern.
- FIG. 4 an example of the configurations of the memory dies 200 and 201 is schematically shown in a simplified manner, but the configurations of the memory dies 200 and 201 are not particularly limited as long as the layout patterns are the same.
- FIG. 5 is a diagram showing an example of the planar layout of the arithmetic dies 300 and 301 included in the AI chip 1 according to the present embodiment.
- Each of the calculation die 300 and the plurality of calculation dies 301 has the same layout pattern. Specifically, the arithmetic die 300 and each of the plurality of arithmetic dies 301 have the same configuration, and each arithmetic capability is the same. Hereinafter, the configuration of the calculation die 301 will be mainly described.
- the arithmetic die 301 has a rewritable circuit.
- the calculation die 301 is an FPGA (Field Programmable Gate Array).
- the arithmetic die 301 includes one or more AI processing blocks 310, one or more logic blocks 320, one or more switch blocks 330, and one or more input / output ports 340. , One or more connection blocks 350 and one or more wiring 360.
- the wiring 360 is formed on the surface or inside of the silicon substrate constituting the arithmetic die 301.
- the layout pattern of the arithmetic die 301 is represented by the size, shape, number, and arrangement of the AI processing block 310, the logic block 320, the switch block 330, the input / output port 340, the connection block 350, and the wiring 360, respectively.
- Each of the one or more AI processing blocks 310 is an accelerator circuit for AI processing.
- the specific configuration of the AI processing block 310 will be described later with reference to FIG.
- Each of the one or more logic blocks 320 is an arithmetic circuit that performs a logical operation.
- the one or more AI processing blocks 310 and the one or more logic blocks 320 are arranged side by side in a matrix.
- one or more AI processing blocks 310 and one or more logic blocks 320 are arranged side by side in 3 rows ⁇ 3 columns, and each block is arranged in a switch block 330 and a switch block 330. It is electrically connected by wiring 360 via the connection block 350.
- the number of AI processing blocks 310 may be only one, and is not particularly limited. Further, the arrangement of one or more AI processing blocks 310 and one or more logic blocks 320 is not limited to the matrix, and may be striped.
- Each one or more switch blocks 330 is a switching circuit that switches the connection relationship of two to four connection blocks 350 located next to the switch block 330.
- Each one or more input / output ports 340 are terminals for inputting / outputting data and signals to the arithmetic die 301.
- the arithmetic die 301 is connected to the arithmetic dies 300 or 301 stacked vertically via the input / output port 340.
- the calculation die 301 is connected to the calculation die 300, and is connected to the internal bus 161 and the system bus 120 via the calculation die 300.
- one or more input / output ports 340 are arranged in a ring shape along the outer circumference of the arithmetic die 301, but the present invention is not limited to this.
- one or more input / output ports 340 may be provided in the center of the arithmetic die 301.
- connection blocks 350 is a circuit for connecting to the AI processing block 310, the logic block 320, and the switch block 330 located next to the connection block 350.
- One or more wirings 360 are electrical wirings that connect the input / output ports 340 to the AI processing block 310, the logic block 320, and the like, and are used for transmitting and receiving data.
- one or more wirings 360 are provided in a grid pattern, but may be in a striped pattern.
- the arithmetic die 301 can perform specific arithmetic processing by switching the connection relationship between the input / output port 340, the AI processing block 310, and the logical block 320 in the switch block 330 and the connection block 350. Switching between the switch block 330 and the connection block 350 is performed using, for example, configuration information (configuration data) stored in a memory (not shown).
- FIG. 6 is a block diagram showing a configuration of an AI processing block 310 included in the arithmetic dies 300 and 301 according to the present embodiment.
- the AI processing block 310 performs the operations included in the AI processing. Specifically, the AI processing block 310 performs at least one of a convolution operation, a matrix operation, and a pooling operation.
- the AI processing block 310 includes a logarithmic processing circuit 311 as shown in FIG.
- the logarithmic processing circuit 311 performs an operation on the logarithm-quantized input data.
- the logarithmic processing circuit 311 performs a convolution operation of the logarithm-quantized input data.
- the multiplication process included in the convolution operation can be executed by the addition process by converting the data to be calculated into a logarithmic area. As a result, the speed of AI processing is realized.
- the AI processing performed by the AI processing block 310 may include an error diffusion method using dither.
- the AI processing block 310 includes a dither circuit 312.
- the dither circuit 312 performs an operation using an error diffusion method. As a result, deterioration of calculation accuracy can be suppressed even with a small number of bits.
- FIG. 5 an example of the configuration of the calculation dies 300 and 301 is shown in a schematic manner, but the configurations of the calculation dies 300 and 301 are not particularly limited as long as the layout patterns are the same.
- FIG. 7 is a cross-sectional view showing an example in which a TSV is used for connecting a plurality of memory dies 201 and a plurality of arithmetic dies 301 according to the present embodiment.
- FIG. 7 shows how the system chip 100 is mounted on the package substrate 101 via the bump electrode 180.
- the memory die 200 and the calculation die 300 are integrally formed in the system chip 100, but in FIG. 7, a broken line and a shaded line schematically represent an area in which the memory die 200 and the calculation die 300 are provided. This is the same in FIG.
- TSV270 is provided in each of the plurality of memory dies 201.
- the TSV270 is an example of a through conductor penetrating the memory die 201.
- the TSV270 is formed using, for example, a metal material such as copper (Cu). Specifically, after forming a through hole penetrating the memory die 201 in the thickness direction, the inner wall of the through hole is covered with an insulating film, and then the through hole is filled with a metal material by an electrolytic plating method or the like to form TSV270. can do.
- a bump electrode 280 is formed at at least one end of the TSV270 using a metal material such as copper, and the TSV270s of the memory dies 201 adjacent to each other in the stacking direction are electrically connected to each other. Note that the memory dies 201 adjacent to each other in the stacking direction may be connected without using the bump electrode 280.
- the TSV270 and the bump electrode 280 are provided at positions overlapping the input / output port 240 shown in FIG. 4 in a plan view.
- the positions of the input / output ports 240 match in a plan view when the memory dies 200 and the plurality of memory dies 201 have the same layout pattern. Therefore, the memory dies 201 can be easily electrically connected to each other by the TSV270 penetrating the memory dies 201 in the thickness direction.
- TSV370 is provided in each of the plurality of calculation dies 301.
- the TSV370 is an example of a penetrating conductor penetrating the arithmetic die 301.
- the material and forming method of TSV370 are the same as those of TSV270.
- a bump electrode 380 is formed at at least one end of the TSV370 using a metal material such as copper, and the TSV370s of the arithmetic dies 301 adjacent to each other in the stacking direction are electrically connected to each other. It should be noted that the arithmetic dies 301 adjacent to each other in the stacking direction may be connected without using the bump electrode 380.
- the TSV370 and the bump electrode 380 are provided at positions overlapping the input / output port 340 shown in FIG. 5 in a plan view.
- the positions of the input / output ports 340 match in a plan view when the arithmetic dies 300 and the plurality of arithmetic dies 301 are stacked. Therefore, the TSV370 penetrating the arithmetic dies 301 in the thickness direction can easily electrically connect the arithmetic dies 301 to each other.
- TSV270 is provided for each of all memory dies 201 except the top layer memory die 201.
- TSV270 is provided in each of the remaining memory dies 201 except the uppermost layer and the second memory die 201 from the top.
- the TSV270 used for connecting the uppermost memory die 201 and the TSV270 used for connecting the second memory die 201 from the top may be the same TSV and shared, or may be shared by different TSVs. It does not have to be. The same applies to the calculation die 301.
- FIG. 8 is a cross-sectional view showing an example in which radio is used for connecting a plurality of memory dies 201 and a plurality of arithmetic dies 301 according to the present embodiment.
- Wireless connections are also referred to as wireless TSV technology.
- each of the plurality of memory dies 201 is provided with a wireless communication circuit 290.
- the wireless communication circuit 290 performs ultra-short-range wireless communication with a communication range of about several tens of ⁇ m.
- the wireless communication circuit 290 has a minute coil and communicates by utilizing the magnetic field coupling between the coils.
- each of the plurality of arithmetic dies 301 is provided with a wireless communication circuit 390.
- the wireless communication circuit 390 performs ultra-short-range wireless communication with a communication range of about several tens of ⁇ m.
- the wireless communication circuit 390 has a minute coil and communicates by utilizing the magnetic field coupling between the coils.
- FIG. 8 shows an example in which the wireless communication circuits 290 and 390 are embedded in the substrate, respectively, but the present invention is not limited to this.
- the wireless communication circuits 290 and 390 may be provided on at least one of the upper surface and the lower surface of the substrate.
- a TSV may be used to connect the memory die 201, and a wireless may be used to connect the arithmetic die 301.
- wireless may be used for the connection of the memory die 201
- TSV may be used for the connection of the arithmetic die 301.
- both TSV and wireless may be used for the connection of the memory die 201.
- both TSV and wireless may be used to connect the arithmetic die 301.
- FIG. 9 is a schematic perspective view showing the AI chip 2 according to the modified example 1.
- the system chip 100 includes an interposer 500.
- the system chip 100 does not include a memory die 200 and an arithmetic die 300.
- the interposer 500 is a relay component that relays the electrical connection between the chip and the board.
- one of the plurality of memory dies 201 and one of the plurality of arithmetic dies 301 are laminated on the interposer 500, respectively.
- the remaining memory dies 201 are stacked above the memory dies 201 stacked on the interposer 500.
- the remaining arithmetic dies 301 are laminated above the arithmetic dies 301 laminated on the interposer 500.
- the system chip 100 may include one of the memory die 200 and the arithmetic die 300. In other words, only one of the memory die and the calculation die may be stacked on the interposer 500.
- the AI chip 2 may include one or more memory dies 201 stacked above the memory dies 200 included in the system chip 100, and a plurality of arithmetic dies 301 stacked on the interposer 500.
- the AI chip 2 may include one or more arithmetic dies 301 stacked on the arithmetic dies 300 included in the system chip 100, and a plurality of memory dies 201 laminated on the interposer 500.
- 10 to 13 are schematic perspective views showing AI chips 3 to 6 according to the second modification, respectively.
- the system chip 100 includes a memory die 200 and does not include an arithmetic die 300.
- a plurality of memory dies 201 and a plurality of arithmetic dies 301 are stacked in this order above the memory dies 200. That is, the calculation die 301 of the lowest layer among the plurality of calculation dies 301 is stacked on the memory die 201 of the uppermost layer of the plurality of memory dies 201.
- a plurality of memory dies 201 may be stacked above the plurality of arithmetic dies 301.
- the system chip 100 includes a calculation die 300 and no memory die 200.
- a plurality of calculation dies 301 and a plurality of memory dies 201 are stacked in this order above the calculation die 300. That is, the memory die 201 of the lowest layer among the plurality of memory dies 201 is stacked on the arithmetic die 301 of the uppermost layer of the plurality of arithmetic dies 301.
- the memory dies 201 and the arithmetic dies 301 may be alternately stacked.
- the system chip 100 includes a memory die 200 and does not include an arithmetic die 300.
- the arithmetic die 301 and the memory die 201 are alternately stacked one by one on the memory die 200.
- the system chip 100 may include a calculation die 300 and may not include a memory die 200.
- the memory dies 201 and the arithmetic dies 301 may be alternately stacked one by one on the arithmetic die 300.
- the system chip 100 may include a memory die 200 and an arithmetic die 300.
- the memory dies 201 and the arithmetic dies 301 may be alternately stacked one by one above each of the memory dies 200 and the arithmetic dies 300. Further, at least one of the memory die 201 and the calculation die 301 may be stacked one by one.
- the memory die 201 and the calculation die 301 may be stacked on the interposer 500.
- the system chip 100 does not include either the memory die 200 or the arithmetic die 300, but includes an interposer 500.
- One of a plurality of arithmetic dies 301 is laminated on the interposer 500.
- the remaining arithmetic die 301 and memory die 201 are laminated above the arithmetic die 301 laminated on the interposer 500.
- the memory die 201 may be stacked on the interposer 500.
- the memory dies 201 and the arithmetic dies 301 stacked above the interposer 500 may be alternately stacked one by one, or may be stacked one by one.
- the stacking method of the memory die and the calculation die is not particularly limited, and an AI chip with a high degree of freedom in design change is realized.
- one memory die does not have to be directly stacked on the first layout pattern of the other memory die. That is, the memory dies located in the upper layer may be stacked above the layout pattern of the memory dies located in the lower layer, and an arithmetic die may be interposed between them. Similarly, one arithmetic die may not be directly stacked on the second layout pattern of the other arithmetic dies. That is, the arithmetic dies located in the upper layer may be stacked above the layout pattern of the arithmetic dies located in the lower layer, and a memory die may be interposed between them. It should be noted that the memory dies, the calculation dies, or the memory dies and the calculation dies are stacked without interposers.
- the arithmetic dies 300 and 301 may be non-rewritable circuits.
- the arithmetic dies 300 and 301 may include at least one AI processing block 310, and may not include a logic block 320, a switch block 330, and a connection block 350.
- This disclosure can be used as an AI chip that can easily improve the processing capacity, and can be used, for example, for various electric appliances and computer devices.
- AI chip 100 System chip 101 Package board 102 First area 103 Second area 110 Microcontroller 111 CPU 112 L2 cache 120 system bus 130 external interface 140 image processing engine 150 DRAM controller 160 AI accelerator 161 internal bus 180, 280, 380 bump electrode 200, 201 memory die 210 memory block 240, 340 input / output port 260, 360 wiring 270, 370 TSV 290 390 Wireless communication circuit 300, 301 Arithmetic die 310 AI processing block 311 Logarithmic processing circuit 312 Dither circuit 320 Logic block 330 Switch block 350 Connection block 400 DSP (digital signal processor) 500 interposer
- DSP digital signal processor
Landscapes
- Engineering & Computer Science (AREA)
- Power Engineering (AREA)
- Microelectronics & Electronic Packaging (AREA)
- Computer Hardware Design (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Condensed Matter Physics & Semiconductors (AREA)
- General Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Design And Manufacture Of Integrated Circuits (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Semiconductor Memories (AREA)
- Neurology (AREA)
- Semiconductor Integrated Circuits (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
Abstract
AIチップ(1)は、データを記憶する複数のメモリダイ(200、201)と、AI処理に含まれる演算を行う複数の演算ダイ(300、301)と、複数のメモリダイ(200、201)及び複数の演算ダイ(300、301)を制御するシステムチップ(100)とを備える。複数のメモリダイ(200、201)の各々は、第1レイアウトパターンを有する。複数の演算ダイ(300、301)の各々は、第2レイアウトパターンを有する。メモリダイ(201)は、メモリダイ(200)の第1レイアウトパターンの上方に積層されている。演算ダイ(301)は、演算ダイ(300)の第2レイアウトパターンの上方に積層されている。
Description
本開示は、AIチップに関する。
特許文献1には、論理マクロを複数備えるシステムオンチップと、各論理マクロがアクセスするメモリ領域を有するメモリチップとが積層された半導体集積回路装置が開示されている。複数のメモリチップが積層可能であり、メモリ容量を増やすことができる。
近年、人工知能(AI)を用いた様々な演算処理(以下、AI処理と記載する)を高速に行うことが期待されている。特許文献1に開示されるような構成の半導体集積回路をAI処理に応用できたとしても、メモリ容量を増やすことができるものの、演算処理自体が高速化される訳ではない。処理能力を向上させるためには、チップ自体の再設計などが必要になり、簡単に処理能力を向上させることが難しい。
そこで、本開示は、処理能力を簡単に向上させることができるAIチップを提供することを目的とする。
本開示の一態様に係るAIチップは、データを記憶する複数のメモリダイと、AI処理に含まれる演算を行う複数の演算ダイと、前記複数のメモリダイ及び前記複数の演算ダイを制御するシステムチップとを備え、前記複数のメモリダイの各々は、第1レイアウトパターンを有し、前記複数の演算ダイの各々は、第2レイアウトパターンを有し、前記複数のメモリダイの1つである第2メモリダイは、前記複数のメモリダイの1つである第1メモリダイの前記第1レイアウトパターンの上方に積層され、前記複数の演算ダイの1つである第2演算ダイは、前記複数の演算ダイの1つである第1演算ダイの前記第2レイアウトパターンの上方に積層されている。
本開示に係るAIチップによれば、処理能力を簡単に向上させることができる。
(本開示の概要)
本開示の一態様に係るAIチップは、データを記憶する複数のメモリダイと、AI処理に含まれる演算を行う複数の演算ダイと、前記複数のメモリダイ及び前記複数の演算ダイを制御するシステムチップとを備え、前記複数のメモリダイの各々は、第1レイアウトパターンを有し、前記複数の演算ダイの各々は、第2レイアウトパターンを有し、前記複数のメモリダイの1つである第2メモリダイは、前記複数のメモリダイの1つである第1メモリダイの前記第1レイアウトパターンの上方に積層され、前記複数の演算ダイの1つである第2演算ダイは、前記複数の演算ダイの1つである第1演算ダイの前記第2レイアウトパターンの上方に積層されている。
本開示の一態様に係るAIチップは、データを記憶する複数のメモリダイと、AI処理に含まれる演算を行う複数の演算ダイと、前記複数のメモリダイ及び前記複数の演算ダイを制御するシステムチップとを備え、前記複数のメモリダイの各々は、第1レイアウトパターンを有し、前記複数の演算ダイの各々は、第2レイアウトパターンを有し、前記複数のメモリダイの1つである第2メモリダイは、前記複数のメモリダイの1つである第1メモリダイの前記第1レイアウトパターンの上方に積層され、前記複数の演算ダイの1つである第2演算ダイは、前記複数の演算ダイの1つである第1演算ダイの前記第2レイアウトパターンの上方に積層されている。
これにより、メモリ容量が必要な場合にはメモリダイを、演算能力が必要な場合には演算ダイを、それぞれに必要な個数積層することができる。つまり、AIチップの性能を簡単にスケーラブルに変更することができる。このため、AIチップの処理能力を簡単に向上させることができる。
また、例えば、前記システムチップは、前記第1メモリダイと前記第1演算ダイとを備えてもよい。
これにより、インターポーザを利用しなくてよいので、AIチップの低コスト化を実現することができる。
また、例えば、前記システムチップは、インターポーザを備え、前記第1メモリダイ及び前記第1演算ダイの少なくとも一方は、前記インターポーザ上に積層されていてもよい。
これにより、インターポーザを利用することで、メモリダイ及び演算ダイのみを再設計することで、システムチップ全体の再設計を行うことなく、AIチップの処理能力を向上させることができる。
また、例えば、前記第1メモリダイ及び前記第1演算ダイは、前記インターポーザ上に積層されていてもよい。
これにより、メモリダイ及び演算ダイの配置の自由度を高めることができる。
また、例えば、前記システムチップは、平面視において、互いに重複しない第1領域及び第2領域を有し、前記複数のメモリダイは、前記第1領域に積層され、前記複数の演算ダイは、前記第2領域に積層されていてもよい。
これにより、メモリダイと演算ダイとが別々に積層されるので、メモリダイのレイアウトパターンと演算ダイのレイアウトパターンとが全く異なっていてもよい。メモリダイと演算ダイとで、レイアウトパターンをそれぞれに最適化することができる。
また、例えば、前記第1メモリダイ及び前記第1演算ダイの一方は、前記第1メモリダイ及び前記第1演算ダイの他方の上方に積層されていてもよい。
これにより、メモリダイと演算ダイとを同じ領域に積層することができるので、システムチップの小面積化を実現することができる。
また、例えば、前記複数の演算ダイの各々は、書き換え可能回路を有し、前記書き換え可能回路は、前記AI処理用のアクセラレータ回路を含んでもよい。
これにより、回路の書き換えが可能でありながら、AI処理を高速化することができる。
また、例えば、前記書き換え可能回路は、論理ブロック及びスイッチブロックを含んでもよい。
これにより、AI処理の高速化だけでなく、その他の論理演算を高速に処理することができる。
また、例えば、前記AI処理に含まれる演算は、畳み込み演算、行列演算及びプーリング演算の少なくとも1つを含んでもよい。
これにより、AI処理を高速化することができる。
また、例えば、前記畳み込み演算は、対数領域で行う演算を含んでもよい。
これにより、乗算を使わずに加算だけで演算が可能になるので、AI処理を高速化することができる。また、演算ダイの小面積化が実現できる。
また、例えば、前記AI処理は、ディザを用いた誤差拡散手法を含んでもよい。
これにより、ディザを使うことで、低ビット数でも精度劣化を抑制することができる。
また、例えば、前記システムチップは、制御ブロックと、前記制御ブロックと前記複数のメモリダイ及び前記複数の演算ダイとを電気的に接続するバスとを含んでもよい。
これにより、AIチップのみで複雑な処理を実行することができる。
また、例えば、複数の前記第1レイアウトパターンは、互いに貫通導体を介して接続されていてもよい。
これにより、メモリダイ間の導通を容易に確保することができ、データ及び信号の送受信が可能になる。
また、例えば、複数の前記第1レイアウトパターンは、互いに無線で接続されていてもよい。
これにより、無線通信によってメモリダイ間のデータ及び信号の送受信を簡単に行うことができる。また、AIチップの低コスト化も実現することができる。
また、例えば、複数の前記第2レイアウトパターンは、互いに貫通導体を介して接続されていてもよい。
これにより、演算ダイ間の導通を容易に確保することができ、データ及び信号の送受信が可能になる。
また、例えば、複数の前記第2レイアウトパターンは、互いに無線で接続されていてもよい。
これにより、無線通信によって演算ダイ間のデータ及び信号の送受信を簡単に行うことができる。また、AIチップの低コスト化も実現することができる。
以下では、実施の形態について、図面を参照しながら具体的に説明する。
なお、以下で説明する実施の形態は、いずれも包括的又は具体的な例を示すものである。以下の実施の形態で示される数値、形状、材料、構成要素、構成要素の配置位置及び接続形態、ステップ、ステップの順序などは、一例であり、本開示を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、独立請求項に記載されていない構成要素については、任意の構成要素として説明される。
また、各図は、模式図であり、必ずしも厳密に図示されたものではない。したがって、例えば、各図において縮尺などは必ずしも一致しない。また、各図において、実質的に同一の構成については同一の符号を付しており、重複する説明は省略又は簡略化する。
また、本明細書において、「上方」及び「下方」という用語は、絶対的な空間認識における上方向(鉛直上方)及び下方向(鉛直下方)を指すものではなく、積層構成における積層順を基に相対的な位置関係により規定される用語として用いる。また、「上方」及び「下方」という用語は、2つの構成要素が互いに間隔を空けて配置されて2つの構成要素の間に別の構成要素が存在する場合のみならず、2つの構成要素が互いに密着して配置されて2つの構成要素が接する場合にも適用される。
(実施の形態)
[1.概要]
まず、実施の形態に係るAIチップの概要について、図1を用いて説明する。図1は、本実施の形態に係るAIチップ1を示す模式的な斜視図である。
[1.概要]
まず、実施の形態に係るAIチップの概要について、図1を用いて説明する。図1は、本実施の形態に係るAIチップ1を示す模式的な斜視図である。
図1に示されるAIチップ1は、AI処理を実行する半導体チップである。AI処理は、人工知能を利用するための各種演算処理であり、例えば、自然言語処理、音声認識処理、画像認識処理及びレコメンデーション、並びに、各種機器の制御処理などに利用される。AI処理には、例えば機械学習又はディープラーニングなどが含まれる。
図1に示されるように、AIチップ1は、システムチップ100と、パッケージ基板101と、データを記憶する複数のメモリダイ201と、AI処理に含まれる演算を行う複数の演算ダイ301とを備える。システムチップ100は、パッケージ基板101に実装されている。複数のメモリダイ201及び複数の演算ダイ301は、システムチップ100に実装されている。複数のメモリダイ201及び複数の演算ダイ301はそれぞれが、ベアチップである。
本実施の形態では、システムチップ100は、データを記憶するメモリダイ200と、AI処理に含まれる演算を行う演算ダイ300とを備える。このため、システムチップ100は、単独で(すなわち、メモリダイ201及び演算ダイ301が積層されていなくても)AI処理を実行することができる。AI処理を高速化するために、メモリダイ201及び演算ダイ301が追加的に設けられる。メモリダイ201及び演算ダイ301はそれぞれ、メモリ容量及び演算能力を向上させるために必要な個数設けられる。
複数のメモリダイ201は、メモリダイ200の上方に積層される。メモリダイ201の個数を増やす程、AI処理に利用可能なメモリ容量を増やすことができる。メモリダイ201の個数は、AIチップ1に要求されるメモリ容量に応じて決定される。AIチップ1は、少なくとも1つのメモリダイ201を備える。メモリ容量は、メモリダイの個数に比例して向上する。
複数の演算ダイ301は、演算ダイ300の上方に積層される。演算ダイ301の個数を増やす程、AI処理に利用できる演算能力を増やすことができる。演算ダイ301の個数は、AIチップ1に要求される演算能力に応じて決定される。AIチップ1は、少なくとも1つの演算ダイ301を備える。
演算能力は、例えば、単位時間当たりに実行可能な命令数(TOPS:Tera Operations Per Second)である。例えば、1つの演算ダイ301は、1Wの消費電力で40TOPSの命令実行能力を有する。図1に示されるように、演算ダイ300を含めて合計7つの演算ダイが積層されているので、AIチップ1は、7Wの消費電力で280TOPSの命令実行能力を有する。このように、AIチップ1の処理能力は、演算ダイの個数に比例して向上する。
本実施の形態では、メモリダイと演算ダイとは、別々に積層されている。つまり、複数のメモリダイと複数の演算ダイとは、システムチップ100の平面視における互いに異なる領域に配置されている。
具体的には、システムチップ100は、図1に示されるように、第1領域102と第2領域103とを有する。第1領域102は、平面視において第2領域103とは異なる領域である。
メモリダイ200及び複数のメモリダイ201は、第1領域102に配置されている。具体的には、第1領域102に配置されたメモリダイ200の上に全てのメモリダイ201が積層されている。メモリダイ200と全てのメモリダイ201とは、平面視において互いに重複している。1つのメモリダイ200又は201の上には1つのメモリダイ201が積層されている。
演算ダイ300及び複数の演算ダイ301は、第2領域103に配置されている。具体的には、第2領域103に配置された演算ダイ300の上に全ての演算ダイ301が積層されている。演算ダイ300と全ての演算ダイ301とは、平面視において互いに重複している。1つの演算ダイ300又は301の上には1つの演算ダイ301が積層されている。
以上のように、AIチップ1では、メモリダイ及び演算ダイがそれぞれ、必要に応じた個数を積層可能に構成されている。つまり、メモリ容量が必要な場合は、メモリダイ201を必要な個数積層することができる。演算能力が必要な場合は、演算ダイ301を必要な個数積層することができる。メモリ容量及び演算能力の両方が必要な場合は、メモリダイ201及び演算ダイ301をそれぞれ必要な個数積層することができる。このように、AIチップ1の性能を簡単にスケーラブルに変更することができる。このため、AIチップ1の処理能力を簡単に向上させることができる。
[2.構成]
続いて、AIチップ1の各構成要素の具体的な構成について説明する。
続いて、AIチップ1の各構成要素の具体的な構成について説明する。
[2-1.システムチップ]
まず、システムチップ100の構成について、図2を用いて説明する。図2は、本実施の形態に係るAIチップ1が備えるシステムチップ100の構成を示すブロック図である。
まず、システムチップ100の構成について、図2を用いて説明する。図2は、本実施の形態に係るAIチップ1が備えるシステムチップ100の構成を示すブロック図である。
システムチップ100は、AIチップ1の全体を制御する。具体的には、システムチップ100は、複数のメモリダイ200及び201並びに複数の演算ダイ300及び301を制御する。
図2に示されるように、システムチップ100は、マイクロコントローラ110と、システムバス120と、外部インタフェース130と、画像処理エンジン140と、DRAM(Dynamic Random Access Memory)コントローラ150と、AIアクセラレータ160とを備える。
マイクロコントローラ110は、システムチップ100全体の制御を行う制御ブロックの一例である。マイクロコントローラ110は、システムバス120を介して、外部インタフェース130、画像処理エンジン140、DRAMコントローラ150及びAIアクセラレータ160の各々との間でデータ及び情報の送受信を行い、演算及び命令を実行する。図2に示されるように、マイクロコントローラ110は、複数のCPU(Central Processing Unit)111と、L2キャッシュ112とを備える。なお、マイクロコントローラ110が備えるCPU111の個数は、1個のみでもよい。また、マイクロコントローラ110は、L2キャッシュ112を備えていなくてもよい。
マイクロコントローラ110は、メモリダイ200及び複数のメモリダイ201の中から選択した任意のメモリダイに、AI処理に必要なデータを記憶させる。つまり、一のメモリダイ200又は201に記憶可能なデータは、他のメモリダイ200又は201にも記憶することができる。マイクロコントローラ110は、積層された全てのメモリダイ201を有効なメモリ領域として利用する。新たにメモリダイ201が積層された場合、マイクロコントローラ110は、新たなメモリダイ201を既存のメモリダイ200又は201と同等に制御することができる。
また、マイクロコントローラ110は、演算ダイ300及び複数の演算ダイ301の中から選択した任意の演算ダイに、AI処理に含まれる演算を実行させる。つまり、一の演算ダイ300又は301が実行可能な命令は、他の演算ダイ300又は301が実行することもできる。マイクロコントローラ110は、積層された全ての演算ダイ301を有効な演算回路として利用する。新たに演算ダイ301が積層された場合、マイクロコントローラ110は、新たな演算ダイ301を既存の演算ダイ300又は301と同等に制御することができる。
システムバス120は、データ及び信号などの送受信に利用される配線である。システムバス120には、マイクロコントローラ110、外部インタフェース130、画像処理エンジン140、DRAMコントローラ150及びAIアクセラレータ160が電気的に接続され、互いに通信可能である。
外部インタフェース130は、AIチップ1とは異なる外部装置とのデータ及び信号の送受信を行うためのインタフェースである。
画像処理エンジン140は、画像信号又は映像信号を処理する信号処理回路である。例えば、画像処理エンジン140は、画質調整処理などを実行する。
DRAMコントローラ150は、AIチップ1とは異なる外部メモリに対するデータの読み出し及び書き込みなどを行うメモリコントローラである。
AIアクセラレータ160は、AI処理を高速に行う信号処理回路である。図2に示されるように、AIアクセラレータ160は、内部バス161と、メモリダイ200と、演算ダイ300と、DSP(Digital Signal Processor)400とを備える。
内部バス161は、AIアクセラレータ160内でのデータ及び信号などの送受信に利用される配線である。内部バス161には、メモリダイ200、演算ダイ300及びDSP400が電気的に接続され、互いに通信可能である。内部バス161は、複数のメモリダイ201及び複数の演算ダイ301に対するデータ及び信号などの送受信にも利用される。内部バス161とシステムバス120とは、マイクロコントローラ110と、複数のメモリダイ200及び201並びに複数の演算ダイ300及び301とを電気的に接続するバスを構成している。
メモリダイ200は、AIチップ1が備える複数のメモリダイの1つである第1メモリダイの一例である。図3に示されるように、メモリダイ200が有するレイアウトパターン(第1レイアウトパターン)の上方に複数のメモリダイ201が積層されている。ここで、図3は、図2に示されるブロック図と図1に示される斜視図との関係を模式的に示す図である。複数のメモリダイ201の各々は、第1メモリダイが有する第1レイアウトパターンの上方に積層された第2メモリダイの一例である。
演算ダイ300は、AIチップ1が備える複数の演算ダイの1つである第1演算ダイの一例である。図3に示されるように、演算ダイ300が有するレイアウトパターン(第2レイアウトパターン)の上方に複数の演算ダイ301が積層されている。複数の演算ダイ301の各々は、第1演算ダイが有する第2レイアウトパターンの上方に積層された第2演算ダイの一例である。
DSP400は、AI処理に関わるデジタル信号処理を行うプロセッサである。
なお、システムチップ100の構成は、図2に示される例に限定されない。例えば、システムチップ100は、画像処理エンジン140を備えなくてもよい。システムチップ100は、所定の処理に専用の信号処理回路などを備えてもよい。
[2-2.メモリダイ]
次に、メモリダイ200及び201の構成について、図4を用いて説明する。図4は、本実施の形態に係るAIチップ1が備えるメモリダイ200及び201の平面レイアウトの一例を示す平面図である。
次に、メモリダイ200及び201の構成について、図4を用いて説明する。図4は、本実施の形態に係るAIチップ1が備えるメモリダイ200及び201の平面レイアウトの一例を示す平面図である。
メモリダイ200と複数のメモリダイ201の各々とは、同じレイアウトパターンを有する。具体的には、メモリダイ200と複数のメモリダイ201の各々とは、同一の構成を有し、各々のメモリ容量が同じである。以下では、メモリダイ201の構成を中心に説明する。
メモリダイ201は、例えば、DRAM又はSRAMなどの揮発性メモリである。メモリダイ201は、NAND型フラッシュメモリなどの不揮発性メモリであってもよい。図4に示されるように、メモリダイ200は、一つ以上のメモリブロック210と、一つ以上の入出力ポート240と、一つ以上の配線260とを備える。一つ以上のメモリブロック210と、一つ以上の入出力ポート240と、一つ以上の配線260とはそれぞれ、メモリダイ201を構成するシリコン基板の表面又は内部に形成されている。メモリダイ201のレイアウトパターンは、メモリブロック210、入出力ポート240及び配線260の各々の大きさ、形状、個数及び配置によって表される。
一つ以上のメモリブロック210はそれぞれ、一つ以上のメモリセルを含み、データを記憶する記憶回路である。図4に示される例では、一つ以上のメモリブロック210には、面積(メモリ容量)が異なるものが含まれているが、全てのメモリブロック210が同じ面積であってもよい。
一つ以上の入出力ポート240はそれぞれ、メモリダイ201に対するデータ及び信号の入出力を行う端子である。メモリダイ201は、入出力ポート240を介して、上下に積層されたメモリダイ200又は201と電気的に接続される。メモリダイ201は、メモリダイ200と電気的に接続されており、メモリダイ200を介して内部バス161及びシステムバス120に電気的に接続される。図4に示される例では、一つ以上の入出力ポート240がメモリダイ201の外周に沿って環状に配置されているが、これに限らない。例えば、一つ以上の入出力ポート240は、メモリダイ201の中央に設けられていてもよい。
一つ以上の配線260は、入出力ポート240とメモリブロック210とを接続する電気配線であり、データの送受信に用いられる。一つ以上の配線260は、例えばビット線及びワード線を含んでいる。図4に示される例では、一つ以上の配線260は、格子状に設けられているが、ストライプ状であってもよい。
図4では、メモリダイ200及び201の構成の一例を模式的に簡略化して示したが、メモリダイ200及び201の構成は、レイアウトパターンが同じであれば、特に限定されない。
[2-3.演算ダイ]
次に、演算ダイ300及び301の構成について、図5を用いて説明する。図5は、本実施の形態に係るAIチップ1が備える演算ダイ300及び301の平面レイアウトの一例を示す図である。
次に、演算ダイ300及び301の構成について、図5を用いて説明する。図5は、本実施の形態に係るAIチップ1が備える演算ダイ300及び301の平面レイアウトの一例を示す図である。
演算ダイ300と複数の演算ダイ301の各々とは、同じレイアウトパターンを有する。具体的には、演算ダイ300と複数の演算ダイ301の各々とは、同一の構成を有し、各々の演算能力が同じである。以下では、演算ダイ301の構成を中心に説明する。
演算ダイ301は、書き換え可能回路を有する。具体的には、演算ダイ301は、FPGA(Field Programmable Gate Array)である。図5に示されるように、演算ダイ301は、一つ以上のAI処理ブロック310と、一つ以上の論理ブロック320と、一つ以上のスイッチブロック330と、一つ以上の入出力ポート340と、一つ以上の接続ブロック350と、一つ以上の配線360とを備える。一つ以上のAI処理ブロック310と、一つ以上の論理ブロック320と、一つ以上のスイッチブロック330と、一つ以上の入出力ポート340と、一つ以上の接続ブロック350と、一つ以上の配線360とは、演算ダイ301を構成するシリコン基板の表面又は内部に形成されている。演算ダイ301のレイアウトパターンは、AI処理ブロック310、論理ブロック320、スイッチブロック330、入出力ポート340、接続ブロック350及び配線360の各々の大きさ、形状、個数及び配置によって表される。
一つ以上のAI処理ブロック310はそれぞれ、AI処理用のアクセラレータ回路である。AI処理ブロック310の具体的な構成については、図6を用いて後で説明する。
一つ以上の論理ブロック320はそれぞれ、論理演算を行う演算回路である。一つ以上のAI処理ブロック310と一つ以上の論理ブロック320とは、行列状に並んで配置されている。例えば、図5に示される例では、一つ以上のAI処理ブロック310と一つ以上の論理ブロック320とは、3行×3列に並んで配置されており、各ブロックは、スイッチブロック330及び接続ブロック350を介して配線360によって電気的に接続されている。なお、AI処理ブロック310の個数は、1個のみでもよく、特に限定されない。また、一つ以上のAI処理ブロック310と一つ以上の論理ブロック320の配置は行列上に限定されることはなく、ストライプ状であってもよい。
一つ以上のスイッチブロック330はそれぞれ、スイッチブロック330の隣に位置する2つ~4つの接続ブロック350の接続関係を切り替える切替回路である。
一つ以上の入出力ポート340はそれぞれ、演算ダイ301に対するデータ及び信号の入出力を行う端子である。演算ダイ301は、入出力ポート340を介して、上下に積層された演算ダイ300又は301と接続される。演算ダイ301は、演算ダイ300と接続されており、演算ダイ300を介して内部バス161及びシステムバス120に接続される。図5に示される例では、一つ以上の入出力ポート340が演算ダイ301の外周に沿って環状に配置されているが、これに限らない。例えば、一つ以上の入出力ポート340は、演算ダイ301の中央に設けられていてもよい。
一つ以上の接続ブロック350はそれぞれ、接続ブロック350の隣に位置するAI処理ブロック310、論理ブロック320及びスイッチブロック330と接続するための回路である。
一つ以上の配線360は、入出力ポート340とAI処理ブロック310及び論理ブロック320などとを接続する電気配線であり、データの送受信に用いられる。図5に示される例では、一つ以上の配線360は、格子状に設けられているが、ストライプ状であってもよい。
演算ダイ301は、スイッチブロック330及び接続ブロック350において、入出力ポート340、AI処理ブロック310及び論理ブロック320の接続関係が切り替えられることにより、特定の演算処理を行うことができる。スイッチブロック330及び接続ブロック350の切り替えは、例えば、図示されないメモリに記憶された構成情報(コンフィギュレーションデータ)を用いて行われる。
次に、AI処理ブロック310の具体的な構成について、図6を用いて説明する。図6は、本実施の形態に係る演算ダイ300及び301が備えるAI処理ブロック310の構成を示すブロック図である。
AI処理ブロック310は、AI処理に含まれる演算を行う。具体的には、AI処理ブロック310は、畳み込み演算、行列演算及びプーリング演算の少なくとも1つを行う。例えば、AI処理ブロック310は、図6に示されるように、対数処理回路311を含む。対数処理回路311は、対数量子化された入力データに対して演算を行う。具体的には、対数処理回路311は、対数量子化された入力データの畳み込み演算を行う。畳み込み演算に含まれる乗算処理は、演算対象のデータが対数領域に変換されることにより、加算処理で実行可能である。これにより、AI処理の高速化が実現される。
また、AI処理ブロック310が行うAI処理は、ディザを用いた誤差拡散手法を含んでもよい。具体的には、AI処理ブロック310は、ディザ回路312を含む。ディザ回路312は、誤差拡散手法を用いた演算を行う。これにより、少ないビット数でも演算の精度の劣化を抑制することができる。
図5では、演算ダイ300及び301の構成の一例を模式的に簡略化して示したが、演算ダイ300及び301の構成は、レイアウトパターンが同じであれば、特に限定されない。
[3.積層されたダイ同士の接続]
続いて、積層されたダイ同士の接続について説明する。ダイ同士の接続には、TSV(Through Silicon Via)を用いる場合と、無線を用いる場合とがある。
続いて、積層されたダイ同士の接続について説明する。ダイ同士の接続には、TSV(Through Silicon Via)を用いる場合と、無線を用いる場合とがある。
[3-1.TSV]
図7は、本実施の形態に係る複数のメモリダイ201及び複数の演算ダイ301の接続にTSVが用いられる例を示す断面図である。図7には、システムチップ100がバンプ電極180を介してパッケージ基板101に実装されている様子が図示されている。なお、メモリダイ200及び演算ダイ300はシステムチップ100内で一体的に形成されているが、図7では破線及び網掛けによって模式的にメモリダイ200及び演算ダイ300が設けられた領域を表している。これは、図8においても同様である。
図7は、本実施の形態に係る複数のメモリダイ201及び複数の演算ダイ301の接続にTSVが用いられる例を示す断面図である。図7には、システムチップ100がバンプ電極180を介してパッケージ基板101に実装されている様子が図示されている。なお、メモリダイ200及び演算ダイ300はシステムチップ100内で一体的に形成されているが、図7では破線及び網掛けによって模式的にメモリダイ200及び演算ダイ300が設けられた領域を表している。これは、図8においても同様である。
図7に示されるように、複数のメモリダイ201の各々には、TSV270が設けられている。TSV270は、メモリダイ201を貫通する貫通導体の一例である。TSV270は、例えば、銅(Cu)などの金属材料を用いて形成されている。具体的には、メモリダイ201を厚み方向に貫通する貫通孔を形成した後、貫通孔の内壁を絶縁膜で覆い、その後、電解めっき法などによって金属材料で貫通孔を充填することによってTSV270を形成することができる。
図7では、TSV270の少なくとも一方の端部には、銅などの金属材料を用いてバンプ電極280が形成され、積層方向に隣り合うメモリダイ201のTSV270同士を電気的に接続している。なお、バンプ電極280を使用せずに積層方向に隣り合うメモリダイ201を接続してもよい。
TSV270及びバンプ電極280は、平面視において、図4に示される入出力ポート240に重複する位置に設けられる。本実施の形態では、メモリダイ200及び複数のメモリダイ201が同一のレイアウトパターンを有するので、それぞれを積層した場合に、入出力ポート240の位置が平面視において一致する。このため、メモリダイ201を厚み方向に貫通するTSV270によって、メモリダイ201同士を簡単に電気的に接続することができる。
メモリダイ201と同様に、複数の演算ダイ301の各々には、TSV370が設けられている。TSV370は、演算ダイ301を貫通する貫通導体の一例である。TSV370の材料及び形成方法は、TSV270と同じである。
図7では、TSV370の少なくとも一方の端部には、銅などの金属材料を用いてバンプ電極380が形成され、積層方向に隣り合う演算ダイ301のTSV370同士を電気的に接続している。なお、バンプ電極380を使用せずに積層方向に隣り合う演算ダイ301を接続してもよい。
TSV370及びバンプ電極380は、平面視において、図5に示される入出力ポート340に重複する位置に設けられる。本実施の形態では、演算ダイ300及び複数の演算ダイ301が同一のレイアウトパターンを有するので、それぞれを積層した場合に、入出力ポート340の位置が平面視において一致する。このため、演算ダイ301を厚み方向に貫通するTSV370によって、演算ダイ301同士を簡単に電気的に接続することができる。
なお、最上層のメモリダイ201を最下層のメモリダイ200に電気的に接続するためには、最上層のメモリダイ201を除く全てのメモリダイ201の各々にTSV270が設けられている。同様に、上から2番目のメモリダイ201をメモリダイ200に電気的に接続するためには、最上層及び上から2番目のメモリダイ201を除く残り全てのメモリダイ201の各々にTSV270が設けられている。このとき、最上層のメモリダイ201の接続に用いられるTSV270と、上から2番目のメモリダイ201の接続に用いられるTSV270とは、同じTSVであって共用されていてもよく、異なるTSVであって共用されていなくてもよい。演算ダイ301についても同様である。
[3-2.無線]
図8は、本実施の形態に係る複数のメモリダイ201及び複数の演算ダイ301の接続に無線が用いられる例を示す断面図である。無線を用いた接続は、ワイヤレスTSV技術とも称される。
図8は、本実施の形態に係る複数のメモリダイ201及び複数の演算ダイ301の接続に無線が用いられる例を示す断面図である。無線を用いた接続は、ワイヤレスTSV技術とも称される。
図8に示されるように、複数のメモリダイ201の各々には、無線通信回路290が設けられている。無線通信回路290は、通信範囲が数十μm程度の超近距離無線通信を行う。具体的には、無線通信回路290は、微小なコイルを有し、コイル間の磁界結合を利用して通信を行う。
メモリダイ201と同様に、複数の演算ダイ301の各々には、無線通信回路390が設けられている。無線通信回路390は、通信範囲が数十μm程度の超近距離無線通信を行う。具体的には、無線通信回路390は、微小なコイルを有し、コイル間の磁界結合を利用して通信を行う。
図8では、無線通信回路290及び390がそれぞれ、基板内に埋め込まれている例を示しているが、これに限らない。無線通信回路290及び390は、基板の上面及び下面の少なくとも一方に設けられていてもよい。
なお、メモリダイ201の接続には、TSVが用いられ、演算ダイ301の接続には、無線が用いられてもよい。あるいは、メモリダイ201の接続には、無線が用いられ、演算ダイ301の接続には、TSVが用いられてもよい。また、メモリダイ201の接続には、TSVと無線との両方が用いられてもよい。同様に、演算ダイ301の接続には、TSVと無線との両方が用いられてもよい。
[4.変形例]
続いて、実施の形態に係るAIチップ1の変形例について説明する。以下では、上述した実施の形態との相違点を中心に説明を行い、共通点の説明を省略又は簡略化する。
続いて、実施の形態に係るAIチップ1の変形例について説明する。以下では、上述した実施の形態との相違点を中心に説明を行い、共通点の説明を省略又は簡略化する。
[4-1.変形例1]
まず、変形例1に係るAIチップについて説明する。変形例1では、メモリダイ及び演算ダイの少なくとも一方の積層にインターポーザが用いられる。
まず、変形例1に係るAIチップについて説明する。変形例1では、メモリダイ及び演算ダイの少なくとも一方の積層にインターポーザが用いられる。
図9は、変形例1に係るAIチップ2を示す模式的な斜視図である。図9に示されるように、AIチップ2では、システムチップ100がインターポーザ500を備える。システムチップ100は、メモリダイ200及び演算ダイ300を備えない。
インターポーザ500は、チップと基板との電気的な接続を中継する中継部品である。本変形例では、複数のメモリダイ201の1つと、複数の演算ダイ301の1つとがそれぞれ、インターポーザ500上に積層されている。残りのメモリダイ201は、インターポーザ500上に積層されたメモリダイ201の上方に積層されている。残りの演算ダイ301は、インターポーザ500上に積層された演算ダイ301の上方に積層されている。
なお、本変形例において、システムチップ100は、メモリダイ200及び演算ダイ300の一方を備えてもよい。言い換えると、メモリダイと演算ダイとのいずれか一方のみがインターポーザ500上に積層されていてもよい。
例えば、AIチップ2は、システムチップ100が備えるメモリダイ200の上方に積層された1つ以上のメモリダイ201と、インターポーザ500上に積層された複数の演算ダイ301とを備えてもよい。あるいは、AIチップ2は、システムチップ100が備える演算ダイ300の上方に積層された1つ以上の演算ダイ301と、インターポーザ500上に積層された複数のメモリダイ201とを備えてもよい。
[4-2.変形例2]
次に、変形例2に係るAIチップについて説明する。変形例2では、メモリダイと演算ダイとが混在して積層される。
次に、変形例2に係るAIチップについて説明する。変形例2では、メモリダイと演算ダイとが混在して積層される。
図10~図13はそれぞれ、変形例2に係るAIチップ3~6を示す模式的な斜視図である。
図10に示されるAIチップ3では、システムチップ100は、メモリダイ200を備え、演算ダイ300を備えない。メモリダイ200の上方に、複数のメモリダイ201と複数の演算ダイ301とがこの順で積層されている。つまり、複数のメモリダイ201のうちの最上層のメモリダイ201上に、複数の演算ダイ301のうちの最下層の演算ダイ301が積層されている。
なお、図11に示されるAIチップ4のように、複数の演算ダイ301の上方に複数のメモリダイ201が積層されていてもよい。AIチップ4では、システムチップ100は、演算ダイ300を備え、メモリダイ200を備えない。演算ダイ300の上方に、複数の演算ダイ301と複数のメモリダイ201とがこの順で積層されている。つまり、複数の演算ダイ301のうちの最上層の演算ダイ301上に、複数のメモリダイ201のうちの最下層のメモリダイ201が積層されている。
あるいは、図12に示されるAIチップ5のように、メモリダイ201と演算ダイ301とが交互に積層されていてもよい。AIチップ5では、システムチップ100がメモリダイ200を備え、演算ダイ300を備えない。メモリダイ200上に、演算ダイ301とメモリダイ201とが1つずつ交互に積層される。なお、AIチップ5では、システムチップ100が演算ダイ300を備え、メモリダイ200を備えなくてもよい。演算ダイ300上に、メモリダイ201と演算ダイ301とが1つずつ交互に積層されてもよい。また、AIチップ5では、システムチップ100がメモリダイ200と演算ダイ300とを備えてもよい。メモリダイ200と演算ダイ300との各々の上方に、メモリダイ201と演算ダイ301とが交互に1つずつ積層されてもよい。また、メモリダイ201及び演算ダイ301の少なくとも一方は、複数個ずつ積層されてもよい。
また、図13に示されるAIチップ6のように、インターポーザ500上にメモリダイ201と演算ダイ301とが積層されてもよい。AIチップ6では、システムチップ100は、メモリダイ200及び演算ダイ300のいずれも備えず、インターポーザ500を備える。インターポーザ500上には、複数の演算ダイ301のうちの1つが積層されている。インターポーザ500上に積層された演算ダイ301の上方に、残りの演算ダイ301及びメモリダイ201が積層されている。なお、インターポーザ500上には、メモリダイ201が積層されていてもよい。また、インターポーザ500の上方に積層されるメモリダイ201と演算ダイ301とは1つずつ交互に積層されてもよいし、複数個ずつ積層されてもよい。
このように、メモリダイと演算ダイとの積層方法は特に限定されず、設計変更の自由度が高いAIチップが実現される。
(他の実施の形態)
以上、1つ又は複数の態様に係るAIチップについて、実施の形態に基づいて説明したが、本開示は、これらの実施の形態に限定されるものではない。本開示の主旨を逸脱しない限り、当業者が思いつく各種変形を本実施の形態に施したもの、及び、異なる実施の形態における構成要素を組み合わせて構築される形態も、本開示の範囲内に含まれる。
以上、1つ又は複数の態様に係るAIチップについて、実施の形態に基づいて説明したが、本開示は、これらの実施の形態に限定されるものではない。本開示の主旨を逸脱しない限り、当業者が思いつく各種変形を本実施の形態に施したもの、及び、異なる実施の形態における構成要素を組み合わせて構築される形態も、本開示の範囲内に含まれる。
例えば、図12に示されるAIチップ5のように、1つのメモリダイは、他のメモリダイの第1レイアウトパターン上に直接積層されていなくてもよい。つまり、上層に位置するメモリダイは、下層に位置するメモリダイのレイアウトパターンの上方に積層されていればよく、間に演算ダイが介在していてもよい。同様に、1つの演算ダイは、他の演算ダイの第2レイアウトパターン上に直接積層されていなくてもよい。つまり、上層に位置する演算ダイは、下層に位置する演算ダイのレイアウトパターンの上方に積層されていればよく、間にメモリダイが介在していてもよい。なお、メモリダイ同士、演算ダイ同士、又は、メモリダイと演算ダイとは、インターポーザを介さずに積層されている。
また、演算ダイ300及び301は、書き換え不可能な回路であってもよい。演算ダイ300及び301は、少なくとも1つのAI処理ブロック310を備えればよく、論理ブロック320、スイッチブロック330及び接続ブロック350を備えなくてもよい。
また、上記の各実施の形態は、請求の範囲又はその均等の範囲において種々の変更、置き換え、付加、省略などを行うことができる。
本開示は、処理能力を簡単に向上させることができるAIチップとして利用でき、例えば、各種電化製品及びコンピュータ機器などに利用することができる。
1、2、3、4、5、6 AIチップ
100 システムチップ
101 パッケージ基板
102 第1領域
103 第2領域
110 マイクロコントローラ
111 CPU
112 L2キャッシュ
120 システムバス
130 外部インタフェース
140 画像処理エンジン
150 DRAMコントローラ
160 AIアクセラレータ
161 内部バス
180、280、380 バンプ電極
200、201 メモリダイ
210 メモリブロック
240、340 入出力ポート
260、360 配線
270、370 TSV
290、390 無線通信回路
300、301 演算ダイ
310 AI処理ブロック
311 対数処理回路
312 ディザ回路
320 論理ブロック
330 スイッチブロック
350 接続ブロック
400 DSP(デジタルシグナルプロセッサ)
500 インターポーザ
100 システムチップ
101 パッケージ基板
102 第1領域
103 第2領域
110 マイクロコントローラ
111 CPU
112 L2キャッシュ
120 システムバス
130 外部インタフェース
140 画像処理エンジン
150 DRAMコントローラ
160 AIアクセラレータ
161 内部バス
180、280、380 バンプ電極
200、201 メモリダイ
210 メモリブロック
240、340 入出力ポート
260、360 配線
270、370 TSV
290、390 無線通信回路
300、301 演算ダイ
310 AI処理ブロック
311 対数処理回路
312 ディザ回路
320 論理ブロック
330 スイッチブロック
350 接続ブロック
400 DSP(デジタルシグナルプロセッサ)
500 インターポーザ
Claims (16)
- データを記憶する複数のメモリダイと、
AI(Artificial Intelligence)処理に含まれる演算を行う複数の演算ダイと、
前記複数のメモリダイ及び前記複数の演算ダイを制御するシステムチップとを備え、
前記複数のメモリダイの各々は、第1レイアウトパターンを有し、
前記複数の演算ダイの各々は、第2レイアウトパターンを有し、
前記複数のメモリダイの1つである第2メモリダイは、前記複数のメモリダイの1つである第1メモリダイの前記第1レイアウトパターンの上方に積層され、
前記複数の演算ダイの1つである第2演算ダイは、前記複数の演算ダイの1つである第1演算ダイの前記第2レイアウトパターンの上方に積層されている、
AIチップ。 - 前記システムチップは、前記第1メモリダイと前記第1演算ダイとを備える、
請求項1に記載のAIチップ。 - 前記システムチップは、インターポーザを備え、
前記第1メモリダイ及び前記第1演算ダイの少なくとも一方は、前記インターポーザ上に積層されている、
請求項1に記載のAIチップ。 - 前記第1メモリダイ及び前記第1演算ダイは、前記インターポーザ上に積層されている、
請求項3に記載のAIチップ。 - 前記システムチップは、平面視において、互いに重複しない第1領域及び第2領域を有し、
前記複数のメモリダイは、前記第1領域に積層され、
前記複数の演算ダイは、前記第2領域に積層されている、
請求項1~4のいずれか1項に記載のAIチップ。 - 前記第1メモリダイ及び前記第1演算ダイの一方は、前記第1メモリダイ及び前記第1演算ダイの他方の上方に積層されている、
請求項1~3のいずれか1項に記載のAIチップ。 - 前記複数の演算ダイの各々は、書き換え可能回路を有し、
前記書き換え可能回路は、前記AI処理用のアクセラレータ回路を含む、
請求項1~6のいずれか1項に記載のAIチップ。 - 前記書き換え可能回路は、論理ブロック及びスイッチブロックを含む、
請求項7に記載のAIチップ。 - 前記AI処理に含まれる演算は、畳み込み演算、行列演算及びプーリング演算の少なくとも1つを含む、
請求項1~8のいずれか1項に記載のAIチップ。 - 前記畳み込み演算は、対数領域で行う演算を含む、
請求項9に記載のAIチップ。 - 前記AI処理は、ディザを用いた誤差拡散手法を含む、
請求項1~10のいずれか1項に記載のAIチップ。 - 前記システムチップは、
制御ブロックと、
前記制御ブロックと、前記複数のメモリダイ及び前記複数の演算ダイとを電気的に接続するバスとを含む、
請求項1~11のいずれか1項に記載のAIチップ。 - 複数の前記第1レイアウトパターンは、互いに貫通導体を介して接続されている、
請求項1~12のいずれか1項に記載のAIチップ。 - 複数の前記第1レイアウトパターンは、互いに無線で接続されている、
請求項1~12のいずれか1項に記載のAIチップ。 - 複数の前記第2レイアウトパターンは、互いに貫通導体を介して接続されている、
請求項1~14のいずれか1項に記載のAIチップ。 - 複数の前記第2レイアウトパターンは、互いに無線で接続されている、
請求項1~14のいずれか1項に記載のAIチップ。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202180029687.XA CN115516628A (zh) | 2020-05-28 | 2021-04-14 | Ai芯片 |
US17/995,972 US20230197711A1 (en) | 2020-05-28 | 2021-04-14 | Ai chip |
JP2022527567A JP7270234B2 (ja) | 2020-05-28 | 2021-04-14 | Aiチップ |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020093022 | 2020-05-28 | ||
JP2020-093022 | 2020-05-28 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2021241048A1 true WO2021241048A1 (ja) | 2021-12-02 |
Family
ID=78744363
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2021/015475 WO2021241048A1 (ja) | 2020-05-28 | 2021-04-14 | Aiチップ |
Country Status (4)
Country | Link |
---|---|
US (1) | US20230197711A1 (ja) |
JP (1) | JP7270234B2 (ja) |
CN (1) | CN115516628A (ja) |
WO (1) | WO2021241048A1 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117915670B (zh) * | 2024-03-14 | 2024-07-05 | 上海芯高峰微电子有限公司 | 一种存算一体的芯片结构 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015502664A (ja) * | 2011-12-02 | 2015-01-22 | インテル・コーポレーション | デバイス相互接続の変化を可能にする積層メモリ |
US20190073585A1 (en) * | 2017-09-01 | 2019-03-07 | Qualcomm Incorporated | Ultra-low power neuromorphic artificial intelligence computing accelerator |
US20200135719A1 (en) * | 2018-10-24 | 2020-04-30 | Micron Technology, Inc. | Functional Blocks Implemented by 3D Stacked Integrated Circuit |
US20200161230A1 (en) * | 2018-11-18 | 2020-05-21 | International Business Machines Corporation | Thinned die stack |
US20200168527A1 (en) * | 2018-11-28 | 2020-05-28 | Taiwan Semiconductor Manfacturing Co., Ltd. | Soic chip architecture |
JP2020091861A (ja) * | 2018-12-07 | 2020-06-11 | 三星電子株式会社Samsung Electronics Co.,Ltd. | テンソル計算データフロー加速器半導体回路 |
US20200303344A1 (en) * | 2019-03-18 | 2020-09-24 | Kepler Computing Inc. | Artificial intelligence processor with three-dimensional stacked memory |
-
2021
- 2021-04-14 CN CN202180029687.XA patent/CN115516628A/zh active Pending
- 2021-04-14 JP JP2022527567A patent/JP7270234B2/ja active Active
- 2021-04-14 WO PCT/JP2021/015475 patent/WO2021241048A1/ja active Application Filing
- 2021-04-14 US US17/995,972 patent/US20230197711A1/en active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015502664A (ja) * | 2011-12-02 | 2015-01-22 | インテル・コーポレーション | デバイス相互接続の変化を可能にする積層メモリ |
US20190073585A1 (en) * | 2017-09-01 | 2019-03-07 | Qualcomm Incorporated | Ultra-low power neuromorphic artificial intelligence computing accelerator |
US20200135719A1 (en) * | 2018-10-24 | 2020-04-30 | Micron Technology, Inc. | Functional Blocks Implemented by 3D Stacked Integrated Circuit |
US20200161230A1 (en) * | 2018-11-18 | 2020-05-21 | International Business Machines Corporation | Thinned die stack |
US20200168527A1 (en) * | 2018-11-28 | 2020-05-28 | Taiwan Semiconductor Manfacturing Co., Ltd. | Soic chip architecture |
JP2020091861A (ja) * | 2018-12-07 | 2020-06-11 | 三星電子株式会社Samsung Electronics Co.,Ltd. | テンソル計算データフロー加速器半導体回路 |
US20200303344A1 (en) * | 2019-03-18 | 2020-09-24 | Kepler Computing Inc. | Artificial intelligence processor with three-dimensional stacked memory |
Also Published As
Publication number | Publication date |
---|---|
CN115516628A (zh) | 2022-12-23 |
US20230197711A1 (en) | 2023-06-22 |
JPWO2021241048A1 (ja) | 2021-12-02 |
JP7270234B2 (ja) | 2023-05-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110875296B (zh) | 包括桥式晶片的层叠封装 | |
US7834450B2 (en) | Semiconductor package having memory devices stacked on logic device | |
CN111492477A (zh) | 具有高密度z轴互连的3d计算电路 | |
US8680667B2 (en) | Semiconductor devices, package substrates, semiconductor packages, package stack structures, and electronic systems having functionally asymmetric conductive elements | |
US9318477B2 (en) | Semiconductor device having dummy cell array | |
US9748201B2 (en) | Semiconductor packages including an interposer | |
TWI793384B (zh) | 堆疊元件、記憶體晶粒及定址方法 | |
TW201724435A (zh) | 半導體封裝及其製造方法 | |
JP2010080802A (ja) | 半導体装置 | |
JP2010251762A (ja) | パッケージされた集積回路装置及びその動作方法とこれを有するメモリ保存装置及び電子システム | |
US20200402959A1 (en) | Stacked semiconductor package having an interposer | |
US9275688B2 (en) | Semiconductor device and semiconductor package | |
TW201826472A (zh) | 半導體裝置 | |
US20110260331A1 (en) | Stacked semiconductor device | |
US20120049361A1 (en) | Semiconductor integrated circuit | |
CN113113386A (zh) | 包括具有中介桥的层叠的模块的半导体封装 | |
CN115132698A (zh) | 包括贯通孔结构的半导体器件 | |
WO2021241048A1 (ja) | Aiチップ | |
CN111883489A (zh) | 包括扇出子封装件的层叠封装件 | |
WO2011107612A1 (en) | Customizable interconnections between electronic circuits | |
TW202125725A (zh) | 包括堆疊半導體晶片的半導體封裝件 | |
US20070246835A1 (en) | Semiconductor device | |
JP6207228B2 (ja) | 集積回路装置およびその構成方法 | |
US10269740B2 (en) | Semiconductor memory chip, semiconductor memory package, and electronic system using the same | |
WO2022029825A1 (ja) | 演算回路及びai処理モジュール |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 21813137 Country of ref document: EP Kind code of ref document: A1 |
|
ENP | Entry into the national phase |
Ref document number: 2022527567 Country of ref document: JP Kind code of ref document: A |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 21813137 Country of ref document: EP Kind code of ref document: A1 |