close

Вход

Забыли?

вход по аккаунту

?

Suvorova1

код для вставкиСкачать
МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ
Федеральное государственное автономное образовательное
учреждение высшего профессионального образования
САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ
АЭРОКОСМИЧЕСКОГО ПРИБОРОСТРОЕНИЯ
Е. А. Суворова
ПРОЕКТИРОВАНИЕ СИСТЕМ
НА КРИСТАЛЛЕ
С ТЕХНОЛОГИЯМИ 2.5D И 3D
Учебное пособие
Санкт-Петербург
2014
УДК 004.42(075)
ББК 32.973.26-018я73
С89
Рецензенты:
доктор технических наук, профессор Л. А. Мироновский;
доктор технических наук, профессор В. Ф. Мелехин
Утверждено
редакционно-издательским советом университета
в качестве учебного пособия
Суворова, Е. А.
С89 Проектирование систем на кристалле с технологиями
2.5D и 3D: учеб. пособие / Е. А. Суворова. – СПб.: ГУАП,
2014. – 64 с.: ил.
ISBN 978-5-8088-0978-9
Учебное пособие предназначено для использования магистрантами, обучающимися по направлению «Информатика и вычислительная техника» по магистерской программе «Встроенные системы обработки информации и управления» при выполнении исследовательских проектов по дисциплине «Системы и сети на кристалле» и проведении исследований и разработок по теме магистерской диссертации.
УДК 004.42(075)
ББК 32.973.26-018я73
ISBN 978-5-8088-0978-9
©
©
Суворова Е. А., 2014
Санкт-Петербургский государственный
университет аэрокосмического
приборостроения, 2014
ВВЕДЕНИЕ
В учебном пособии рассмотрены современные технологии производства систем и сетей-на-кристалле (СнК, СенК) и систем-вкорпусе, тенденции развития технологии в этой области. Показаны
причины перехода от традиционной плоской (2D) технологии проектирования к объемным 2.5D и 3D технологиям. Приведены возможности и ограничения этих технологий.
Представлены существующие в настоящее время типы системв-корпусе, их структурная организация. Проанализированы отличия 2.5D технологии от 2D технологии. Показаны преимущества
при использовании интерпрозеров. Раскрыты возможности современной 3D технологии: варианты организации связей между кристаллами; вертикальной организации стека кристаллов; расположения кристаллов по отношению друг к другу. Рассмотрены проблемы, ограничивающие использование 3D технологии.
В ученом пособии показаны подходы к проектированию систем
и сетей-на-кристалле с использованием 2.5D и 3D технологии.
Анализируются возможности и ограничения при использовании
подходов, при которых каждый блок может размещаться только
в рамках одного кристалла, и подходов, при которых блоки могут
размещаться в нескольких кристаллах. Рассмотрены различные
варианты гранулярности частей блоков находящихся в разных
кристаллах. Показаны особенности проектирования блоков, размещаемых в различных кристаллах, а также варианты организации коммуникационной системы и коммутаторов для 3D СенК.
3
ГЛАВА 1
ИССЛЕДОВАНИЕ ПЕРСПЕКТИВНЫХ ТЕХНОЛОГИЙ ПРОИЗВОДСТВА
СИСТЕМ-НА-КРИСТАЛЛЕ И СИСТЕМ-В-КОРПУСЕ,
ТРЕБОВАНИЙ И ОГРАНИЧЕНИЙ ТЕХНОЛОГИИ,
СУЩЕСТВЕННЫХ ДЛЯ ПРОЕКТИРОВАНИЯ
РЕКОНФИГУРИРУЕМЫХ МНОГОЯДЕРНЫХ СИСТЕМ
1.1. Причины перехода к 2.5D и 3D проектированию
Системы-на-кристалле (СнК) и сети-на-кристалле (СенК) являются основной элементной базой для авиационного оборудования
нового поколения.
К 2013 году был достигнут предел технологических возможностей по масштабированию схем при использовании плоского проектирования (2D) для СнК и СенК [1]. Для дальнейшего развития
необходим переход к 2.5D и 3D проектированию. Это вызвано тем,
что при постоянно продолжающемся снижении проекторной нормы
относительная длина межблочных связей в СнК продолжает возрастать. Увеличивается время передачи в таких линиях (будем называть их глобальными) по сравнению со временем передачи по линиям внутри блоков. Для того чтобы сигнал в таких линиях не затухал,
их приходится делать более широкими, ставить в них повторители.
Все это ведет к увеличению площади, занимаемой этими линиями
связи, росту энергопотребления и рассеяния энергии. Из-за этих
факторов допустимая длина глобальных линий связи оказывается
жестко ограниченной и недостаточной для обеспечения связей между компонентами, входящими в состав проекта. Это является основным фактором, блокирующим дальнейшее развитие 2D подхода.
На рис. 1 представлена типовая схема вертикального разреза
кристалла. В верхних слоях металлизации расположены глобальные линии связи. Они наиболее широкие. В средних слоях металлизации находятся линии связи со средней длиной. В нижних слоях металлизации – локальные линии связи.
В табл. 1 представлена типовая суммарная длина линий связи
на одном кристалле.
Таблица 1
Типовая суммарная длина линий связи на одном кристалле
Год
Длина
4
2001
4 км
2002
5 км
2003
6 км
2004
7 км
2005
9 км
2006
10 км
2010
13 км
2013
20 км
Typical Chip Cross Section
Passivation
Dielectric
Wire
Etch stop layer
Via
Dielectric
diffusion barrier
Global
Copper
conductor with
metal barrier
liner
Intermediate
Pre-metal
dielectric
Tungsten
contact plug
Local
Рис. 1. Типовая схема вертикального разреза кристалла
На рис. 2 [1] представлены графики зависимости относительной задержки в линиях связи и компонентах от проектной нормы.
Как можно видеть из этих графиков, задержки в глобальных ли-
Relative Delay
100
Gale Delay (Fan out 4)
Local (Scaled)
Global with Repeaters
Global w/o Repeaters
10
1
0,1
250
180
130
90
65 45 32
Process Technology Node (nm)
Рис. 2. Изменение относительных задержек в линиях связи
и элементах со снижением проектной нормы
5
ниях связи растут очень ощутимо со снижением проектной нормы.
Задержка сигнала со снижением проектной нормы в логических
элементах уменьшается значительно быстрее, чем в линиях связи.
В результате, например, для проектной нормы 22 нм задержка сигнала в логическом элементе менее 0,5 ps, а в линии связи (со средней длиной) составляет порядка 2000 ps.
Вследствие этих факторов возникает необходимость перехода от систем, расположенных на одном кристалле, к системам-вкорпусе, состоящим из нескольких кристаллов, переход к 2.5D
и/или 3D проектированию.
При переходе к 3D проектированию становится возможным размещать компоненты друг над другом в разных кристаллах, в результате длина межкомпонентных связей резко сокращается (рис. 3) [2].
2-D wires
C0
C1
C2
C3
C4
C5
C4
C3
C0
C1
C2
C5
3-D wires
Рис. 3. Сокращение длины линий связи за счет перехода
к 3D проектированию
a)
On-chip Wires off-chip Buses
Core
Cache
Main Memory
(DRAM)
б)
TSV
Memory
Processor Core
Рис. 4. Пример объединения в одном кристалле процессора
и памяти DRAM
6
Еще одна причина перехода от 2D к 3D технологиям – это возможность в значительной степени снять проблему «узкого места»
канала связи между процессором и DRAM за счет размещения их
в одном корпусе (рис. 4) [2]. При размещении в одном корпусе канал связи между процессором и DRAM может иметь существенно
большую разрядность и работать на значительно более высокой частоте, чем при размещении в разных кристаллах.
1.2. Системы-в-корпусе
Впервые понятие систем-в-корпусе появилось в 2000 году [3].
Эти системы стали логическим развитием мультикристалльных
модулей (multi-chip module (MCM)). Основная идея этой технологии – это размещение на единой подложке (substrate) нескольких
кристаллов. При этом подложка может быть использована для организации связей между ними. Подложка вместе со всеми расположенными на ней кристаллами размещается в едином корпусе.
Иллюстративная схема системы-в-корпусе приведена на рис. 5.
Этот подход имеет несколько преимуществ по сравнению
с системами-на-кристалле. Основным преимуществом является
возможность объединения в одном корпусе кристаллов, изготовленных с использованием различных технологий. На одном кристалле также потенциально возможно размещать компоненты,
реализуемые по разным технологиям, но это связано с очень существенными технологическими ограничениями, снижает процент
выхода годных кристаллов и приводит к существенному росту стоHigh-performance
digital logic die
Lower-performance
digital logic die
Circuit
board
Multiple smaller die
each implementing
its own function(s)
SiP
component
Memory Analog/RF
die
die
Рис. 5. Внутренняя структура системы-в-корпусе
7
имости производства. При необходимости выпустить устройства
с обновленными характеристиками не нужно делать перевыпуск
кристаллов, как это было бы в случае СнК, можно в сборке заменить часть кристаллов на другие, или, например, увеличить количество кристаллов памяти, если размер корпуса позволяет увеличение размеров сборки.
Существует довольно большое количество вариантов подложки,
которые могут быть использованы для сборки систем-в-корпусе.
Наибольшее распространение в настоящее время получили [3,
1]:
– Ламинаты (Laminates). Данный тип подложек представляет
собой миниатюрные печатные платы с медными дорожками и переходными отверстиями. Как правило, они делаются из FR4 или
полиамида и включают в себя от 5 до 25 слоев, на которых можно
выполнять разводку линий связи.
– Керамические подложки (Ceramic substrates). В ряде технологий они представляют собой единый кусок керамики, на котором
могут быть проложены линии связи с использованием технологического процесса thick-film или thin-film или гибридного варианта.
Однако во моногих случаях такие подложки формируются на базе
нитрида алюминия или оксида бериллия и могут содержать сотни
слоев.
– Керамические, стеклянные или металлические подложки
(Ceramic, glass, or metal substrates), покрытые слоем диэлектрика,
например полиамида. Это диэлектрическое покрытие используется для того, чтобы модифицировать емкостные характеристики
субстрата, в этом случае соединительные дорожки создаются на
поверхности диэлектрика с использованием thin-film технологии.
Подложки этого типа, как правило, могут иметь до пяти слоев разводки дорожек.
– Полупроводниковые подложки (Semiconductor substrates).
Как правило, это кремниевые подложки с очень тонкими дорожками, формируемыми с использованием опто-литографического
процесса, аналогично используемому в производстве интегральных плат. Полупроводниковые подложки называют активными
подложками, поскольку компоненты, такие как транзисторы, логические вентили, могут быть размещены непосредственно на поверхности подложки. Дополнительное достоинство использования
кремния в качестве подложки состоит в том, что коэффициент температурного расширения точно совпадает с коэффициентом температурного расширения кристаллов, размещаемых на ней.
8
Система-в-корпусе
может
иметь иерархическую структуру: из нескольких систем, собранных на разных подложках,
Pop Package
может быть собрана более крупная система на общей подложке.
Рис. 6. Обобщенная схема
Если при этом системы распола- системы-в-корпусе с иерархической
гаются рядом друг с другом, то
структурой
такая технология носит название Package-in-Package (PiP). Если системы располагаются друг
над другом, то система носит название Package-on-Package (PoP)
[3, 1].
Пример такой системы представлен на рис. 6.
Внутри современной системы-в-корпусе может быть расположен один или несколько кристаллов на подложке.
Варианты организации связей между кристаллом и подложкой
Существует два основных варианта организации связей между
кристалами:
– wire bonding;
– flip chip.
При использовании технологии wire bonding (рис. 7) контактные площадки расположены по боковым сторонам кристалла.
К контактной площадке припаивается проволока, связывающая ее
с подложкой.
При использовании технологии flip chip (рис. 8) контактные площадки могут располагаться в любом месте кристалла. Контактные
площадки представляют собой металлические шарики. Соединение
Рис. 7. Схема соединений по технологии wire bonding
Рис. 8. Схема соединений по технологии flip chip
9
кристалла с подложкой в этом случае осуществляется путем сдавливания при высокой температуре.
2D технология
В тех случаях, когда кристаллы располагаются на подложке
в одной плоскости, технология сборки называется 2D. Пример такой сборки 2D IC/SiP представлен на рис. 9.
В этом примере кристаллы подключаются к подложке с использованием технологии flip-chip. Возможно использование wirebonding технологии. Типичный диаметр solder bumps составляет
~100 um.
Кристаллы могут быть связаны между собой линиями связи,
проходящими через подложку (рис. 10).
Metal layers
Device layer
Chip substrate
Die #1
Die #2
Flip-chip bumps
SiP Substrate
Package bumps
Circuit board
Рис. 9. Пример вертикального разреза системы-в-корпусе, 2D технология
Рис. 10. Схема связей между кристаллами по подложке
10
Подложку (субстрат) можно рассматривать как миниатюрную
печатную плату с медными дорожками и переходными отверстиями, с несколькими слоями, в которых можно разводить дорожки.
Габариты дорожек и переходных отверстий больше, чем габариты
дорожек и переходных отверстий на кристалле. Это расхождение
приводит к потерям производительности и увеличению энергопотребления. Необходимо учитывать, что из-за больших габаритных
размеров линий связи их можно развести по подложке ощутимо
меньше, чем по кристаллу с аналогичной площадью.
2.5D технология
Основным отличием 2.5D технологии от 2D является наличие
между подложкой и кристаллами прослойки (interposer) [3]. Этот
интерпрозер, как правило, изготавливается из кремния, в нем прокладываются сквозные отверстия TSV, через которые осуществляется соединение уровней металлизации на нижней и верхней стороне интерпрозера (рис. 11).
В этом случае кристаллы подключаются к интерпрозеру через
микробампы (типовой диаметер ~10 мкм). Интерпрозер подключается к субстрату с использованием типовых бампов для технологии
flip-chip с диаметром ~100 мкм. На интерпрозере линии связи могут прокладываться по верхней и нижней стороне. (С каждой стороны может быть несколько слоев металлизации.) Для их изготовThrough-silicon vias (TSVs)
Through-silicon vias (TSVs)
Die#1
Die#1
Die
Die#2
#2
Topside metal
layers
Interposer
substrate
Backside metal
layers
Silicon interposer
Micro-bumps
Flip-chip bumps
SiP Substrate
Package bumps
Circuit board
Рис. 11. Типовая структура 2.5D проекта с использованием кремниевого
интерпрозера, соединения по технологии TSV
11
High-bandwidth, low-latency connections
Microbumps
Through-Silicon Vias (TSV)
C4 Bumps
28nm FPGA Die
Si Interposer
Package Substrate
BGA Solder Balls
Рис. 12. Структура Xilinx Virtex-7 2000T
ления используется тот же самый технологический процесс, что и
при производстве кристаллов.
Типовая толщина кристалла составляет ~0.2 мм, толщина интерпрозера примерно такая же.
Количество соединений кристаллов с интерпрозером может достигать нескольких тысяч. Например, Xilinx Virtex-7 2000T включает в себя четыре отдельных кристалла, соединенных через интерпрозер (рис. 12), в нем существует ~10,000 связей между кристаллами через интерпрозер [3].
Выгода от использования 2.5D IC/SiP технологии по сравнению
с 2D IC/SiP состоит в том, что применение интерпрозера позволяет
делать линии связи между кристаллами с геометрическими, химическими, и, соответственно, временными характеристиками, близкими к линиям связей внутри кристалла. При этом существенно
снижается размер самих кристаллов, что позволят увеличить выход годных и снизить стоимость производства.
В настоящее время наибольшее распространение получили следующие основные типы интерпрозеров:
– кремниевый;
– органический;
– стеклянный;
Крому того могут использоваться интерпрозеры из керамики и
металла (для изготовления интерпрозеров могут применятся те же
12
самые материалы, что и для изготовления подложек), однако в настоящее время вследствие особенностей технологии они не получили большого распространения.
Кремниевые интерпрозеры
Кремниевые интерпрозеры получили широкое распространение
прежде всего вследствие того, что кремний используется при изготовлении кристаллов, его свойства хорошо изучены, разработаны и
проверены технологии работы с ним для производства кристаллов.
Они могут быть использованы и для производства интерпрозеров.
При нагревании в процессе функционирования, термальное расширение этого типа интерпрозеров полностью соответствует термальному расширению расположенных на нем кристаллов, в результате
снижается вероятность разрушения сборки.
На данный момент основным недостатком кремниевых интерпрозеров является существенное ограничение на максимальные
линейные размеры. Они существенно (на порядок) меньше, чем для
других типов интерпрозеров.
На рис. 13 представлена типовая схема вертикального среза интерпрозера, изготовленного из кремния.
В этом примере интерпрозер включает в себя три слоя, предназначенных для разводки линий связи между кристаллами.
Органические интерпрозеры
На рис. 14 представлена схема вертикального среза другого варианта реализации интерпрозера, так называемого органического
интерпрозера. Этот интерпрозер имеет те же геометрические размеры, что и интерпрозер из кремния.
В настоящее время при использовании органических интерпрозеров может быть реализовано достаточно большое количество слоев, в которых может быть выполнена разводка линий связи.
Al layer
M2(Cu)
M1(Cu)
TSV
Рис. 13. Типовая схема интерпрозера, изготовленного из кремния
13
M1
M2
M3
M4
M5
M6
M7
M8
Рис. 14. Типовая схема органического интерпрозера
Однако при использовании органических интерпрозеров существуют ограничения:
– на плотность размещения входных/выходных контактов;
– на температурный режим (стабильные характеристики возможны в более низком диапазоне температур, чем для других типов интерпрозеров);
– более низкая надежность, по сравнению с другими типами интерпрозеров;
– большая вероятность порчи (коробления) в процессе сборки.
Интерпрозеры из стекла
Еще один вариант реализации интерпрозера – из стекла. Типовой
пример сборки на базе этого интерпрозера представлен на рис. 15.
Стекло обладает очень хорошими диэлектрическими характеристиками. При использовании этого варианта реализации могут
быть достигнуты хорошие временные характеристики (рис. 16).
Они оказываются практически
такими же, как характеристики
Glass an Interposer or PCB
передачи сигналов по линиям связи внутри кристалла. В настоящее
IC
время активно развиваются техноGlass Interposer
логии, позволяющие достигать на
IC
этом типе интерпрозера большой
плотности расположения линий
Glass PCB
связи и входных/выходных контактов, однако пока по этим своРис. 15. Пример сборки
им характеристикам он уступает
на базе интерпрозера из стекла
кремниевым интерпрозерам.
14
Total Signal Path Delay
(ps)
Signal Path Delays in 3D-IC
300
Best Case
Worse Case
250
200
150
100
50
0
10-30 µm
5-10 µm
10-30 µm
NO liner
0.1–1 µm
0.1–1 µm
needed
oxide liner
oxide liner
3D ICs with
Traditional Silicon
GT 3D Glass
TSV
Interposer
Interposer
Рис. 16. Время передачи сигнала по линиям связи,
проложенным в различных типах интерпрозеров
и времени передачи сигнала внутри кристалла
Сравнение характеристик для различных вариантов интерпрозеров представлено в табл. 2. В таблице зеленым отмечены хорошие
значения параметров, желтым – удовлетворительные, красным –
неудовлетворительные
Таблица 2
Сравнение характеристик для различных вариантов интепрозеров
Характеристики
Материалы
Идеальные
Стекло
Sc Si
Poly Si Органи- Металли- Керамический
ческий
ческий
Электрические
Высокое сопротивление.
Низкая
утечка
ФизиБольшая
ческие допустимая
площадь.
Малая толщина
Терми- Высокая теческие плоемкость,
стабильное
температурное расширение
15
Окончание табл. 2
Характеристики
Материалы
Идеальные
Стекло
Sc Si
Poly Si Органи- Металли- Керамический
ческий
ческий
МехаВысокая
ниче- стрессоустойские
чивость
Хими- Устойчивость
ческие при обработке
TSV
Малая площадь
Стоимость/
мм2
a)
AP
Memory
б)
Memory
AP
Рис. 17. Пример сборки, в которой кристаллы
располагаются с обеих сторон интерпрозера:
а – кристалл памяти расположен
под интерпрозером;
б – кристалл памяти расположен
над интерпрозером
Во всех рассмотренных до сих пор вариантах 2.5D сборок все
кристаллы располагались с одной стороны интерпрозера. Однако
существуют технологии, позволяющие размещать кристаллы
с обеих сторон интерпрозера. Пример такой сборки представлен
на рис. 17.
3D технология
При использовании 3D (three dimensional) подхода несколько
кристаллов располагаются друг над другом. Отдельный кристалл
настолько тонок, что теоретически можно расположить до 100 кристаллов друг над другом, чтобы эта конструкция имела форму ку16
ба. Но такая конструкция будет неработоспособной, так как невозможно будет в ней организовать теплоотвод. Кристаллы могут быть
как одинакового, так и разного размера (рис. 18–20).
Top die > Bottom TSV die
Рис. 18. Пример 3D сборки, в которой верхний кристалл
больше нижнего
Same die stacking
Рис. 19. Пример 3D сборки, в которой кристаллы
имеют одинаковый размер
Top die < Bottom TSV die
Рис. 20. Пример 3D сборки, в которой верхний кристалл
меньше нижнего
17
Package Substrate or PCB
Рис. 21. Пример 3D сборки, в которой на разных уровнях
расположено различное количество кристаллов
Количество кристаллов, расположенных на разных уровнях
сборки, может быть различным (рис. 21).
Варианты организации связей между кристаллами
При монтировании нескольких кристаллов на подложку в 3D
проектах может использоваться и технология wire bonding, и технология flip-chip (связи на базе TSV – Throught Silicon Vias) (рис. 22).
В этом примере непосредственных связей между кристаллами
нет.
В рамках другого подхода линии связи прокладываются вдоль
сторон кристаллов сверху до низу всего стека кристаллов (рис. 23).
В этом случае кристаллы должны иметь одинаковый размер и,
как правило, выполняют одинаковые функции. Такая технология
сборки в основном используется для сборки кристаллов памяти.
Die #2
Die #1
Wire bonds
Flip-chip bumps
SiP substrate
Package bumps
Circuit board
Рис. 22. Пример сборки 3D проекта с использованием связей
на базе технологии wire bonding и TSV
18
Die #n
Die #3
Metal wires running down
the outside of the die
Die #2
Die #1
SiP substrate
Package bumps
Circuit board
Рис. 23. Пример сборки 3D проекта со связями
вдоль сторон кристаллов
Однако наиболее прогрессивным в настоящее время считается
подход, при котором внутри стека кристаллов расположены сквозные линии связи, каждая из которых может связывать между собой два или более кристаллов (рис. 24). Этот подход называется
«истинным» 3D (true 3D). Для прокладки таких линий связи используется технология TSV.
Chip substrate
Device layer
Die #2
Standard metal layers
Micro-bumps
Backside metal layers
Chip substrate
Device layer
Die #1
Standard metal layers
Flip-chip bumps
SiP substrate
Package bumps
Circuit board
Рис. 24. Структура «истинной» 3D сборки
19
Die #3
Die #4
Die #2
Die #6
Die #1
Die #5
Silicon
interposer
SiP
Substrate
Circuit
board
Рис. 25. Вариант «истинной» сборки
с разными размерами кристаллов и разным количеством кристаллов
на разных уровнях
С использованием этой технологии в стек могут объединяться
кристаллы памяти, логики (например, процессоры), кристаллы,
содержащие аналоговые компоненты и т. д.
Кристаллы при использовании этого типа сборки могут иметь
одинаковый или разный размер, могут располагаться и друг над
другом, и рядом друг с другом. Кристаллы, расположенные рядом,
могут взаимодействовать через интерпрозер, например так, как это
показано на рис. 25.
Варианты вертикальной структуры кристаллов,
входящих в состав стека при использовании технологии TSV
Можно выделить следующие основные варианты структуры
кристаллов, входящих в состав стека:
– каждый кристалл включает в себя слой, в котором расположены активные компоненты, и несколько слоев, в которых расположены линии связи (wafer bonding);
– все кристаллы, кроме расположенного на самом верху, содержат только один слой с активными компонентами; верхний кристалл содержит слои с разводкой линий связи (multi-layers burried
structure MLBS) [4].
Иллюстрация этой технологии представлена на рис. 26.
При использовании MLSB технологии связи между кристаллами суперкороткие и, благодаря этому, занимаемая ими площадь существенно меньше, чем при использовании wafer bonding.
Соответственно, их количество при использовании этой технологии может быть существенно выше. Однако в настоящее время су20
Burried Si
3D via
Burried Si
metal & ILD layers 3
active device layer 3
metal & ILD layers 2
active device layer 2
metal & ILD layers 1
active device layer 1
Bulk Si
Face-to-Back Wafer-Bonding
metal 3
ILD 5
metal 2
ILD 4
metal 1
ILD 3
active device layer 3
ILD 2
active device layer 2
ILD 1
active device layer 1
Bulk Si
Multi-layers Burried Structure
Рис. 26. Основные варианты структуры стека
ществует ряд технологических проблем, которые сдерживают широкое использование этой технологии.
Варианты расположения кристаллов по отношению
друг к другу при использовании технологии TSV
Можно выделить следующие основные варианты расположения
кристаллов друг по отношению к другу:
– Face-to-face (F2F);
– Face-to-back (F2B);
– Back-to-back (B2B).
В стеке кристаллы могут располагаться «лицом к лицу» (Faceto-face F-2-F, F2F). В этом случае они соприкасаются уровнями, на
которых расположены верхние слои металлизации (рис. 27, рис.
28, а).
Другой вариант расположения Face-to-back (F-2-B, F2B). В этом
случае нижние слои одного кристалла соприкасаются с верхними
слоями второго кристалла (рис. 27, рис. 28, б).
21
а)
б)
в)
Рис. 27. Схема размещения сквозных отверстий TSV:
а – Face-to-face (F2F); б – Face-to-back (F2B); в – Back-to-back (B2B)
a)
б)
Face-2-Face (F2F)
Face-2-Back (F2B)
substrate
Metal layers
Device layer
Device layer
Metal layers
substrate
Metal layers
Metal layers
Device layer
Device layer
substrate
Microbump
C4 Pad
substrate
TSV (Through-Silicon-Via)
Рис. 28. Схема сборки кристаллов:
а – схеме F2F; б – по схеме F2B
При использовании подхода F2F связи между соседними кристаллами проходят только через слои металлизации. При использовании F2B они проходят и через слой диэлектрика. Однако по
технологии F2F можно объединить только два кристалла. При необходимости объединить большее количество кристаллов часть из
них должна объединяться по технологии F2B.
При использовании B2B кристаллы соприкасаются нижними
слоями металлизации. При этом TSV имеют наибольшую длину.
22
В стеке все кристаллы могут соединяться по технологии F2B либо могут использоваться различные технологии, например чередование F2F и B2B.
Варианты 3D технологии
Упрощенными вариантами «истинной» 3D технологии являются:
– кубы памяти;
– память на логике.
Кубы памяти собираются, как правило, на базе кристаллов
NAND Flash (рис. 29) или DRAM (рис. 30). Кристаллы располагаются друг над другом, связываются друг с другом с использованием
относительно небольшого количества TSV.
8-die stack
560 microns
50 microns
Рис. 29. Структура куба памяти
Die Thickness ~30μ
Рис. 30. Структура гибридного куба памяти
23
На рис. 29 представлено устройство памяти с объемом 16 Гбит.
Оно собрано из восьми кристаллов NAND Flash памяти емкостью
по 2 Гбит, толщиной 50 мкм. Общая высота стека составляет 0,56
мм. По сравнению с аналогичной сборкой, сделанной по технологии Wire bond, она на 15% меньше по площади и на 30% меньше
по высоте.
Использование Wafer scale packaging (WSP) также позволяет
снизить длину линий межсоединений и за счет этого приблизительно на 30% повысить производительность.
На рис. 30 представлена фотография Micron DRAM Hybrid
Memory Cube (HMC). Стек кристаллов памяти расположен на кристалле, выполняющем функции буферизации и маршрутизации
данных от банков памяти и к банкам памяти. HMC имеет пропускную способность в 15 раз выше, чем DDR (120ГБ/с), и использует
на 70% меньше энергии.
Память на логике
Сборки типа память на логике (в этих сборках используется одно или несколько процессорных ядер и блоки памяти) позволяют
существенно увеличить пропускную способность каналов между
процессорами и памятью, и, тем самым, увеличить производительность (рис. 31).
Однако в таких сборках возникают существенные проблемы с теплоотводом. Пример такой сборки (рис. 32) – «куб памяти» с портами большой разрядности, расположенный на логике. Куб памяти на этом рисунке представлен прямоугольником, ограниченным
пунктирными линиями. Куб памяти соединяется с кристаллом, на
TSV connections
yer
M La
DRA
r
aye
e
ic L
trat
g
o
L
ubs
S
e
kag
Pac
Рис. 31. Сборка типа память на логике
24
а)
б)
TSV
mBumps
Контроллеры памяти
Рис. 32. Пример сборки типа память на логике:
а – схема топологии; б – увеличенное представление µbumps
котором расположена логика, по схеме Front-to-Back (F2B). На этом
рисунке представлена область TSV, контакты µbumps и контроллеры памяти. И в кубе памяти, и на кристалле логики расположены
температурные датчики (на рисунке они представлены зелеными
квадратами). Они позволяют определить, не начался ли перегрев.
Гибридный вариант 3D и 2.5D сборок
Довольно широкое распространение получил вариант 3D сборок, в котором часть кристаллов располагается друг над другом,
а часть, рядом с ними, на едином интерпрозере или единой подложке. Как правило, отдельно от стека располагают кристаллы
с большим энергопотреблением для того, чтобы можно было эффективно организовать теплоотвод, а также кристаллы RF, которые могут создать помехи, влияющие на работу других кристаллов. В ряде случаев отдельно приходится располагать кристаллы,
которые при разработке не были ориентированы на включение
в 3D стек (рис. 33).
На рис. 34 представлен вариант сборки, в которой куб памяти
собран по технологии 3D, рядом с ним на интерпрозере расположен
процессор. Такой вариант сборки позволяет обеспечить теплоотвод
25
3DIC TSV
Integrated
Antenna
Mircobump
3DIC
with
TSV
Flipchip/
Discrete
Sensor
Fan-Out
WLP
Package
Embedded
Discrete
PCB / Mother Board
Рис. 33. Гибридный вариант 3D и 2.5D сборки,
включающей в себя кристаллы, изготовленные по разной технологии
1 CMOS
Buffer Die
RAM Die or Die
Stack
Si Substrate
Processor Die
Package
Substrate
PC Board
Рис. 34. Гибридный вариант 3D и 2.5D сборки,
включающей в себя кристаллы, на которых реализованы
блоки памяти (3D сборка) и процессор – на базе кристалла
от процессора (во многих случаях тепловыделение процессора на
порядок превосходит тепловыделение памяти). В этом случае могут использоваться кристаллы процессоров, которые не ориентированы на включение в 3D стек.
Проблемы, ограничивающие использование 3D технологии
Можно выделить следующие основные проблемы, ограничивающие использование 3D технологии:
– проблема теплоотвода;
26
– проблема снижения выхода годных изделий из-за дефектов
при реализации TSV соединений.
Проблема теплоотвода
Типовая схема теплоотвода представлена на рис. 35.
Основной теплоотвод осуществляется с верхней части стека. Из
нижних внутренних слоев стека теплоотвод может осуществляться через специальные термальные TSV. С увеличением количества
кристаллов, входящих в состав стека, количество термальных TSV
и, соответственно, занимаемая ими площадь, существенно возрастает. С увеличением количества TSV снижается выход годных сборок.
В настоящее время, как правило, количество кристаллов в сборке не превосходит восемь штук.
Проблема снижения выхода годных изделий
из-за дефектов при реализации TSV соединений
В настоящее время при производстве 3D сборок очень ощутимая
часть технологических дефектов приходится на TSV соединения.
Для каждой технологии и технологической нормы существует некое предельное количество TSV, при превышении которого выход
годных начинает очень резко снижаться [1].
Для увеличения выхода годных изделий был разработан подход, при котором в схему включаются резервные TSV [5, 6].
Рассматриваются подходы, в рамках которых предлагается
в проект включать некоторое количество дополнительных TSV и
включать их в работу, если часть основных TSV окажется дефектной.
Heat Sink
Heat Spreader
Face-to-Back
Connect
Рис. 35. Типовая схема теплоотвода
27
Подходы можно разделить на две группы. В рамках первой
группы рассматриваются и резервируются линейные массивы TSV.
В рамках второй группы рассматриваются подходы, при которых
резервируются двумерные массивы TSV. Примеры, иллюстрирующие подходы, относящиеся к первой группе, показаны на рис. 36
а, б. Примеры, иллюстрирующие подходы, относящиеся ко второй
группе, – на рис. 36 в, г.
a)
б)
Die 1
Die 2
в)
г)
Signal TSV
Redundant TSV
1-2 Switch
Router
Signal Pad
1-3 Switch
Рис. 36. Различные подходы резервирования TSV:
а – линейные массивы TSV с устойчивостью к двум дефектам;
б – линейные массивы TSV с устойчивостью к одному дефекту;
в – двумерный массив TSV со включением на базе мультиплексоров;
г – двумерный массив TSV со включением
на базе коммутационной матрицы
28
В работе [7] предлагается использовать подход, представленный
на рис. 36, а. В рамках этого подхода TSV разделяются на группы
по четыре штуки. В каждую группу добавляется по два дополнительных TSV, которые используются в случае, если основные оказываются дефектными. При таком подходе все шесть TSV включаются по симметричной схеме. Каждая из четырех точек подключения может подключаться к одному из трех TSV. Если дефектными
оказались, например, два соседних TSV из основного набора, то соответствующая точка подключения может использовать в качестве
резервного TSV из основного набора, а находящаяся рядом с ней
другая точка подключения будет переведена на резервный TSV.
Такой подход обеспечивает устойчивость к двум дефектам в рамках
одной группы TSV.
В работе [8] предлагается использовать подход, представленный
на рис. 36, б.
При использовании этого подхода в группу из четырех основных
TSV добавляется один дополнительный TSV. Каждая точка подключения подключается к двум TSV. Такой подход обеспечивает
устойчивость к одному дефекту в рамках одной группы TSV.
Следующие подходы относятся ко второй группе.
В рамках подхода, предложенного в работе [9], группа TSV, занимающая прямоугольную область, включающую в себя несколько строк и столбцов TSV, дополняется строкой (или столбцом) с резервными TSV. В схему включается коммутатор, который позволяет коммутировать точки подключения к разным TSV. На рис. 37
представлен фрагмент этой структуры в вертикальной плоскости.
Пример обобщенной структуры СнК, реализованной в соответствии с этим подходом, представлен на рис. 38.
На нем область обозначенная
1* – это TAP – test Access Point, через нее в тестовом режиме подаются
тестовые векторы; 2* – точки, через
которые вычитываются результаты тестирования; 3* – точки, через
которые осуществляется программирование блоков памяти, которые
управляют коммутаторами TSV.
На рис. 39 представлена оценка
накладных расходов на реализацию
Рис. 37. Фрагмент двумерного
блока TSV. Блок, рассмотренный
массива TSV в вертикальной
в этом примере, включает в себя 38
плоскости
29
1*
NoC
2D
NoC
2D
3*
1*
3*5
NoC
2D
NoC
2D
3*
2*
3*
Рис. 38. Пример обобщенной структуры СнК с резервированием TSV
Рис. 39. Диаграмма оценок накладных расходов,
связанных с резервированием TSV
Рис. 40. Фрагмент топологии маршрутизатора с двумя группами TSV,
для которых используется резервирование
30
TSV. Рассматриваются накладные расходы при добавлении от 2 до
38 дополнительных TSV.
На рис. 40 представлен фрагмент топологии маршрутизатора
(SWITCH) с двумя группами переходных отверстий для связей
с соседними кристаллами. Как можно видеть из приведенных оценок, накладные расходы на реализацию коммутаторов между TSV
не велики, не превосходят 3–5 % от общей площади TSV зоны.
Основная часть накладных расходов приходится на дополнительные TSV и определяется количеством дефектных TSV, устойчивость к которым необходимо обеспечить.
Normal
TSV
Redundant
TSV
T-type TSV Group
Diamond-type
Inverted T-type TSV Group
TSV Group
Switch
Switch
Switch
Switch
SP
SP
SP
SP
Switch
Switch
Switch
Switch
SP
SP
SP
SP
Switch
Switch
Switch
Switch
SP
SP
SP
SP
Switch
Switch
Switch
Switch
SP
SP
SP
SP
SP
Group 4
SP
Group 3
SP
Group 2
SP
Group 1
Рис. 41. Пример двумерной структуры TSV,
обеспечивающей устойчивость к 8 отказам
31
В работе [10] предложен подход, который в отличие от предыдущих ориентирован на восстановление в ситуациях, когда дефектной оказалась группа TSV, расположенных рядом друг с другом.
В рамках этого подхода вся группа TSV объединяется в единую сеть
4th TSV Row
3rd TSV Row
2nd TSV Row
1st TSV Row
SP
SP
SP
SP
SP
Group 4
SP
SP
SP
SP
SP
Group 3
SP
SP
SP
SP
SP
Group 2
SP
SP
SP
SP
SP
Group 1
Рис. 42. Пример структуры с 8 отказавшими TSV
4th TSV Row
3rd TSV Row
2nd TSV Row
1st TSV Row
SP
SP
SP
SP
SP
Group 4
SP
SP
SP
SP
SP
Group 3
SP
SP
SP
SP
SP
Group 2
SP
SP
SP
SP
SP
Group 1
Рис. 43. Вариант работоспособной конфигурации
для структуры с 8 отказавшими TSV
32
(рис. 36, г), любая точка подключения может быть подключена
к любому TSV.
Еще один сходный с этим подход представлен в работе [11] .
В этой работе предлагается использовать для группы TSV двумерный коммутатор, позволяющий ее реконфигурировать, – включать
при необходимости резервные TSV. Структура коммутатора для
группы TSV, включающей в себя 16 основных TSV (расположенных в 4 строки, 4 столбца) и восемь дополнительных TSV (2 столбца
по 4 TSV), представлена на рис. 41.
Такая схема позволяет обеспечить устойчивость к отказам любых восьми TSV. На рис. 42 представлен пример структуры с восемью отказавшими TSV.
На рис. 43 представлен вариант работоспособной конфигурации
для этой структуры.
1.3. Процесс проектирования 2.5D и 3D проектов
Процесс проектирования состоит из следующих основных этапов:
– архитектурная спецификация;
– разработка каждого отдельного кристалла, входящего в состав
проекта;
Архитектурная
спецификация
Кристалл 1
Кристалл N
Кристалл 2
Разработка
RTL
Разработка RTL
Разработка RTL
Логический
синтез
Логический
синтез
Логический
синтез
Физический
синтез
Физический
синтез
Физический
синтез
Моделирование,
тестирование,
верификация
Моделирование,
тестирование,
верификация
Моделирование,
тестирование,
верификация
Интеграция проекта
Оценка характеристик
Изготовление
Рис. 44. Типовая схема процесса проектирования 2.5D и 3D проектов
33
– интеграция всех частей проекта.
Обобщенная схема процесса проектирования представлена на
рис. 44.
На этапе архитектурной спецификации определяется, в каком
кристалле (или нескольких кристаллах) будет расположен каждый
компонент, входящий в состав проекта. На этом этапе определяется размещение точек связи между кристаллами.
Далее выполняется разработка каждого отдельного кристалла.
Она включает в себя проектирование RTL, логический и физический синтез.
Затем, на этапе интеграции всех частей проекта, проверяются
температурные характеристики частей проекта, выполняется интеграция проекта и проверяются электрические характеристики.
34
ГЛАВА 2
ПОДХОДЫ К ПРОЕКТИРОВАНИЮ СНК И СЕНК
С ИСПОЛЬЗОВАНИЕМ 2.5D И 3D ТЕХНОЛОГИИ
Основные требования к сети-на-кристалле:
– масштабируемость;
– производительность/поддержка требуемых классов сервиса;
– обеспечение заданных ограничений по энергопотреблению;
– надежность.
Как было показано в предыдущем разделе:
– происходит сокращение длины линий связи;
– возрастает производительность, улучшаются временные характеристики;
– снижается энергопотребление в линиях связи;
– достигается большая плотность упаковки элементов;
– предоставляется возможность размещать компоненты, относящиеся к разным технологиям, на разных кристаллах, что позволяет существенно упростить технологию изготовления.
Однако при использовании этого подхода возникает новая проблема – проблема теплоотвода из середины стека кристаллов.
Можно выделить следующие основные подходы к проектированию 2.5D и 3D СнК:
– каждый IP-блок размещается на одном кристалле, разные IPблоки могут размещаться на разных кристаллах;
– каждый IP-блок размещается частями на всех кристаллах,
входящий в состав сборки;
– гибридный подход, при котором IP-блоки могут размещаться
в одном или нескольких кристаллах, входящих в состав сборки.
2.1. Подход, при котором каждый IP-блок размещается
на одном кристалле
Данный подход является наиболее простым в реализации. При
его использовании разработка IP-блоков для проекта не требует каких-либо специальных действий. Могут использоваться IP-блоки,
разработанные для проектов, ориентированных на размещение
в одном кристалле.
При использовании этого подхода разработчик должен определить, какие IP-блоки будут размещены на каждом кристалле и как
они будут расположены друг относительно друга по горизонтали и
35
по вертикали. При этом необходимо учитывать требования производительности, временные характеристики и тепловыделение.
По такой схеме, например, могут собираться мультипроцессорные системы. Рассмотрим возможные варианты их реализации и
достижимые характеристики. В работах [12, 13] были рассмотрены варианты реализации сборок, включающие в себя несколько
блоков процессоров, расположенных в стеке друг над другом (рис.
45). Все блоки имеют одинаковую структуру. Блок включает в себя два процессорных ядра и общий кеш второго уровня. (Кеш может использоваться процессорными ядрами, расположенными на
всех кристаллах, входящих в состав сборки.) В рамках разработки
проекта было рассмотрено два варианта сборки. В первом варианте
кристаллы располагаются друг над другом таким образом, что зоны процессорных ядер оказываются друг над другом и зоны кеш,
соответственно, также. Во втором варианте сборки кристаллы расположены таким образом, что в вертикальном расположении чередуются зоны кеш и процессорные зоны.
Если чередование отсутствует, то с ростом рабочей частоты тепловыделение растет несколько быстрее. Разница не велика, но постепенно увеличивается с ростом рабочей частоты. Так на частоте
1ГГц она составляет около 2,5%, на частоте 1,5 ГГц – 4–5%.
С увеличением количества слоев в стеке тепловыделение растет
в зависимости, близкой к линейной. Так, тепловыделение сборки
L2 Cache Bank
Core
2D Multi-core (1 Layer, 2 Cores)
Non-Flip
Stacking
Flip Staking
3D Multi-core (2 Layers, 4 Cores)
Non-Flip
Stacking
Flip Staking
3D Multi-core (4 Layers, 8 Cores)
Рис. 45. Варианты сборок мультипроцессорных систем, пример 1
36
из четырех кристаллов приблизительно в 2 раза больше тепловыделения сборки из двух кристаллов.
Производительность для варианта без чередования оказывается
несколько хуже, чем для варианта с чередованием. Но для многих
рассмотренных тестов эта разница не значительна и не превосходит
2–3%.
Таким образом, с точки зрения производительности и тепловыделения вариант с чередованием оказывается более предпочтительным, но выигрыш от его использования в данном случае не очень
велик.
В другом исследовании [14] сравнивались многопроцессорные
системы с общим кеш, структура которых представлена на рис. 46
Если кеш был реализован по схеме с репликами (replicated), то
разница по производительности для этих вариантов схем для различных тестов находилась в пределах 2–5%. Если кеш был реализован по схеме с чередованием слов (например, слова с нечетными
номерами размещаются в банке с нечетным номером, слова с четными номерами размещаются в банке с четным номером), то вариант размещения с чередованием на некоторых тестах позволил
повысить относительную производительность (относительно 2D варианта размещения) в 1,3–1,4 раза.
Разница в тепловыделении для всех вариантов реализации оказалась невелика – не превышает 2–5 %.
Таким образом, если использовать вариант с чередованием размещения процессорных блоков и блоков кеш в сочетании с использованием чередования строк кеш, то это позволяет получить довольно ощутимый выигрыш в производительности и не приводит
а)
б)
в)
Die 1
Die 0
Cluster
Cache bank
Intra-die horizontal wire
Inter-die vertical wire
Рис. 46. Варианты сборок мультипроцессорных систем, пример 2:
а – архитектура 1 – блоки кеш расположены в одном кристалле, блоки
процессоров – в другом; б – архитектура 2 – в каждом кристалле
расположен комплект блоков кеш и процессор, в стеке нет чередования;
в – архитектура 3 – в каждом кристалле расположен комплект блоков
кеш и процессор, в стеке есть чередование
37
к сколько-нибудь ощутимому увеличению энергопотребления по
сравнению с остальными рассмотренными вариантами.
Этот результат косвенным образом указывает на то, что если размещать IP-блок не целиком в одном кристалле, а в нескольких кристаллах (как в данном случае произошло с кеш за счет чередования
строк), то можно получить существенно лучшие характеристики.
Характеристики многопроцессорной системы зависят не только
от взаимного расположения компонентов, но и от распределения
задач по процессорам.
В работе [15] рассмотрены различные варианты реализации
мультипроцессорных структур (рис. 47). В них использованы сходные с двумя предыдущими примерами схемы размещения процессоров и блоков кеш. В отличие от предыдущих примеров в данном
случае рассматриваются разные варианты распределения задач по
процессорам.
В этой работе было показано, что способность системы сохранять
тепловыделение на приемлемом уровне в значительной степени зависит от распределения задач по процессорам. Распространение
тепла в стеке происходит преимущественно в вертикальном направлении и сверху вниз. Поэтому верхние кристаллы в стеке перегреваются сильнее за счет нижних слоев. С другой стороны, наиболее интенсивный теплоотвод происходит, как правило, с верхнего
слоя. В соответствии с этим рекомендуется, чтобы задачи, выполнение которых связано с интенсивным изменением состояния аппаратуры располагались в самых верхних слоях. Кроме того, распределение задач между группами процессоров, расположенных
в вертикальных колонках, должно быть как можно более равноа)
б)
в)
г)
Рис. 47. Варианты сборок мультипроцессорных систем, пример 3:
а – блоки кеш и процессоров расположены в каждом кристалле, в стеке
есть чередование; б – блоки кеш и процессоров расположены в каждом
кристалле, в стеке нет чередования; в – блоки кеш и процессоров
расположены в разных кристаллах, кристаллы с кеш чередуются
с кристаллами с процессорами; г – эталонный вариант
38
мерным. Это позволит избежать локального перегрева каких-либо
вертикальных зон внутри стека.
Таким образом, характеристики производительности и характеристики тепловыделения системы зависят:
– от взаимного расположения IP-блоков в горизонтальной и вертикальной плоскости – это определяет статические характеристики системы;
– от распределения задач по процессорным ядрам, в структуре
стека (в общем виде от того, как в структуре системы распределены интенсивно работающие блоки, т.е. блоки, вентили в которых
переключаются наиболее часто) – это определяет динамические характеристики системы.
В этих примерах проектировщики выбирали варианты размещения IP-блоков вручную. Это было возможно благодаря симметричной структуре системы и очень небольшому количеству IP-блоков,
входящему в нее.
В настоящее время существуют алгоритмы, основывающиеся на
ILP, позволяющие формировать размещение IP-блоков по кристаллам в автоматическом режиме [16]. Данные алгоритмы имеют довольно большую вычислительную сложность, однако для современных СенК позволяют получить результат за допустимое время.
2.2. Подходы, при которых IP-блоки могут размещаться
на разных кристаллах
При использовании этих подходов не могут использоваться IPблоки, разработанные для СнК, размещаемых на одном кристалле. Для каждого IP-блока необходимо разрабатывать варианты
его размещения в нескольких кристаллах, выполнять оценку их
характеристик, выбирать варианты по различным характеристикам, удовлетворяющие пользовательским ограничениям. Однако
в большинстве случаев это позволяет получить систему с существенно лучшими временными характеристиками и меньшим тепловыделением.
В работе [17] были рассмотрены следующие варианты структур,
представленные на рис. 48.
На рис. 48, а представлен 2D вариант проекта, в котором процессорные узлы равномерно распределены в структуре среди блоков кеш-памяти. На рис. 48, б представлен вариант 3D структуры,
в котором каждый из процессоров и каждый блок кеш реализован
в четырех кристаллах (во всем стеке насквозь). Процессорные ядра
39
а)
CPU Cores
б)
(single layer)
2DB
(Layers 1~4)
3DM(-E)
в)
Cache Cores
(Layer 1~3) (Layer 4)
3DB
Рис. 48. Варианты структур:
а – 2D проекта; б – 3D проекта, в котором каждый
из процессоров и каждый блок кеш реализован в 4-х кристаллах
(во всем стеке насквозь); в – 3D проекта, в котором каждое
процессорное ядро и каждый блок кеш расположены
в одном кристалле
в этой структуре распределены таким же образом, как и для 2D
проекта. На рис. 48, в каждое процессорное ядро и каждый блок
кеш расположены в одном кристалле. В нижних трех кристаллах
стека расположены только блоки кеш. В верхнем кристалле расположены все процессорные блоки и один блок кеш.
Производительность варианта, представленного на рис. 48, б, на
большинстве тестов на 10–30% выше, чем производительность варианта в и эталонного 2D варианта. Энергопотребление и тепловыделение для варианта б тоже оказывается на 5–10% меньше.
Таким образом, вариант, в котором каждый из блоков расположен в нескольких кристаллах, оказывается предпочтительным и
с точки зрения производительности, и с точки зрения энергопотребления.
Необходимо учитывать, что система, собранная из блоков, каждый из которых расположен в нескольких кристаллах и имеет наилучшие характеристики, может в целом иметь характеристики,
далекие от оптимальных. Однако одновременное решение задачи
распределения каждого блока по нескольким кристаллам и распределение всех блоков в структуре стека имеет слишком высокую вычислительную сложность. Поэтому в настоящее время существуют
отдельные алгоритмы размещения IP-блоков различных типов по
слоям и алгоритмы размещения таких «многослойных» IP-блоков
в структуре системы.
40
Алгоритмы размещения IP-блоков позволяют получить не
только все лучшие решения, но все решения, удовлетворяющие
пользовательским ограничениям. Алгоритмы размещения блоков
в структуре системы рассматривают варианты размещения для
всех отобранных решений. Это позволяет приблизиться к достижению оптимальных характеристик для системы в целом [18, 19].
2.3. Проектирование IP-блоков, которые могут размещаться
на разных кристаллах
Блок может распределяться по кристаллам с разной степенью
гранулярности. При использовании самой мелкой гранулярности распределение по разным кристаллам может осуществляться
на уровне транзисторов. В этом случае требуется использовать/
разрабатывать специализированные технологические библиотеки уровня логических вентилей, предусматривающие такую гранулярность. При этом подходе переходные отверстия могут быть
расположены рядом с каждым триггером. Соответственно, для
реализации IP-блока в целом их потребуется слишком много. Это
в настоящее время существенно сдерживает распространение данного подхода. Он используется в основном только для реализации
элементов памяти по технологии MLBS. В этом случае накладные
расходы на реализацию TSV оказываются приемлемыми.
Следующий уровень гранулярности – уровень логических вентилей. Применение этого уровня гранулярности также требует наличия специализированных технологических библиотек, так как
переходные отверстия в этом случае, как правило, располагаются
в зоне логического вентиля. Подход используется для реализации
блоков различного назначения, однако существенно сдерживается
технологическими ограничениями.
На следующем уровне гранулярности по слоям распределяются более крупные компоненты, такие как один или несколько регистров,
одна или несколько ячеек памяти, блок, выполняющий некоторую
логическую функцию. В этом случае специализированные технологические библиотеки, как правило, не используются. TSV располагаются за пределами библиотечных компонентов (логических вентилей).
В настоящее время не существует алгоритмов, позволяющих
для любого IP-блока выполнить его размещение по нескольким
кристаллам. Существуют методики, позволяющие выполнить такое размещение для блоков различных типов. Рассмотрим примеры методики размещения для кеш и процессорной логики.
41
Блок кеш
Существует несколько вариантов реализации кеш в трехмерной
структуре [20]. Они, прежде всего, различаются гранулярностью –
размером фрагментов кеш, которые могут размещаться в различных слоях.
Самая малая гранулярность достигается, когда каждая ячейка
SRAM состоящая из шести транзисторов, размещается в двух слоях: pull-up PMOS транзисторы размещаются в одном слое, а pulldown NMOS транзисторы – в другом слое. При этом подходе сокращается площадь памяти кеш, соответственно длина линий связи
внутри кеш. Однако существенным недостатком этого подхода
является большое количество TSV, используемых для реализации
каждой ячейки памяти. Занимаемая ими площадь оказывается
сравнимой с площадью, занимаемой транзисторами. Фактически
такой подход к организации кеш используется только для технологии MLBS, так как в ней переходные отверстия между активными
слоями имеют очень малые линейные размеры. Сокращение площади при использовании этого подхода достигаетс только при использовании MLBS технологии.
Следующий уровень гранулярности – разбиение на разные
слои блоков кеш, включающих в себя несколько строк 3D Divided
Wordline (3DWL) (рис. 49) или несколько битовых линий 3D
Divided Bitline (3DBL) (рис. 50).
r
address
inputs
data
outputs
3 - 1
Blk 3-1
128xWLs
128xWLs
128xBLs
LW
128xBLs
LDe
c Blk0-1 1-1 Blk1-1 2-1 Blk2-1 3-1 Blk3-1
LW
&
LD
Dr
ec Blk0-2 1 Blk1-2 2 Blk2-2 3 Blk3-2
SA 0-1
SA 1-1
SA 2-1
SA 3-1
&
WL
Dr
Pre-Dec
SA 4-1 SA SA 5-1 SA SA 6-1 SA SA 7-1 SA 3-2
data
SA
SA
SA
SA 7-2
4-1 Blk4-1 5-1 Blk5-1 6-1 Blk6-1 7-1 Blk7-1
outputs
4
Blk4-2
5
Blk5-2
6
Blk6-2
SA
3 -1
Blk 3-2
3 - 2
7 Blk7-2
SA
Рис. 49. Вариант разделения кеш по строкам
42
3 -2
При использовании первого строки памяти размещаются в разных слоях, а local wordline decoder в одном из этих слоев. Со вторым слоем он связывается переходными отверстиями. Word line
driver на каждом слое используется свой. Однако за счет того, что
нагрузка на них в два раза меньше, их площадь также оказывается
практически в два раза меньше. При этом подходе количество переходных отверстий относительно невелико, они не приводят к существенному увеличению площади. При применении этого подхода
существенно сокращается длина линий адреса и входных/выходных линий данных.
Подход 3D Divided Bitline (3DBL) близок к 3D Divided Wordline.
Однако в этом случае разбиение происходит по битовым линиям, а
не по словам. Усилители чтения могут устанавливаться на всех слоях или только на одном слое. Если они устанавливаются в каждом
слое, то это сокращает время доступа. Если они устанавливаются
только в одном слое, то это позволяет упростить схему мультиплексирования битовых линий, уменьшить площадь, занимаемую этой
схемой.
64xWLs
256xBLs
256xBLs
Blk0-1
address
inputs
Blk1-1
Blk2-1
Blk3-1
64xWLs
0-1
1-1
2-1
3-1
address M U X & SA Blk0-1 M U X & SA Blk1-1 MU X & SA Blk2-1 MU X & SA Blk3-1
0-2
1-2
2-2
3-2
inputs
WL
MU X & SA
MU
X & SA
MU X & SA
M U X & SA
Pre-Dec
WL
data
M U X & SA
M
U
X
&
S
A
M
U
X
&
S
A
M U X & SA
data
Pre-Dec
outputs
outputs
MU X & SA
MU X & SA
M U X & SA
MU X & SA
4-1
Blk4-1
5-1
Blk4-1
Blk5-1
4-2
p r e-d ec o d ed
Blk6-1
6-1
Blk5-1
5-2
3 -1
6-2
B lk
7-1
Blk6-1
Blk7-1
Blk7-1
7-2
3 -1
a d d r ess b i ts
M U X & SA
3 -2
B l k 3 -2
M U X & SA
Рис. 50. Вариант разделения кеш по битовым линиям
43
Original
array
256xBLs
128xWLs
Array
Ndwl =
2
128xBLs
128xWLs
0
1
Ndbl =
4
128xBLs & 16xWLs
128xBLs
32WLs
0
2
1
3
4
5
6
7
Nspd =
2
256xBLs
16WLs
Nx:Ny = 2:1
256xBLs & 8xWLs
Nx:Ny = 1:2
С = cache size = 32kb
В = block size = 16B
A = associativity = 2
Рис. 51. Возможные линейные размеры кеш
при различных значениях параметров
Для того чтобы определить оптимальное размещение кеш в 3D
структуре для конкретной технологии, был разработан алгоритм,
позволяющий оценивать площадь, временные характеристики и
энергопотребление конкретного варианта конфигурации кеш –
3DCacti.
На рис. 51 представлен пример вариантов масштабирования геометрических размеров кеш для этих подходов.
Как можно видеть из этого рисунка, линейные размеры вариантов реализации существенно зависят от выбранного подхода и от
параметров.
Блок вычислителя
Так же, как и для кеш, для блоков вычислителей может быть
использована разная степень гранулярности.
При использовании крупной гранулярности в разных кристаллах могут располагаться «крупные» блоки, входящие в состав
вычислителя, например блоки, реализующие отдельные ступени
конвейера, блок регистров, блок таблицы преобразования адресов
(рис. 52) [21]. В данном случае могут быть существенно сокращены
межблочные связи, например блоки АЛУ могут быть размещены
над (или под) блоком регистров. При этом подходе могут применяться стандартные библиотеки компонентов. Количество связей
между отдельными кристаллами относительно не велико.
В тех случаях, когда необходимо увеличить быстродействие отдельных блоков, входящих в состав вычислителя, может быть выполнено разделение между слоями на среднегранулярном уровне.
На этом уровне в настоящее время чаще всего в разных кристал44
Рис. 52. Вариант разделения процессорного ядра
на два кристалла на уровне крупногранулярных блоков
Рис. 53. Вариант разделения процессорного ядра
на два кристалла на среднегранулярном уровне
лах выполняется обработка разных разрядов слов данных. Пример
такого разделения на два кристалла представлен на рис. 53 [21].
В этом случае могут использоваться стандартные библиотеки компонентов, количество связей между кристаллами относительно не
велико.
На самом низком уровне гранулярности в разных кристаллах
располагаются части блоков обработки отдельных битовых линий
(рис. 54). Использование этого
подхода требует разработки специализированных технологических
библиотек. Его реализация в ряде
случаев может требовать большого
Рис. 54. Обобщенный пример
количества связей между кристалразделения на два кристалла
блока обработки
лами. Поэтому в настоящее время
одной битовой линии
такой подход используется пре45
имущественно для блоков процессора, быстродействие и энергопотребление которых особенно критично [21].
Рассмотрим пример реализации компонентов вычислителя
в разных кристаллах с мелкой гранулярностью блоков, разносимых в разные кристаллы.
Одним из наиболее критичных компонентов вычислителя по
площади и по энергопотреблению является очередь входных команд, в которой в том числе выполняется их переупорядочивание
в соответствии с готовностью данных. В работе [22] было показано,
что энергопотребление этого компонента составляет около 25% от
общего энергопотребления процессора. Очередь команд включает
в себя два основных активных компонента: компонент обработки
тэгов, по которым определяется, какие команды потенциально могут пойти на выполнение и компонент определения, какая команда
пойдет на выполнение следующей.
На рис. 55 представлена схема элемента для обработки и хранения одного тэга в одном слое. В данном случае предполагается,
что на одном такте может осуществляться запись в четыре регистра
процессора.
На рис. 56 представлен вариант для реализации в двух слоях.
В этом варианте линии 0, 1 вынесены в один из слоев, линии 2,3 –
во второй слой. При применении в процессоре большего количества
Storage Cell
Tg3 Tg2 Tg1 Tg0
b0 b1b2b3
b3 b2 b1 b0
Tg0 Tg1 Tg2 Tg3
WL0
WL0
WL1
WL1
WL2
WL2
WL3
WL3
VCC
ML0
ML1
OR Rdy
ML2
ML3
Precharge
Рис. 55. Реализация элемента для обработки
и хранения одного тэга в одном слое
46
Storage Cell
Tg1 Tg0
WL0
b1 b0
b0 b1
Tg0 Tg1
Via To Layer 2
Storage Cell
Tg1 Tg0
b1 b0
b0 b1
Tg0 Tg1
Via To Layer 2
WL0
WL1
Layer 1
ML0
ML1
Tg3
1 Tg2
b3 b2
b2 b3
Tg2 Tg3
Vias From Layer 1
WL2
WL3
ML2
Layer 2
ML3
Рис. 56. Реализация элемента для обработки
и хранения одного тэга в двух слоях
теговых линий с использованием этого подхода возможно разделение на большее количество слоев.
2.4. Организация коммуникационной системы
и коммутаторов для 3D проектов
Можно выделить два основных подхода к проектированию коммуникационной системы между кристаллами 3D сборки (их, как
правило, называют слоями):
– на базе непосредственных связей между соседними кристаллами;
– на базе «сквозных» связей, объединяющих несколько кристаллов.
Для построения систем связей между кристаллами не могут
быть использованы подходы и протоколы, применяемые для построения СнК на одном кристалле, такие как AXI, AHB, OCP и др.
Для этих технологий коммуникационная система может формироваться на базе шины (логической) или коммутатора. В обоих случаях коммуникационная матрица строится на базе мультиплексоров. При использовании, шины, например, линии адреса и данных
от всех ведущих устройств проходят через мультиплексор и, далее,
заводятся на все ведомые устройства. Если ведущие и ведомые
47
устройства расположены в различных кристаллах, то для организации такой коммуникационной системы понадобится недопустимо большое для современной технологии количество переходных
отверстий. В связи с этим связи между кристаллами в настоящее
время организуются либо по схеме точка-точка (связи между соседними кристаллами), либо по физической шине (сквозная связь
между несколькими кристаллами).
Организация коммуникационной системы
на базе непосредственных связей
между соседними кристаллами
При использовании этого подхода, как правило, связи между
кристаллами реализуются как связи между маршрутизаторами,
расположенными в соседних кристаллах. В этих маршрутизаторах
наряду с портами для связей с компонентами, находящимися в том
же самом кристалле, реализуются порты для межкристалльных
связей. Для передачи данных между маршрутизаторами на уровне точка-точка используется, как правило, простой handshaking
протокол. Его реализация связана с минимальными аппаратными
затратами и накладными расходами при передаче данных. В большинстве систем handshaking протокол используется и для связей между маршрутизаторами на одном и на разных кристаллах.
Потенциально коммуникации в рамках одного кристалла могут
реализовываться с использованием других протоколов. Однако
поскольку это связано с ощутимыми аппаратными затратами и
накладными расходами на преобразование форматов данных при
передаче, в настоящее время такие подходы практически не используются.
При переходе от «плоской» к 3D структуре связей в маршрутизаторах, используемых для связей между слоями, появляется как
минимум два дополнительных порта (для связи с ближайшим верхним и ближайшим нижним слоями). Как правило, типовой маршрутизатор имеет один порт для подключения процессорного элемента,
4 порта для связей в рамках «своего» кристалла и два дополнительных порта для связей между слоями. Если коммутатор реализуется
на базе единой коммутационной матрицы, обеспечивающей связи
каждый с каждым, то появление этих портов приводит к достаточно ощутимому росту аппаратных затрат (прежде всего, линий связи,
которые должны пройти через зону очень ограниченного размера на
кристалле) и энергопотребления в зоне коммутации.
48
north_wins
up_wins
down_wins
west_wins
south_wins
core_wins
east_wins
Для решения этих проблем предлагается перейти к распределенной структуре маршрутизаторов. В работе [23] было предложено несколько сходных вариантов реализации маршрутизатора,
в которых вертикальные связи прокладываются не как шины, через каждую точку коммутации, а по схеме, симметричной горизонтальным связям. Для достижения приемлемых аппаратных затрат
такой маршрутизатор реализуется на базе системы из нескольких
каскадов коммутации. Было показано, что наилучшими характеристиками с точки зрения аппаратных затрат, времени передачи
данных и энергопотребления наиболее удачными являются схемы,
приведенные на рис. 57–59.
На рис. 57 приведена схема, состоящая из двух последовательно
включенных коммутационных матриц размером 4×4.
На рис. 58 приведена схема из двух последовательно включенных коммутационных матриц размером 3×3 и 5×5 соответственно.
На рис. 59 приведена двухкаскадная схема, состоящая из матриц 3×3 и 4×4 в первом каскаде и матрицы 2×2 во втором каскаде.
Существует ряд подходов, в которых сам маршрутизатор распределяется на несколько кристаллов.
В рамках подхода, предложенного в работе [29], предлагается
разделить реализацию маршрутизатора на несколько кристаллов.
Причем в каждый отдельный кристалл вынести «слой» маршрутизатора, отвечающий за передачу нескольких идущих подряд
разрядов на шине данных. Например, если каналы данных имеют
CORE
EAST
WEST
SOUTH
OUTPUT1
NORTH
UP
DOWN
Рис. 57. Структурная схема каскада
из двух коммутационных матриц 4×4
49
south_wins
north_wins
up_wins
down_wins
west_wins
core_wins
east_wins
CORE
EAST
WEST
OUTPUT1
SOUTH
NORTH
UP
DOWN
east_wins
west_wins
core_wins
Рис. 58. Структурная схема каскада
из двух коммутационных матриц 3×3 и 5×5
south_wins
north_wins
up_wins
down_wins
CORE
EAST
WEST
OUTPUT1
SOUTH
NORTH
UP
DOWN
Рис. 59. Структурная схема каскада
из трех коммутационных матриц 3×3, 4×4
в первом каскаде и 2×2 во втором каскаде
разрядность 32, то маршрутизатор можно разделить на четыре кристалла, в каждом из которых будет организована передача восьми
разрядов. В маршрутизаторе выделяются блоки, которые можно
разделить на слои – к ним относятся каналы передачи данных,
50
буфера и блоки, которые нельзя разделить на слои по этому принципу. К ним относятся блоки арбитража. Блоки арбитража могут
быть реализованы в одном слое или распределены по слоям другим
способом.
Вариант маршрутизатора с поддержкой виртуальных каналов, реализация которого распределена по нескольким слоям, был
предложен в работе [24]. В его основе лежит классическая структура маршрутизатора с поддержкой виртуальных каналов, представленная на рис. 60.
Предложенный вариант структуры представлен на рис. 61.
Выполнена декомпозиция исходной структуры маршрутизатора на три части, каждая из которых может быть реализована
в отдельном кристалле. В отдельную структуру выделена группа
компонентов маршрутизатора, которые осуществляют управление
Routing
Computation
(RC)
VC identifier
vc 1
Input
channel 1
vc 2
Credits
in
VC
Arbiter(VA)
vc v
Credit out
Switch
Allocator(SA)
Input port 1
One k-flit
FIFO
Buffer per
VC
output
channel 1
Input port
P
Input
channel P
output
channel P
Credit out
Crossbar
(PxP)
Рис. 60. Базовый вариант структуры маршрутизатора
с виртуальными каналами
51
scheduling
RC Computation
Speculative VC
allocation
Speculative Switch
allocation
Input port
East
West
Crossbar
(2x2)
Input port
West
Row Module
East
From Up port
Up
Crossbar
(2x2)
From Down
port
UP Down
Module
Down
RC Computation
scheduling
From North
port
Speculative VC
allocation
Speculative Switch
allocation
South
Crossbar
(2x2)
Column Module
From South
port
North
RC Computation
Eject
scheduling
PE
Speculative VC
allocation
Speculative Switch
allocation
Рис. 61. Декомпозиция структуры маршрутизатора с виртуальными
каналами для размещения в трех слоях
передачей в восточное и западное направление; в северное и южное
направление, вверх и вниз.
52
Организация коммуникационной системы на базе
«сквозных» связей, объединяющих несколько кристаллов
Поскольку толщина кристаллов очень мала, время передачи
данных насквозь через несколько кристаллов будет мало отличаться от времени передачи между соседними кристаллами и может быть существенно меньше времени передачи между соседними
маршрутизаторами на одном кристалле.
Типовое соотношение размеров и длин линий связи представлено на рис. 62 [25].
В соответствии с этим был разработан подход, при котором сквозные вертикальные связи прокладываются не только между соседними слоями, но и через несколько подряд идущих слоев. Такая структура получила название реснитчатой (ciliated 3D mesh) [26] (рис. 63).
В этой схеме коммутатор слоя с номером I связан с IP-блоками,
размещенными в слое I+1, и IP-блоками, размещенными в слое I+2.
В рамках другого подхода было предложено вертикальные каналы связи организовать как общую шину (рис. 64). Впервые такой подход был применен в проекте 3D NUCA L2 cache для CMPs
(рис. 63) [27].
В этом проекте взаимодействие абонентов на общей шине осуществлялось в режиме разделения времени с использованием
dTDMA схемы. Для такого рода структур наряду с dTDMA может
использоваться и TDMA структура [28].
а)
б)
20 µm
l
2,5 mm
l
Рис. 62. Типовое соотношение длины межблочных линий связи,
расположенных в одном кристалле, и длины линий связи между
соседними кристаллами:
а – длина горизонтальных межблочных связей в рамках одного
кристалла; б – длина вертикальных межблочных связей между
кристаллами
53
IP Block
Switch
Interconnect
Рис. 63. Реснитчатая структура 3D
IP Block
Switch
Interconnect
Bus
Node
Рис. 64. Структура 3D со сквозными вертикальными каналами связей
Структурная схема маршрутизатора представлена на рис. 65.
По сравнению с ciliated 3D mesh использование этого подхода
позволяет в общем случае сократить аппаратные затраты, так как
требуется меньшее количество TSV, меньшее количество портов
коммутаторов. При этом не происходит снижение производительности, так как передача данных по общей шине может осуществляться на достаточно высокой частоте.
Пропускная способность каналов данных между слоями может
существенно (в несколько раз) превышать пропускную способность
каналов данных, расположенных в одном слое, за счет небольшой
длины линий связи. Вследствие этого вертикальные каналы связи
могут подключаться не к каждому коммутатору.
54
55
NoC
dTDMA bus
b-bit dTDMA Bus
(Communication piller)
orthogonal to page
R
b
NoC
Router
NoC
Router
NoC
Router
Processing
Element
Processing
Element
Processing
Element
Рис. 65. Схема маршрутизатора: а – структурная схема маршрутизатора;
б – «вертикальный срез» связей между кристаллами
Processing
Element
NIC
Bus
Arbiter
On-Chip Vertical Bus
а)
б)
Master/Slave
Master/Slave
Master/Slave
Structure
13
12
15
14
C3
C4
8
9
10
11
4
5
6
7
C2
C1
0
1
2
3
Рис. 66. Структура связей с сокращенным количеством
маршрутизаторов, обеспечивающих связи между кристаллами
Типовой вариант структуры с сокращенным количеством маршрутизаторов, обеспечивающих связи между слоями, представлен
на рис. 66.
Еще один вариант организации маршрутизаторов представлен
в работе [29].
На рис. 67 показана структура распределенных маршрутизаторов.
а)
б)
Connection
Box
R
HOP
HOP
East In
West In
North In
South In
PE In
Segmented
Links
(1 hop across
All Layers)
Only 4 vertical links
shown here for
clarify
Vertical links coming
out of paper (up to
2.5 for 5x5 crossbar)
Рис. 67. Система на базе распределенных маршрутизаторов:
а – структура системы на базе распределенных маршрутизаторов;
б – структурная схема распределенного маршрутизатора
56
Такая распределенная структура коммутатора позволяет снизить аппаратные затраты на реализацию до уровня, позволяющего использовать этот подход для технологий 130–90 нм. В данной структуре четыре порта маршрутизатора используются для
связей с соседними маршрутизаторами, расположенными в том
же кристалле, один порт применяются для подключения терминального узла (процессора). Вертикальные связи с соседними
кристаллами прокладываются через каждую точку коммутации такого коммутатора. 2D коммутаторы, расположенные друг
над другом в этой структуре, образуют единый 3D коммутатор.
В этой структуре не выполняется буферизация пакетов, идущих
в вертикальном направлении, они могут пройти через нужное
количество транзитных кристаллов за один hop, т. е. в данном
случае, за один такт.
Физическая структура такого вертикального соединения представлена на рис. 68.
Segmented
Inter-Layer Links
Layer X
Layer X+1
Area between
offset interconnects can
still be used!
Metal Layers
Silicon Substrate
(Active Layer)
Layer X-1
Via Pad
Pass
Transistor
Vertical
Interconnect
Рис. 68. Физическая структура
вертикального соединения, используемого
в распределенном маршрутизаторе
57
Up to
Layer X+1
Layer X
Connection
Box
Pass
Transistors
Down to
Layer X-1
Рис. 69. Электрическая схема соединения, используемого
в распределенном маршрутизаторе
Электрическая схема соединения представлена на рис. 69.
Коммутатор, реализованный таким образом, занимает небольшую площадь коммутационной части. Однако недостатком такого
подхода является высокая сложность и, соответственно, площадь
арбитра. Арбитр должен обрабатывать обращения от семи портов.
Особенно критичным это становится, если в каждом порту реализовано несколько виртуальных каналов.
Для снижения аппаратных затрат на реализацию арбитра используется подход декомпозиции коммутатора на несколько частей, каждая из которых имеет меньшее количество портов.
58
Контрольные вопросы
1. Каковы причины перехода от 2D к 2.5D и 3D технологии проектирования?
2. Преимущества использования систем-в-корпусе по сравнению с СнК
3. Какие варианты подложки получили в настоящее время наибольшее распространение для систем-в-корпусе?
4. Какие существуют варианты организации связей между кристаллом и подложкой?
5. В чем основное различие между 2D и 2.5D технологией?
6. Какие типы интепрозеров получили в настоящее время наибольшее распространение?
7. В чем отличие 3D технологии от 2.5D технологии?
8. Какие существуют основные варианты организации связей
между кристаллами при использовании 3D технологии?
9. Какие существуют варианты вертикальной структуры кристаллов в 3D стеке?
10. Какие существуют варианты расположения кристаллов по
отношению друг к другу в 3D стеке?
11. Какие существуют варианты организации стека кристаллов
в 3D технологии?
12. Какие проблемы ограничивают использование 3D технологии, какие существуют пути их решения?
13. Каковы основные этапы процесса проектирования 2.5D и 3D
проектов?
14. Каковы основные подходы к проектированию СнК и СенК
с использованием 2.5D и 3D технологии?
15. Каковы достоинства и недостатки подхода, при котором
каждый IP-блок размещается на одном кристалле?
16. Каковы достоинства и недостатки подходов, при которых IPблоки могут размещаться в нескольких кристаллах?
17. В чем состоят особенности проектирования IP-блоков, которые могут размещаться в нескольких кристаллах?
18. В чем состоят особенности организации коммуникационной
системы для СенК, реализуемых по технологии 3D?
19. Какие существуют подходы к проектированию коммуникационной системы для СенК, реализуемых по технологии 3D?
20. Каковы структурные и архитектурные особенности маршрутизаторов, используемых в рамках этих подходов?
59
Список литературы
1. The International Technology Roadmap for Semiconductors,
2013 edition. Web: http://www.itrs.net/.
2. Sheibayarad A., Petrot F., Jantsh A. 3D Integration for NOC
based SoC architectures. Springer, 2011. 280 p.
3. Klive Maxfield, Design How-To 2D vs. 2.5D vs. 3D ICs 101.
EETimes, 2012.
4. Jung S. M., Jang J., Cho W., Moon J., Kwak K., Choi B.,
Hwang B., Lim H., Jeong J., Kim J., Kim K. The revolutionary and
truly 3-dimentional 25F2 SRAM technology with the smallest S3 cell,
0.16um2 and SSTFF for ultra high density SRAM. VLSI Technology
Digest of Technical Papers, 2004. P. 228–229.
5. Qiang Xu, Li Jiang, Huiyun Li, Eklow B. Yield Enhancement
for 3D-Stacked ICs: Recent Advances and Challenges. In Proceedings
of 17th Asia and South Pacific Design Automation Conference (ASPDAC), 2012. P. 731–737.
6. Joon-Sung Yang, Tae Hee Han, Darshan Kobla, Edward L. Ju.
Dynamic Self-Repair Architectures for Defective Through-silicon
Vias. ETRI Journal, 2014. Vol. 36, no. 2, P. 301–307.
7. Uksong Kang, Hoe-Ju Chung, Seongmoo Heo, Duk-Ha Park,
Hoon Lee, Jin Ho Kim, Soon-Hong Ahn, Soo-Ho Cha, Jaesung Ahn,
DukMin Kwon, Jae-Wook Lee, Han-Sung Joo, Woo-Seop Kim, Dong
Hyeon Jang, Nam Seog Kim, Jung-Hwan Choi, Tae-Gyeong Chung,
Jei-Hwan Yoo, Joo Sun Choi,Changhyun Kim, Young-Hyun Jun. 8 Gb
3-D DDR3 DRAM using through silicon-via technology. IEEE Journal
of Solid-State Circuits, 2010. Vol. 45, issue 1, P. 111–119.
8. Ang-Chih Hsieh, TingTing Hwang, Ming-Tung Chang, Min-Hsiu
Tsai, Chih-Mou Tseng, Hung-Chun Li. TSV redundancy: Architecture
and design issues in 3D IC. In Proceedings of Design, Automation and
Test in Europe Conference and Exhibition (DATE), 2010. P. 166–171.
9. Loi S. Mitra, Lee T., Fujita S., Benini L. A low-overhead
fault tolerance scheme for TSV based 3D network on chip links. In
Proceedings of IEEE/ACM International Conference on ComputerAided Design, 2008. P. 598–602.
10. Jiang L., Xu Q., Eklow B. On effective TSV repair for 3D-stacked
ICs. In Proceedings of IEEE/ACM Design, Automation, and Test in
Europe, 2012. P. 793–798.
11. Ilwoong Kim, Keewon Cho, Sungho Kang. Efficient TSV repair
method for 3D memories. In Proceedings of International SoC Design
Conference (ISOCC), 2013. P. 017–018.
60
12. Hanada T., Sasaki H., Inoue K., Murakami K. Performance
Evaluation of 3D Stacked Multi-Core Processors with Temperature
Consideration. In Proceedings of IEEE International 3D Systems
Integration Conference (3DIC), 2011. P. 1–5.
13. Li F., Nicopoulos C., Richardson T., Xie Y., Narayanan V.,
Kandemir M. Design and Management of 3D Chip Multiprocessors
Using Network-in-Memory. In Proceedings of the 33th Annual
International Symposium on Computer Architecture (ISCA), 2006.
P. 130–141.
14. Awasthi M., Balasubramonian R. Exploring the Design Space
for 3D Clustered Architectures. In Proceedings of 3rd IBM Watson
Conference on Interaction between Architecture, Circuits, and
Compilers, 2006.
15. Puttaswamy K., Loh G. H. Thermal Herding: Microarchitecture
Techniques for Controlling Hotspots in High-Performance
3D-Integrated Processors. In Proceedings of the 13th HPCA, 2007.
P. 193–204.
16. Jason Cong, Eren Kursun, Yongxiang Liu, Yuchun Ma, Glenn
Reinman. 3D Architecture Modeling and Exploration. http://cadlab.
cs.ucla.edu/~cong/papers/VMIC_3D_Exploration.pdf
17. Dongkook Park, Soumya Eachempati, Reetuparna Das, Asit K.
Mishra, Yuan Xie, N. Vijaykrishnan, Chita R. Das. MIRA: A MultiLayered On-Chip Interconnect Router Architecture. In Proceedings
of IEEE International Symposium on Computer Architecture, 2008.
P. 251–261.
18. H. Yamazaki, K. Sakanushi, S. Nakatake, Y. Kajitani. The
3D-packing by Meta Data Structure and Packing Heuristics. IEICE
Transactions on Fundamentals of Electronics, Communications and
Computer Sciences, 2000. Vol.E83-A, no.4, P. 639–645.
19. Yuh P. H., Yang C.-L., Chang Y.-W., Chen H.-L. Temporal
Floorplanning Using 3D-subTCG. In Proceedings of ASPDAC, 2004.
P. 723–728.
20. Yuh-Fang Tsai, Yuan Xie, Vijaykrishnan N., Irwin M.J. ThreeDimensional Cache Design Exploration Using 3DCacti. In Proceedings
of IEEE International Conference on Computer Design: VLSI in
Computers and Processors, 2005. P. 519–524.
21. Gabriel H. Loh, Yuan Xie, Black B. Processor design in 3D diestacking technologies. IEEE MICRO, 2007. P. 31–48.
22. Folegnani D., Gonzalez A. Energy-effective issue logic. In
Proceedings of the 28th Annual International Symposium on Computer
Architecture (ISCA’01), 2001. P. 230–239.
61
23. Miguel Salas, Sudeep Pasricha. The Roce-Bush Router: A Case
for Routing-centric Dimensional Decomposition for Low-latency 3D
NoC Routers. CODES+ISSS ‘12 Proceedings of the eighth IEEE/ACM/
IFIP international conference on Hardware/software codesign and
system synthesis, 2012. P. 171–180.
24. Vino Vilmet Rose A., Seshasayanan Ramachandran Dr.R.
Power and Performance Analysis of 3D Speculative Router Based
Network on Chip with Low Power Encoding Techniques. International
Journal of Engineering Science and Innovative Technology (IJESIT),
2014. Vol. 3, issue 5, P. 144–152.
25. Naveen Choudhary. Migration of On-Chip Networks from 2
Dimensional Plane to 3 Dimensional Plane. International Journal of
Engineering and Advanced Technology (IJEAT), 2013. Vol.2, issue 4,
P. 516–519.
26. Feero B. S., Pande P. P. Networks-on-Chip in a ThreeDimensional Environment: A Performance Evaluation. IEEE
Transactions on Computers, 2009. Vol.58, issue 1, P. 32–45.
27. Li F., Nicopoulos C., Richardson T., Yuan X., Narayanan V.,
Kandemir M. Design and Management of 3D Chip Multiprocessors
Using Network-in-Memory. In Proceedings of the 33rd International
Symposium on Computer Architecture, 2006. P. 130–141.
28. Rahmani A.-M., Liljeberg P., Plosila J., Tenhunen H.
An Efficient Hybridization Scheme for Stacked Mesh 3D NoC
Architecture. In Proceedings of 20th Euromicro International
Conference on Parallel, Distributed and Network-Based Processing
(PDP), 2012. P. 507–514.
29. Kim J., Nicopoulos C., Park D., Das R., Xie Y., Narayanan
V., Yousif M. S., Das C. R. A novel dimensionally-decomposed router
for on-chip communication in 3D architectures. In Proceedings of
the ACM international symposium on Computer architecture, 2007.
P. 138–149.
62
СОДЕРЖАНИЕ
Введение ........................................................................ Глава 1. Исследование перспективных технологий производства систем-на-кристалле и систем-в-корпусе, требований
и ограничений технологии, существенных для проектирования реконфигурируемых многоядерных систем............. 1.1. Причины перехода к 2.5D и 3D проектированию........ 1.2. Системы-в-корпусе................................................. 2D технология..................................................... 2.5D технология.................................................. 3D технология..................................................... Проблемы, ограничивающие использование
3D технологии..................................................... 1.3. Процесс проектирования 2.5D и 3D проектов............. Глава 2. Подходы к проектированию СнК и СенК
с использованием 2.5D и 3D технологии.............................. 2.1. Подход, при котором каждый IP-блок размещается
на одном кристалле................................................ 2.2. Подходы, при которых IP-блоки могут размещаться
на разных кристаллах............................................ 2.3. Проектирование IP-блоков, которые могут
размещаться на разных кристаллах......................... Блок кеш............................................................ Блок вычислителя............................................... 2.4. Организация коммуникационной системы
и коммутаторов для 3D проектов.............................. Организация коммуникационной системы
на базе непосредственных связей
между соседними кристаллами.............................. Организация коммуникационной системы на базе
«сквозных» связей, объединяющих несколько
кристаллов......................................................... Контрольные вопросы....................................................... Список литературы.......................................................... 3
4
4
7
10
11
16
26
33
35
35
39
41
42
44
47
48
53
59
60
63
Учебное издание
Суворова Елена Александровна
ПРОЕКТИРОВАНИЕ СИСТЕМ
НА КРИСТАЛЛЕ
С ТЕХНОЛОГИЯМИ 2.5D И 3D
Учебное пособие
Корректор Т. В. Звертановская
Компьютерная верстка А. Н. Колешко
Подписано к печати 26.12.14. Формат 60 × 90 1/16. Бумага офсетная.
Усл. печ. л. 3,72. Уч.-изд. л. 3,8. Тираж 300 экз. (1-й завод – 100 экз.).
Заказ № 684.
Редакционно-издательский центр ГУАП
190000, Санкт-Петербург, Б. Морская ул., 67
Документ
Категория
Без категории
Просмотров
2
Размер файла
9 012 Кб
Теги
suvorova1
1/--страниц
Пожаловаться на содержимое документа