close

Вход

Забыли?

вход по аккаунту

?

Многоядерные микропроцессоры: прогресс и последствия

код для вставкиСкачать
Многоядерные
микропроцессоры: прогресс
и последствия
Задачи образования
Форум
«Новые горизонты образования»
Секция: Прогресс индустрии многоядерных вычислительных
систем и преподавание инструментов и технологий
параллельного программирования
В.Ф.Курякин
Intel NN
Москва, 29 марта 2006
http://www.intel.com/education
Intel® Higher Education Program
Содержание
2
Введение
Обзор многоядерных архитектур и
технологий
Программы Интел в области образования
Закон Мура
Методы повышения производительности
Многоядерность: всюду и навсегда
Обеспечение эффективности новых архитектур
Что отсюда следует?
В частности, параллельного программирования
Дискуссия
http://www.intel.com/education
Intel® Higher Education Program
3
Введение
Корпорация Intel и компьютерная индустрия
переходят на многоядерные архитектуры
Эффективное использование вычислительных
возможностей многоядерных архитектур для
повышения производительности требуют
разработки новых параллельных приложений
Корпорация Intel стремится к поддержке
лидирующих образовательных и научных центров
в подготовке нового поколения специалистов и
разработчиков в области архитектурно-зависимого
программирования и многопоточных приложений
для многоядерных архитектур
http://www.intel.com/education
Intel® Higher Education Program
4
Обзор
многоядерных архитектур и
технологий
информация заимствована из презентации John H. Crawford (2003, закон Мура),
презентаций с IDF’Spring2006, с сайтов упомянутых компаний
http://www.intel.com/education
Intel® Higher Education Program
5
Закон Мура
как основа планирования компьютерной
индустрии
http://www.intel.com/education
Intel® Higher Education Program
Закон Мура - первоначально
6
В 1965 году Гордон Мур нарисовал графики
изменений числа транзисторов в интегральных
схемах с минимальной стоимостью на один
транзистор, и обнаружил, что
Приведенная к транзистору цена быстро падала
Число транзисторов на одну схему удваивалось каждый
год
http://www.intel.com/education
Intel® Higher Education Program
Закон Мура:
производительность зависит от
числа транзисторов
7
Закон Мура описывает рост производительности. Производительность, измеренная в
миллионах инструкций в секунду (MIPS), растет вследствие увеличения числа транзисторов.
http://www.intel.com/education
Intel® Higher Education Program
Закон Мура – современная
формулировка
В ’70х тренд изменился
8
Удвоение – каждые 18-24 месяца
Это выражение применяется теперь к любым
трендам составного роста в полупроводниковой
промышленности
Производительность, частота, мощность, …
Стоимость производства кремниевых пластин
Закон Мура – программа
непрерывных улучшений
Основа для пошагового планирования изменений в
технологиях каждые 2-3 года:
Сжать размеры на 0.7 в каждом поколении
Уменьшить задержки на 0.7 в каждом поколении
Увеличить диаметр кремниевой пластины
Увеличить размер кристалла
http://www.intel.com/education
Intel® Higher Education Program
Закон Мура - результаты
9
Число транзисторов на кристалл удваивается каждые 1824 месяца
Производительность процессоров удваивается каждые 18
месяцев
Вынужденный цикл – быстрее, дешевле, менее энергоемко
Бескомпромиссное управление микропроцессорной революцией
“Если бы автомобильная промышленность
усовершенствовалась столь же быстро как
полупроводниковая, то Ролс-Ройс пробегал бы 1/2
миллиона миль на галлон бензина, и было бы
дешевле его выбрасывать, чем платить за парковку.”
Гордон Мур
http://www.intel.com/education
Intel® Higher Education Program
10
Методы повышения
производительности
http://www.intel.com/education
Intel® Higher Education Program
Составляющие
производительности
11
Время = # инструкций (длина пути)
* Цикл/Инструкция (mArch…)
* Секунды/Цикл (1/Частота)
Производительность ~ 1/Время = benchmark =
Тест производительности / #инструкций
* Инструкций/Цикл (IPC)
* Циклы/Секунда (Частота)
Посмотрим, из чего складывается производительность…
http://www.intel.com/education
Intel® Higher Education Program
Рост производительности: 1000x
12
за 17 лет
10000
SPECint2000
1000
100
10
1
Jan-85
Jan-87
Jan-89
Jan-91
Jan-93
Jan-95
Jan-97
Jan-99
Jan-01
Jan-03
Jan-05
Начало производства
http://www.intel.com/education
Intel® Higher Education Program
Рост частоты: 200x
Ускорение транзисторов: 40х
10000
Улучшения в процессе производства
1.7х
2.6x
1000
Clock Frequency
конвейеризация
1000
.13m
.18m
.25m
100
1m
10
0.5m
0.8m
.35m
1.5m
100
40x
10
Transistor Speedup Factor
10000
13
1
1
Jan-85 Jan-87 Jan-89 Jan-91 Jan-93 Jan-95 Jan-97 Jan-99 Jan-01 Jan-03 Jan-05
Introduction Date
http://www.intel.com/education
Intel® Higher Education Program
Факторы роста
производительности
Увеличение частоты (200х)
14
Ускорение транзисторов (~40x)
Постоянные улучшения в процессах (~1.7x)
Конвейеризация (~2.6х)
SPECint2000/MHz ~ IPC (5x)
Processor ~IPC
factor
1000 ~= 70 (40*1.7) * 15 (2.6 * 5.7)
386 1
486 2.5
486 DX2 2.25
Pentium 4
Pentium Pro 5
Pentium III 5.7
Pentium 4 4.4
http://www.intel.com/education
15х – прямой или косвенный вклад
улучшений архитектуры в рост
производительности
Итак – две главные компоненты повышения
производительности
- технологические улучшения (ускорение транзисторов)
- усовершенствования в архитектуре процессоров и
компьютеров ~15x
Intel® Higher Education Program
Улучшения uArch – GHz & IPC*
15
Обеспечены ростом числа транзисторов
Более глубокий конвейер обеспечивает рост частоты (GHz)
Более широкий конвейер обеспечивает увеличение IPC
Методы увеличения IPC:
Конвейеризация для повышения пропускной способности на 1 такт
(486)
Параллельный выход инструкций (Pentium®)
Предсказание ветвлений (Pentium®)
Изменение порядка выполнения (Pentium Pro/II)
SIMD (MMX, SSE, SSE2, SSE3,…) (Pentium MMX/II,III,IV, …)
Кэш трейсов (Pentium 4)
HyperThreading (Pentium 4)
Многоядерность (Pentium D)
Преодоление задержек с доступом к главной памяти
Кэш (486)
Разбиение кэшей и их увеличение (Pentium)
Много-уровневые гигантские кэши…
Рост частоты и пропускной способности FSB
http://www.intel.com/education
*IPC is Instructions Per Clock
Intel® Higher Education Program
Производительность процессора
увеличилась – но повысилась ли
производительность приложений??
16
Главные пути повышения производительности
технологические улучшения (ускорение транзисторов)
усовершенствования в архитектуре процессоров и
компьютеров
Производительность подсистемы памяти
Технологические улучшения дают прирост
производительности в чистом виде, формально они
не требуют изменений в программах
Улучшения в архитектуре обязательно
предполагают комплексные изменения как в
приложениях, так и в инструментарии
программирования, а также изменений во всех
компонентах компьютера
http://www.intel.com/education
Intel® Higher Education Program
17
Многоядерность: всюду и
навсегда
http://www.intel.com/education
Intel® Higher Education Program
Двух-ядерные процессоры
IBM
Power4 – самый первый 2-ядерный, 2001 (на 180нм!)
18
Power5 – ядра те же самые, система кэшей/памяти
изменена радикально, 2004
8-way реализация, допускает построение 8-ми
процессорной SMP системы прямо, 16, 32, 64 блоками
http://www.intel.com/education
Intel® Higher Education Program
Двух-ядерные процессоры
AMD
Opteron Dual-Core
19
для серверов/рабочих станций, 2004
Исполнения: 1-way, 2-way, 8-way
Первоначально – 130нм, теперь – 90нм
Athlon Dual-Core X2
для рынка PC
Для ноутбуков - нет
http://www.intel.com/education
Intel® Higher Education Program
Двух-ядерные процессоры
Intel
Процессоры, базирующиеся на Р4 ядре
Pentium D – 2004, начало (основан на двух ядрах Pentium 4 (Prescott) c HT)
Кодовые имена (для разных сегментов рынка)
Стартуют с 65нм технологии!
Обеспечивают наилучшие в индустрии показатели как производительности, так и
производительность/ватт
По сравнению с сильнейшим на сегодня процессором Pentium® D processor 950 (кодовое имя
Pressler)
Woodcrest: >80% рост производительности и > 35% уменьшение
энергопотребления
Выпускаются по 90нм технологии, с 2006 по 65нм
Conroe: >40% рост производительности и >40% уменьшение энергопотребления
Smithfield, Presler, Cider Mill – для рынка РС,
Dempsey (DP), Paxville (MP), Tulsa – для рынка серверов и рабочих станций
Процессоры, базирующиеся на ядрах Pentium M и его усовершенствованиях в
uArch
20
По сравнению с сильнейшим на сегодня процессором Dual-Core Intel® Xeon processor 2.8GHz
(кодовое имя Paxville DP)
Merom: значительно улучшает большинство свойств предшественника, уже
являющегося лидером среди мобильных устройств, >20% рост
производительности (2х для мультимедиа)
По сравнению с сильнейшим в индустрии Intel® Core™ Duo processor (кодовое имя Yonah)
Массовое производство Conroe (для РС), Woodcrest (сервера/рабочие станции),
Merom (мобильные) развертывается в конце 2006, начале 2007
Kentsfield – первый 4-х ядерный процессор (два Conroe) для РС – 1H’07
http://www.intel.com/education
Intel® Higher Education Program
21
http://www.intel.com/education
Intel® Higher Education Program
22
http://www.intel.com/education
Intel® Higher Education Program
Данные по много-ядерным
процессорам
2005
2006
2007
2008
Niagara 1.2 Ghz
Niagara-II 1.4 Ghz
90 nm
65 nm
23
2009
IBM
many core
2010
Sun
Niagara-III
Sun лидирует в разработке много-ядерных процессоров
AMD
many core
2009-2010 roadmap
very speculative
Двух-ядерный процессор – в 2004 году
Niagara-II обещает удвоение производительности по сравнению с Niagara-I
IBM обладает большим потенциалом для разработки много-ядерных
систем
Cell (процессор для Sony PlayStation – 8 упрощенных ядер под управлением
Power) является первым опытом разработки многоядерных систем
Однако никакой конкретной информации от IBM по полным многоядерным
системам нет
AMD способен на разработку много-ядерных систем
Конкретной информации о много-ядерных проектах нет
AMD будет трудно (финансово) поддерживать много проектов
Имеющиеся скалярные и двух-ядерные и много-ядерные
Интел однозначно участвует в многоядерной гонке
Интел представил первый четырех-ядерный процессор для
серверов/рабочих станций и РС (IDF’Spring2006)
http://www.intel.com/education
Intel® Higher Education Program
Сервера Sun Fire T1000/T2000
1U
и 2U модули в стойки
1U T1000 8 DIMMs and 1 PCI Express slot
2U T2000 16 DIMMs and 3 PCI Express + 2 PCI-X slots
1.0 или 1.2 Ghz UltraSPARC T1 (Niagara)
24
8 ядер, до 32 потоков
Только однопроцессорное исполнение
Сильнейшее решение по пропускной
способности на сетевых приложениях
Продается с декабря 2005
Pictures from:
Sun T1000/T2000 Web site
T1000 нижняя цена $3495
T2000 нижняя цена $8295
http://www.intel.com/education
Intel® Higher Education Program
Niagara: резюме
25
Огромная пропускная способность
при низком отношении
производительность/ватт
Дорогая 22-слойная плата
Высокая производительность для
приложений, которые
Могут запускать все 32 потока
Требуют большой пропускной
способности памяти
Согласуются с внутренними
•
кэшами для поддержки
активности всех ядер и нитей •
Пока – только однопроцессорный
дизайн
•
•
•
•
2-ое поколение Niagara-II – в
разработке (2007, 65 nm)
•
http://www.intel.com/education
Niagara die plot from Spring Processor
Forum 2005
Q4’05 systems available
8 ядер, 32 нитей, только UP
4 DDR2-400 порта, 16 байт каждый
Полная реализация SPARC 64-bit ISA
Частота 1.2 Ghz
Реализация по 90 nm технологии на
фабрике T.I.
Пиковая мощность 79W, 75° C
From Vendor
Speculation
Intel® Higher Education Program
Первый 4-ядерный процессор
Интел
26
Clovertown – процессор семейства Zeon для рынка
серверов/рабочих станций
Kentsfield – первый 4-х ядерный процессор (два
Conroe) для РС – 1H’07
http://www.intel.com/education
Intel® Higher Education Program
27
Обеспечение эффективности
новых архитектур
http://www.intel.com/education
Intel® Higher Education Program
Сложнее архитектура – сложнее
программирование??
28
Для обеспечения оптимального использования возможностей
процессоров необходимо при разработке алгоритмов и
программировании максимально учитывать эти возможности
Большая часть (но не вся!) возможностей повышения
производительности заложена в параллельном исполнении
инструкций, но способов распараллеливания много:
Конвейеризация
Суперскалярность
SIMD
HT
Много-ядерность - многопоточность
Несмотря на прогресс в повышении производительности памяти,
она была, есть и будет главным препятствием повышения
производительности
Иерархия огромных кэшей
FSB – частота уже 1333MHz
Двойная независимая FSB
Память FD-DIMM
http://www.intel.com/education
Intel® Higher Education Program
Проблемы
Алгоритм не распараллеливается или плохо
распараллеливается
Новый алгоритм? Прямо по заказу?
Чем больше потоков, тем более жадным до памяти
становится процессор
29
Но производительность памяти растет заметно медленнее,
чем производительность процессора
Новые приложения работают с относительно большим
объемом данных (машинное зрение, распознавание, анализ
данных – классификация /кластеризация)
Синхронизация
Ядра (потоки) могут ждать друг друга из-за малой
пропускной способности шины и памяти
Меж-связи между ядрами? Локальная (на ядре)
буферизация? Процессоры еще сложнее???
http://www.intel.com/education
Intel® Higher Education Program
Программирование и
эффективность
30
В чем опасность для индустрии современного
состояния программирования?
Как и ранее, использование архитектурных особенностей требует
квалификации и опыта, а их как всегда не хватает
Однако много-ядерность эту ситуацию обостряет значительно:
неожиданно проблемы, с которыми имели дело только избранные,
встали перед массовым программистом и пользователем, а он к
этому во всех отношениях не готов (?)
Как следствие заявленная производительность не будет
подтверждаться на практике, и индустрия может столкнуться с
проблемой невостребованности или задержки с продвижением
новых технологий
Значение эффективности инструментов и
технологий программирования значительно
возрастает
Что имеется? Формально все инструменты и
технологии есть
http://www.intel.com/education
Intel® Higher Education Program
Что распараллеливать и как?
Анализ производительности
Для определения узких мест (где потеря
производительности?)
Дизайн (создание потоков)
Нужны ли изменения в алгоритмах?
Какой подход в реализации выгоднее?
OpenMP
Явные потоки (pthreads, system calls,…)
Передача сообщений (MPI)
DVM или что-то еще…
Отладка
31
Потенциальная десинхронизация потоков
В каком потоке ошибка?
Оптимизация кода
Оптимизация как отдельного потока, так и много-поточного
кода
http://www.intel.com/education
Intel® Higher Education Program
Поддержка цикла разработки в
инструментах Интел
32
Автоматическое
распараллеливание и
оптимизация, организация
потоков через прагмы
Использование предельно
оптимизированных
вычислительных ядер
сокращают время разработки
Отладка в одном потоке и в
много-поточном комплексе
Анализ производительности в одном
потоке и эффективности многопоточного
распараллеливания
http://www.intel.com/education
Intel® Higher Education Program
33
Что отсюда следует?
http://www.intel.com/education
Intel® Higher Education Program
Образование и повышение
квалификации – ключевой
аспект
Инструменты и технологии (параллельного)
34
программирования в условиях массовости должны быть
изменены или значительно усовершенствованны. Как? В каком
направлении?
Перед системой образования стоит задача качественного
изменения в подготовке и переподготовки кадров. Чему учить?
Использованию конкретных инструментов (языков, отладчиков,
компиляторов, библиотек,…). Но они устаревают ежегодно!
Фундаментальным понятиям, глубокой ориентации в
архитектурах и алгоритмах. Но тогда выпускники могут оказаться
совершенно несостоятельными практически, не обладая
твердыми техническими навыками
Кого учить??
Системных программистов (они разработают эффективные
инструменты для остальных программистов)?
Всех программистов?? Но когда они выучат все остальное??
Всех инженеров?? Но ведь для них компьютер только
вспомогательный инструмент…
http://www.intel.com/education
Intel® Higher Education Program
35
Программы Интел в области
образования
http://www.intel.com/education
Intel® Higher Education Program
Модель внедрения
Ключевые
Университеты
Унив 1
36
Дополнительные
Университеты
Унив 1
Семинар по
учебным
программам
Унив 15
Гранты Intel
на создание
учебных
курсов
Унив 1
Унив n
Семинар по
учебным
программам
Унив 15
Intel® Higher
Education Curriculum
Forum
http://www.intel.com/education
Intel® Higher Education Program
Разработка учебных
программ
37
Гранты: будут выделены творческим коллективам из ведущих
образовательных и научных центров
В рамках конкурса проектов творческие коллективы подготовят
предложения по разработке учебных курсов
В предложение должны включаться запросы на оборудование для
учебных компьютерных классов
Семинар: запланирован на 2 квартал 2006 года в США, даст
возможность участвующим в программе профессорам из разных
стран обменяться идеями и опытом по разработке учебных программ
Intel® Higher Education Curriculum Forum: будет создана on-line
страница в Интернет для обмена информацией о разработке учебного
плана между участниками программы со всего мира
Обучение: Intel® Software College Classes будут проводится в
различных странах для обучения преподавателей инструментам и
технологиям Intel для разработки программного обеспечения
Поддержка: Всех участников будет поддерживать программа «раннего
доступа», содержащая информацию о новейших инструментах и
технологиях
http://www.intel.com/education
Intel® Higher Education Program
Внедрение образовательных
курсов
Intel® Higher Education Curriculum Forum
38
Отобранные курсы будут доступны на веб-сайте
Online форум будет поддерживать внедрение и
развитие курсов
Семинары по разработке учебного плана
Семинары планируются в разных странах для
демонстрации достижений и обмена опытом
между университетами по разработке и
внедрению курсов
В каждом двухдневном семинаре примут участие
около 15 университетов
Корпорация Intel берет на себя расходы по
проведению семинара
http://www.intel.com/education
Intel® Higher Education Program
39
Дискуссия
http://www.intel.com/education
Intel® Higher Education Program
Возможные темы
40
Какие инструменты и технологии
(параллельного) программирования
наиболее предпочтительны, или
эффективны?
Какие области приложений наиболее
актуальны, где много-ядерные
процессоры окажутся наиболее
эффективными?
Как и где следует обучать?
http://www.intel.com/education
Intel® Higher Education Program
41
Backup
http://www.intel.com/education
Intel® Higher Education Program
Itanium Dual-core Roadmap
42
Intel Itanium Processor Roadmap
Cache
Launch
Dat
e
Price @
Launc
h
1.60GHz /
533MHz
24MB
Q2'06
$3,690
9040
1.60GHz /
533MHz
18MB
Q2'06
$1,980
Itanium 2 (Dual Core)
(Montecito)
9030
1.60GHz /
533MHz
2MB
Q2'06
$1,550
Itanium 2 (Dual Core)
(Montecito)
9020
1.42GHz /
533MHz
12MB
Q2'06
$910
Itanium 2 (Single
Core)
(Montecito)
9010
1.60GHz /
533MHz
6MB
Q2'06
$700
Processor
Brand
Processor
No.
Core /
FSB
Itanium 2 (Dual Core)
(Montecito)
9050
Itanium 2 (Dual Core)
(Montecito)
http://www.intel.com/education
Intel® Higher Education Program
IA Dual-Core Roadmap
43
Intel Xeon Processor Roadmap
Processor
Brand
Processor
No.
Core /
FSB
Cache
Launch
Date
Price @
Launch
Xeon Processor DP
(Woodcrest Bin-0)
5160
3.0GHz /
1333MHz
4MB
Q3'06
$850
Xeon Processor DP
(Woodcrest Bin-1)
5150
2.66GHz /
1333MHz
4MB
Q3'06
$690
Xeon Processor DP
(Woodcrest Bin-2)
5140
2.33GHz /
1333MHz
4MB
Q3'06
$455
Xeon Processor DP
(Woodcrest Bin-3)
5130
2.0GHz /
1333MHz
4MB
Q3'06
$320
Xeon Processor DP
(Woodcrest Bin-4)
5120
1.86GHz /
106MHz
4MB
Q3'06
$260
Xeon Processor DP
(Woodcrest Bin-5)
5110
1.60GHz /
1066MHz
4MB
Q3'06
$210
Xeon Processor DP
(Dempsey Bin-0)
5080
3.73GHz /
1066MHz
2x2M
B
Q2'06
$850
Xeon Processor DP
(Dempsey Bin-??)
5070
3.46GHz /
1066MHz
2x2M
B
Q2'06
$690
Xeon Processor DP
(Dempsey Bin-3)
5060
3.2GHz /
1066MHz
2x2M
B
Q2'06
$455
Xeon Processor DP
(Dempsey Bin-5)
5050
3.0GHz /
667MHz
2x2M
B
Q2'06
$320
http://www.intel.com/education
Intel® Higher Education Program
Updated Platform Definitions
AVERILL FUNDAMENTAL
*T’s
Intel® Virtualization
Technology
T
Intel®
Active Mgmt
Technology
Chipset
Q963
Networking
Intel® PRO/1000
(Nineveh)
*T’s
Networking
Processor
Chipset
Intel® Q965
Express Chipset
w/ ICH8-DO
Pentium® D
Processor 900
sequence
(Presler, no VT)
Processor
AVERILL PROFESSIONAL
Intel® Core™
processor family
(Conroe)
44
Intel® Q963
Express Chipset
w/ ICH8
Intel GbE LAN
T
EM64T, EIST
EM64T, EIST
http://www.intel.com/education
Intel® Higher Education Program
Intel® AMT and Intel® VT – Compare,
Contrast, Compliment
Intel®
AMT
Intel AMT Alone
• OOB management
• Asset info store in NVM
• Circuit Breaker
• Secure wake
• Remote diagnostics & boot
• Most intelligence &
remediation paths in
mgmt console
http://www.intel.com/education
45
Virtual
Appliances
with Intel® VT
When Used Together
• All benefits of each
individually, plus:
• OOB management of both
User OS & appliance*
• Appliance access to Circuit
Breaker, NVM, secure
wake*
• Intelligence & remediation
paths distributed to best
local or console option
Virtual Appliance Alone
• Tamper-resistant security
or mgmt “watchdog” for
User OS
• Highly programmable
application environment
• Local intelligence &
remediation paths
• No Intel AMT features
Intel® Higher Education Program
46
Conroe Performance:
Normalized to AMD* Athlon64* FX60 Processsor
(2x1MB L2 Cache, 2.60 GHz).
2.00
Desktop Application Performance
Conroe measured on pre-production hardware and drivers. Final performance information may vary from these results
1.50
1.32
1.30
1.29
1.17
1.00
1.00
1.00
Conroe
29% above
comp
Conroe
17% above
comp
1.00
1.00
Conroe
30% above
comp
Conroe
32% above
comp
Consumer
Internet
PCMark*05 - CPU
WebMark* 2004
0.50
Productivity
0.00
PCWorldbench* 5
SYSmark* 2004 SE
Pre-production Processor code-name “Conroe”
(4 MB L2, 2.66 GHz, 1066 MHz FSB)
AMD* Athlon64* FX60 Processor
(2x1 MB L2 Cache, 2.60 GHz)
Conroe = uncommon performance on common tests
*Other names and brands may be
claimed as the property of others
http://www.intel.com/education
AMD expected to add DDR2 support mid 2006
Intel® Higher Education Program
Документ
Категория
Презентации
Просмотров
89
Размер файла
6 004 Кб
Теги
1/--страниц
Пожаловаться на содержимое документа