Учебная работа. Реферат: Особенности развития структурная и функциональная организация суперЭВМ

1 Звезда2 Звезды3 Звезды4 Звезды5 Звезд (8 оценок, среднее: 4,75 из 5)
Загрузка...
Контрольные рефераты

Учебная работа. Реферат: Особенности развития структурная и функциональная организация суперЭВМ

ФЕДЕРАЛЬНОЕ АГЕНСТВО ПО ОБРАЗОВАНИЮ

Государственное образовательное учреждение высшего проф образования

«ТОМСКИЙ ПОЛИТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ»

Факультет автоматики и вычислительной техники

Кафедра вычислительной техники

Организация ЭВМ и систем

Реферат на тему

«Индивидуальности развития, структурная и многофункциональная организация суперЭВМ»

Исполнитель

студент группы 8030 __________ И.А. Переливский

Управляющий

доцент, к.т.н__________А.Д. Чередов

Томск – 2008


СОДЕРЖАНИЕ

Введение……………………………………………………………………………………………3

1. Короткая история возникновения параллелелизма в ЭВМ ……………….5

2. систематизация параллельных вычислительных систем…………8

3. Главные концепции проектирования суперЭВМ………………..15

4. Короткие харатеристики более всераспространенных суперкомпьютеров……………………………………………………………….20

5. 10-ка самых массивных компов………………………………….30

Заключение……………………………………………………………………………………..32

Перечень источников………………………………………………………………………….33


ВВЕДЕНИЕ

В истинное время переход к новеньким поколениям вычислительных средств приобретает необыкновенную актуальность. Это соединено с потребностями решения сложных задач огромных размерностей. Непрерывный рост черт новейших образцов вооружений просит разработки и сотворения принципно новейших вычислительных средств для поддержки их действенного функционирования. В связи с сиим, все наиболее растут требования к производительности и надежности вычислительных средств для решения военно-прикладных задач. Однопроцессорные вычислительные системы уже не управляются с решением большинства военно-прикладных задач в настоящем времени, потому для увеличения производительности вычислительных систем военного предназначения все почаще употребляются многопроцессорные вычислительные системы (МВС).

Больший вклад в развитие вычислительных средств постоянно вносили технологические решения, при всем этом основополагающей чертой поколения вычислительных систем являлась элементная база, потому что переход на новейшую элементную базу отлично коррелируется с новеньким уровнем характеристик производительности и надежности вычислительных систем. Разработка все новейших и новейших поколений процессоров несколько остановило поиски принципно новейших строительных решений. В то же время становится естественным, что чисто технологические решения утратили свое монопольное положение. Так, к примеру, в наиблежайшей перспективе приметно увеличивается способами программирования. Данная неувязка решается чисто строительными средствами, при всем этом роль технологии является косвенной: высочайшая степень интеграции делает условия для реализации новейших строительных решений. При всем этом сделалось естественным, что без кардинальной перестройки строительных принципов поддерживать интенсивные темпы развития средств вычислительной техники уже нереально.

Главными требованиями, предъявляемыми к многопроцессорным системам с массовым параллелизмом, являются: необходимость высочайшей производительности для хоть какого метода; согласование производительности памяти с производительностью вычислительной части; способность процессоров согласованно работать при непредсказуемых задержках данных от хоть какого источника и, в конце концов, машинно-независимое программирование.

Повышение степени параллелизма вызывает повышение числа логических схем, что сопровождается повышением физических размеров, в итоге что растут задержки сигналов на межсоединениях. Этот фактор приводит или к понижению тактовой частоты, или к созданию доп логических ступеней и, в итоге, к потере производительности. Рост числа логических схем также приводит к росту потребляемой энергии и отводимого тепла. Не считая того, следует выделить, что наиболее высокочастотные логические схемы при иных равных критериях потребляют огромную мощность на один вентиль. В итоге возникает теплофизический барьер, обусловленный 2-мя факторами: высочайшей удельной плотностью термического потока, что просит внедрения сложных средств отвода тепла, и высочайшей общей мощностью системы, что вызывает необходимость использования сложной системы энергообеспечения и особых помещений.

Иным фактором, влияющим на архитектуру высокопроизводительных вычислительных систем, является взаимозависимость архитектуры и алгоритмов задач. Этот фактор нередко приводит к необходимости сотворения проблемно-ориентированных систем, при всем этом быть может достигнута наибольшая производительность для данного класса задач. Обозначенная взаимозависимость является стимулом для поиска алгоритмов, лучшим образом соответственных вероятным формам параллелизма на уровне аппаратуры. А потому что для написания программ употребляются языки высочайшего уровня, нужны определенные средства автоматизации действий распараллеливания и оптимизации программ.


1. КРАТКАЯ ИСТОРИЯ ПОЯВЛЕНИЯ ПАРАЛЛЕЛЕЛИЗМА В ЭВМ

Идеи параллельной обработки возникли весьма издавна. Вначале они внедрялись в самых передовых, а поэтому единичных, компах собственного времени. Потом опосля подабающей отработки технологии и удешевления производства они спускались в компы среднего класса, и в конце концов, сейчас, все это в полном объеме реализуется в рабочих станциях и индивидуальных компах.

Для того чтоб убедиться, что все главные нововведения в архитектуре современных микропроцессоров по сути употребляются еще со времен, когда ни процессоров, ни понятия суперкомпьютеров еще не было, совершим небольшой экскурс в историю, начав фактически с момента рождения первых ЭВМ .


IBM 701 (1953), IBM 704 (1955): разрядно-параллельная память, разрядно-параллельная математика. Все самые 1-ые компы (EDSAC, EDVAC, UNIVAC) имели разрядно-последовательную память, из которой слова считывались поочередно бит за битом. Первым коммерчески легкодоступным компом, использующим разрядно-параллельную память (на CRT) и разрядно-параллельную математику, стал IBM 701, а самую большую популярность получила модель IBM 704 (продано 150 экз.), в какой, кроме произнесенного, была в первый раз использована память на ферритовых сердечниках и аппаратное АУ с плавающей точкой.


IBM 709 (1958): независящие микропроцессоры ввода/вывода. Микропроцессоры первых компов сами управляли вводом/выводом. Но скорость работы самого резвого наружного устройства, а по тем временам это магнитная лента, была в 1000 раз меньше скорости микропроцессора, потому во время операций ввода/вывода микропроцессор практически простаивал. В 1958г. к компу IBM 704 присоединили 6 независящих микропроцессоров ввода/вывода, которые опосля получения установок могли работать наряду с главным микропроцессором, а сам комп переименовали в IBM 709. Данная модель вышла умопомрачительно успешной, потому что совместно с модификациями было продано около 400 экземпляров, при этом крайний был выключен в 1975 году — 20 лет существования!


IBM STRETCH (1961): опережающий просмотр вперед, расслоение памяти. В 1956 году IBM подписывает договор с Лос-Аламосской научной лабораторией на разработку компа STRETCH, имеющего две принципно принципиальные индивидуальности: опережающий просмотр вперед для подборки установок и расслоение памяти на два банка для согласования низкой скорости подборки из памяти и скорости выполнения операций.


ATLAS (1963): сборочный поток установок. В первый раз конвейерный принцип выполнения установок был применен в машине ATLAS, разработанной в Манчестерском институте. Выполнение установок разбито на 4 стадии: подборка команды, вычисление адреса операнда, подборка операнда и выполнение операции. Конвейеризация дозволила уменьшить время выполнения установок с 6 мкс до 1,6 мкс. Данный комп оказал большущее воздействие, как на архитектуру ЭВМ , так и на программное обеспечение: в нем в первый раз применена мультипрограммная ОС, основанная на использовании виртуальной памяти и системы прерываний.


CDC 6600 (1964): независящие многофункциональные устройства.
КомпанияControl Data Corporation (CDC) при конкретном участии 1-го из ее основоположников, Сеймура Р.Крэя (Seymour R.Cray) выпускает комп CDC-6600 — 1-ый комп, в каком использовалось несколько независящих многофункциональных устройств. Для сопоставления с нынешним деньком приведем некие характеристики компа:

время такта 100нс;

— производительность 2-3 млн. операций в секунду;

— оперативка разбита на 32 банка по 4096 60-ти разрядных слов;

— цикл памяти 1мкс;

— 10 независящих многофункциональных устройств.

машинка имела огромный фуррор на научном рынке, интенсивно вытесняя машинки конторы IBM.


CDC 7600 (1969): конвейерные независящие многофункциональные устройства.

CDC выпускает комп CDC-7600 с восемью независящими конвейерными многофункциональными устройствами — сочетание параллельной и конвейерной обработки. Главные характеристики:

— такт 27,5 нс;

— 10-15 млн. опер/сек;

— 8 конвейерных ФУ;

— 2-х уровневая память.


ILLIAC IV (1974): матричные микропроцессоры.

— Проект: 256 процессорных частей (ПЭ) = 4 квадранта по 64ПЭ, возможность реконфигурации: 2 квадранта по 128ПЭ либо 1 квадрант из 256ПЭ, такт 40нс, производительность 1Гфлоп;

работы начаты в 1967 году, к концу 1971 сделана система из 1 квадранта, в 1974г. она введена в эксплуатацию, доводка велась до 1975 года;

— центральная часть: устройство управления (УУ) + матрица из 64 ПЭ;

— УУ это обычная ЭВМ с маленькой производительностью, управляющая матрицей ПЭ; все ПЭ матрицы работали в синхронном режиме, выполняя в любой момент времени одну и ту же команду, поступившую от УУ, но над своими данными;

— ПЭ имел собственное АЛУ с полным набором установок, ОП — 2Кслова по 64 разряда, цикл памяти 350нс, любой ПЭ имел конкретный доступ лишь к собственной ОП;

сеть пересылки данных: двумерный тор со сдвигом на 1 по границе по горизонтали.

Невзирая на итог в сопоставлении с проектом: стоимость в 4 раза выше, изготовлен только 1 квадрант, такт 80нс, настоящая производительность до 50Мфлоп — данный проект оказал большущее воздействие на архитектуру следующих машин, построенных по похожему принципу, а именно: PEPE, BSP, ICL DAP.



CRAY 1 (1976): векторно-конвейерные микропроцессоры.

В 1972 году С. Крэй покидает CDC и основывает свою компанию Cray Research, которая в 1976г. выпускает 1-ый векторно-конвейерный комп CRAY-1: время такта 12.5нс, 12 конвейерных многофункциональных устройств, пиковая производительность 160 миллионов операций в секунду, оперативка до 1Мслова (слово — 64 разряда), цикл памяти 50нс. Основным новаторством является введение векторных установок, работающих с целыми массивами независящих данных и позволяющих отлично применять конвейерные многофункциональные устройства.


2. систематизация ПАРАЛЛЕЛЬНЫХ ВЫЧИСЛИТЕЛЬНЫХ СИСТЕМ

Главным параметром систематизации паралелльных компов является наличие общей (SMP) либо распределенной памяти (MPP). Нечто среднее меж SMP и MPP представляют собой NUMA-архитектуры, где память на физическом уровне распределена, но логически общедоступна. Кластерные системы являются наиболее дешевеньким вариантом MPP. При поддержке установок обработки векторных данных молвят о векторно-конвейерных микропроцессорах, которые, в свою очередь могут объединяться в PVP-системы с внедрением общей либо распределенной памяти. Все огромную популярность получают идеи комбинирования разных архитектур в одной системе и построения неоднородных систем.

При организациях распределенных вычислений в глобальных сетях (веб) молвят о мета-компьютерах, которые, строго говоря, не представляют из себя параллельных архитектур.

Наиболее тщательно индивидуальности всех перечисленных архитектур будут рассмотрены дальше на данной страничке, также в описаниях определенных компов — представителей этих классов. Для всякого класса приводится последующая информация:

-краткое описание особенностей архитектуры;

— примеры определенных компов;

— перспективы масштабируемости;

— обычные индивидуальности построения операционных систем;

— более соответствующая модель программирования (хотя вероятны и остальные).

Таблица 2.1 – Массивно-параллельные системы (MPP)


Архитектура

Система состоит из однородных вычислительных узлов, включающих:

один либо несколько центральных микропроцессоров (обычно RISC);

— локальную память (прямой доступ к памяти остальных узлов неосуществим);

— коммуникационный машина — комплекс технических средств, предназначенных для автоматической обработки информации в процессе решения вычислительных и информационных задач) (либо вычислительной системы) которое делает арифметические и логические операции данные программкой преобразования инфы управляет вычислительным действием и коор либо сетевой адаптер;

— время от времени — твердые диски (как в SP) и/либо остальные устройства В/В.

К системе могут быть добавлены особые узлы ввода-вывода и управляющие узлы. Узлы соединены через некую коммуникационную среду (скоростная сеть, коммутатор и т.п.)




Примеры
IBM RS/6000 SP2, Intel PARAGON/ASCI Red, CRAY T3E, Hitachi SR8000, транспьютерные системы Parsytec.

Масштабируемость
Общее число микропроцессоров в настоящих системах добивается нескольких тыщ (ASCI Red, Blue Mountain).

Операционная система

Есть два главных варианта:

Настоящая ОС работает лишь на управляющей машине (front-end), на любом узле работает очень урезанный вариант ОС, обеспечивающие лишь работу расположенной в нем ветки параллельного приложения. Пример: Cray T3E.

На любом узле работает настоящая unix-подобная ОС (вариант, близкий к кластерному подходу). Пример: IBM RS/6000 SP + ОС AIX, устанавливаемая раздельно на любом узле.




Модель программирования
Программирование в рамках модели передачи сообщений ( MPI, PVM, BSPlib)

Таблица 2.2 – Симметричные мультипроцессорные системы (SMP)


Архитектура
Система состоит из нескольких однородных микропроцессоров и массива общей памяти (обычно из нескольких независящих блоков). Все микропроцессоры имеют доступ к хоть какой точке памяти с схожей скоростью. Микропроцессоры подключены к памяти или при помощи общей шины (базисные 2-4 процессорные SMP-сервера), или при помощи crossbar-коммутатора (HP 9000). Аппаратно поддерживается когерентность кэшей.

Примеры
HP 9000 V-class, N-class; SMP-cервера и рабочие станции на базе микропроцессоров Intel (IBM, HP, Compaq, Dell, ALR, Unisys, DG, Fujitsu и др.).

Масштабируемость
наличие общей памяти очень упрощает взаимодействие микропроцессоров меж собой, но накладывает мощные ограничения на их число — не наиболее 32 в настоящих системах. Для построения масштабируемых систем на базе SMP употребляются кластерные либо NUMA-архитектуры.

Операционная система
Вся система работает под управлением единой ОС (обычно unix-подобной, но для Intel-платформ поддерживается Windows NT). ОС автоматом (в процессе работы) распределяет процессы/нити по микропроцессорам (scheduling), но время от времени вероятна и очевидная привязка.

Модель программирования
Программирование в модели общей памяти. (POSIX threads, OpenMP). Для SMP-систем есть сравнимо действенные средства автоматического распараллеливания.

Таблица 2.3 – Системы с неоднородным доступом к памяти (NUMA)


Архитектура

Система состоит из однородных базисных модулей (плат), состоящих из маленького числа микропроцессоров и блока памяти. Модули объединены при помощи скоростного коммутатора. Поддерживается единое адресное место, аппаратно поддерживается доступ к удаленной памяти, т.е. к памяти остальных модулей. При всем этом доступ к локальной памяти в несколько раз резвее, чем к удаленной.

В случае, если аппаратно поддерживается когерентность кэшей во всей системе (обычно это так), молвят о архитектуре cc-NUMA (системы по управлению огромным числом микропроцессоров. На реальный момент, наибольшее число микропроцессоров в NUMA-системах составляет 256 (Origin2000).

Операционная система
Обычно вся система работает под управлением единой ОС, как в SMP. Но вероятны также варианты динамического «подразделения» системы, когда отдельные «разделы» системы работают под управлением различных ОС (к примеру, Windows NT и unix в NUMA-Q 2000).

Модель программирования
Аналогично SMP.



Таблица 2.4 – Параллельные векторные системы (PVP)


Архитектура

Главным признаком PVP-систем является наличие особых векторно-конвейерных микропроцессоров, в каких предусмотрены команды монотипной обработки векторов независящих данных, отлично выполняющиеся на конвейерных многофункциональных устройствах.

Как правило, несколько таковых микропроцессоров (1-16) работают сразу над общей памятью (аналогично SMP) в рамках многопроцессорных конфигураций. несколько таковых узлов могут быть объединены при помощи коммутатора (аналогично MPP).




Примеры
NEC SX-4/SX-5, линия векторно-конвейерных компов CRAY: от CRAY-1, CRAY J90/T90, CRAY SV1, CRAY X1, серия Fujitsu VPP.

Модель программирования
Действенное программирование предполагает векторизацию циклов (для заслуги разумной производительности 1-го микропроцессора) и их распараллеливание (для одновременной загрузки нескольких микропроцессоров одним приложением).




Таблица 2.5 – Кластерные системы


Архитектура

Набор рабочих станций (либо даже ПК ) общего предназначения, употребляется в качестве дешевенького варианта массивно-параллельного компа. Для связи узлов употребляется одна из обычных сетевых технологий (Fast/Gigabit Ethernet, Myrinet) на базе шинной архитектуры либо коммутатора.

При объединении в кластер компов разной мощности либо разной архитектуры, молвят о гетерогенных (неоднородных) кластерах.

Узлы кластера могут сразу употребляться в качестве пользовательских рабочих станций. В случае, когда это не надо, узлы могут быть значительно облегчены и/либо установлены в стойку.




Примеры
NT-кластер в NCSA, Beowulf-кластеры.

Операционная система
Употребляются обычные для рабочих станций ОС, почаще всего, свободно распространяемые — Linux/FreeBSD, совместно со особыми средствами поддержки параллельного программирования и распределения перегрузки.

Модель программирования
Программирование, как правило, в рамках модели передачи сообщений (почаще всего — MPI). Дешевизна схожих систем оборачивается большенными затратными расходами на взаимодействие параллельных действий меж собой, что очень сузивает возможный класс решаемых задач.

систематизация параллельных вычислительных систем, предложенная Т.Джоном, базирована на разделении МВС по двум аспектам: способу построения памяти (общая либо распределенная) и способу передачи инфы. Главные типы машин по систематизации Т.Джона представлены в таблице 2.6. тут приняты последующие обозначения: p — простый микропроцессор, M — элемент памяти, K — коммутатор, С — кэш-память.

Параллельная вычислительная система с общей памятью и шинной организацией обмена (машинка 1) дозволяет любому микропроцессору системы созидать», как решается задачка в целом, а не только лишь те части, над


Типы передачи Сообщений
Типы памяти

Общая память
Общая и распределенная
Распределенная память

Шинные соединения

1.


2.


3.




Фиксирован-ные перекрест-ные соедине-ния

4.


5.


6.




Коммутацион-ные структуры

7.


8.


9.




Таблица 2.6 – систематизация МВС по типам памяти и передачи сообщений которыми он работает. Общая шина, сплетенная с памятью, вызывает суровые задачи для обеспечения высочайшей пропускной возможности каналов обмена. Одним из методов обойти эту ситуацию является внедрение кэш-памяти (машинка 2). В этом случае возникает неувязка когерентности содержимого кэш-памяти и главный. Иным методом увеличения производительности систем является отказ от центральной памяти (машинка 3).

Безупречной машинкой является вычислительная система, у которой любой машина — комплекс технических средств, предназначенных для автоматической обработки информации в процессе решения вычислительных и информационных задач) (либо вычислительной системы) которое делает арифметические и логические операции данные программкой преобразования инфы управляет вычислительным действием и коор имеет прямые каналы связи с иными микропроцессорами, но в этом случае требуется очень большенный размер оборудования для организации межпроцессорных обменов. Определенный соглашение представляет сеть с фиксированной топологией, в какой любой микропроцессор соединен с неким подмножеством микропроцессоров системы. Если микропроцессорам, не имеющим конкретного канала обмена, нужно вести взаимодействие, они передают сообщения через промежные микропроцессоры. Одно из преимуществ такового подхода — не ограничивается рост числа микропроцессоров в системе. Недочет — требуется оптимизация прикладных программ, чтоб обеспечить выполнение параллельных действий, для которых нужно активное действие на примыкающие микропроцессоры.

Более увлекательным вариантом для многообещающих параллельных вычислительных комплексов является сочетание плюсы архитектур с распределенной памятью и каналами межпроцессорного обмена. один из вероятных способов построения таковых комбинированных архитектур — конфигурация с коммутацией, когда машина — комплекс технических средств, предназначенных для автоматической обработки информации в процессе решения вычислительных и информационных задач) (либо вычислительной системы) которое делает арифметические и логические операции данные программкой преобразования инфы управляет вычислительным действием и коор имеет локальную память, а соединяются микропроцессоры меж собой при помощи коммутатора (машинка 9). Коммутатор может оказаться очень полезным для группы микропроцессоров с распределяемой памятью (машинка 8). Данная конфигурация похожа на машинку с общей памятью (машинка 7), но тут исключены задачи пропускной возможности шины.

Недочетами систематизации Т.Джона является скрытие уровня параллелизма в системе.

Параллелизм хоть какого рода просит одновременной работы, по последней мере, 2-ух устройств. Таковыми устройствами могут быть: арифметико-логические устройства (АЛУ), устройства управления (УУ). В ЭВМ традиционной архитектуры УУ и АЛУ образуют машина — комплекс технических средств, предназначенных для автоматической обработки информации в процессе решения вычислительных и информационных задач) (либо вычислительной системы) которое делает арифметические и логические операции данные программкой преобразования инфы управляет вычислительным действием и коор. Повышение числа микропроцессоров либо числа АЛУ в любом из их приводит к соответственному росту параллелизма. наличие в ЭВМ нескольких микропроцессоров значит, что сразу (параллельно) могут производиться несколько программ либо несколько фрагментов одной программки. Работа нескольких АЛУ под управлением 1-го УУ значит, что огромное количество данных может обрабатываться параллельно по одной программке. В согласовании с сиим описание структур параллельных систем можно представить в виде упорядоченной тройки:

<k,d,w>,

где k — количество устройств управления, т.е. наибольшее количество независимо и сразу выполняемых программ в системе;

d — количество АЛУ, приходящихся на одно устройство управления;

w — количество разрядов, содержимое которых обрабатывается сразу (параллельно) одним арифметико-логическим устройством.

Иная форма распараллеливания — конвейеризация, также просит наличия нескольких ЦП либо АЛУ. В то время, как огромное количество данных обрабатывается на одном устройстве, другое огромное количество данных может обрабатываться на последующем устройстве и т.д., при всем этом в процессе обработки возникает поток данных от 1-го устройства (ЦП либо АЛУ) к последующему. В течение всего процесса над одним обилием данных производится одно за остальным n действий. сразу в конвейере на различных стадиях обработки могут находиться от 1 до n данных.

Параллелизм и конвейеризацию можно разглядывать на 3-х разных уровнях, представленных в таблице 2.7. 6 главных форм параллелизма, в широком смысле этого слова, разрешают выстроить схему систематизации, в рамках которой можно обрисовать обилие высокопроизводительных вычислительных систем и отразить их эволюцию.

Таблица 2.7 – систематизация МВС по типу распараллеливания

Уровень

параллелизма



Параллелизм

Конвейеризация




Программки

Мультипроцессор


Макроконвейер




Команды

Матричный машина — комплекс технических средств, предназначенных для автоматической обработки информации в процессе решения вычислительных и информационных задач) (либо вычислительной системы) которое делает арифметические и логические операции данные программкой преобразования инфы управляет вычислительным действием и коор


Сборочный поток установок




Данные

Огромное количество разрядов


Арифметический

сборочный поток





3. ОСНОВНЫЕ КОНЦЕПЦИИ ПРОЕКТИРОВАНИЯ СУПЕРЭВМ

В векторных суперЭВМ обеспечена предельная производительность для действий скалярной и векторной обработки, которая находится в большинстве задач. задачки, содержащие высшую степень внутреннего параллелизма, могут быть отлично приспособлены к системам массового параллелизма. Настоящие задачки и, тем наиболее, пакеты задач содержат целый ряд алгоритмов, имеющих разные уровни параллелизма.

Все это гласит о том, что заместо попыток приспособить все типы алгоритмов к одной архитектуре, что отражается на конфигурации архитектур и сопровождается не постоянно корректными сопоставлениями пиковой производительности, наиболее продуктивным является взаимодополнение архитектур в единой системе. Одним из первых примеров таковой системы является объединение векторной системы Cray Y-XM с системой Cray T3D. Но, это объединение при помощи скоростного канала приводит к необходимости разбиения задач на большие блоки и к потерям времени и памяти на обмен информацией.

Ситуация в данном случае подобна той, которая была до возникновения векторных машин. Для решения задач, содержащих огромное число операций над векторами и матрицами, использовались так именуемые матричные микропроцессоры, к примеру, конторы FSP, которые подключались к всепригодной машине при помощи канала ввода/вывода. Интеграция скалярной и векторной обработки в одном микропроцессоре вместе с обеспечением высочайшей скорости работы синхронного сборочного потока обеспечила фуррор векторных машин.

Последующим логическим шагом является Интеграция скалярной, векторной и параллельной обработки. Благодаря этому, быть может достигнута высочайшая настоящая производительность за счет распределения отдельных частей программки по подсистемам с различной архитектурой. естественно, это распределение работы обязано быть поддержано аппаратно-программными средствами автоматизации программирования. Эти средства должны содержать возможность интерактивного вмешательства программера на шаге анализа задачки и возможность моделирования либо пробного пуска программки с измерением характеристик эффективности. Следует выделить, что формы параллелизма в методах довольно многообразны, потому и их аппаратное отражение быть может разным. К более обычным можно отнести системы с одним потоком установок и множественными потоками данных, системы с множественными потоками установок и данных, систолические системы.

Одним из перспективных подходов, обеспечивающих автоматическое распараллеливание, является принцип потока данных, при котором последовательность либо одновременность вычислений определяется не командами, а готовностью операндов и наличием вольного многофункционального арифметического устройства. Но, и в этом случае степень настоящего распараллеливания зависит от внутреннего параллелизма метода и, разумеется, необходимы действенные методы подготовки задач. Не считая того, для реализации таковых систем нужно создание ассоциативной памяти для поиска готовых к работе пар операндов и систем распределения вычислений по большенному числу многофункциональных устройств.

Аппаратная реализация параллельных подсистем на сто процентов зависит от избранных процессоров, БИС памяти и остальных компонент. В истинное время по экономическим причинам целенаправлено применять более высокопроизводительные процессоры, разработанные для унипроцессорных машин.

совместно с тем, есть подходы, связанные с применением специализированных процессоров, нацеленных на внедрение в параллельных системах. Обычным примером является серия транспьютеров конторы Inmos. Но, из-за ограниченного рынка эта серия по производительности резко отстала от всепригодных процессоров, таковых, как Alpha, Power PC, Pentium. Спец процессоры сумеют быть конкурентными лишь при условии сокращения расходов на проектирование и освоение в производстве, что в большенный степени зависит от производительности инструментальных вычислительных средств, применяемых в системах автоматического проектирования.

В разных вычислительных машинках использовались разные подходы, направленные на достижение, сначала, одной из последующих целей:

— наибольшая арифметическая производительность микропроцессора;

— эффективность работы операционной системы и удобство общения с ней для программера;

— эффективность трансляции с языков высочайшего уровня и исключение написания программ на автокоде;

— эффективность распараллеливания алгоритмов для параллельных архитектур.

Но, в хоть какой машине нужно в той либо другой форме решать все обозначенные задачки. Отметим, что поначалу этого пробовали достигнуть при помощи 1-го либо нескольких схожих микропроцессоров.

Дифференциация функций и специализация отдельных подсистем начала развиваться с возникновения отдельных подсистем и микропроцессоров для обслуживания ввода/вывода, коммуникационных сетей, наружной памяти и т.п.

В суперЭВМ не считая основного микропроцессора (машинки) врубались наружные машинки. В разных системах можно следить элементы специализации в направлениях автономного выполнения функций операционной системы, системы программирования и подготовки заданий.

Во-1-х, эти вспомогательные функции могут производиться наряду с главными вычислениями. Во-2-х, для реализации не требуются почти все из тех средств, которые обеспечивают высшую производительность основного микропроцессора, к примеру, возможность выполнения операций с плавающей запятой и векторных операций. В предстоящем, при интеграции скалярной, векторной и параллельной обработки в рамках единой вычислительной подсистемы состав этих вспомогательных функций должен быть дополнен функциями анализа программ с целью обеспечения требуемого уровня параллелизма и распределения отдельных частей программки по разным веткам вычислительной подсистемы.

Возникновение суперЭВМ сопровождалось увеличением их общей мощности употребления (выше 100 кВт) и повышением плотности термических потоков на разных уровнях конструкции. Их создание не в последнюю очередь оказалось вероятным, благодаря использованию действенных жидкостных и фреоновых систем остывания. Является ли значимая мощность значимым признаком суперЭВМ? Ответ на этот вопросец зависит от того, что вкладывается в понятие суперЭВМ.

Если считать, что суперЭВМ либо, поточнее, суперсистема — это система с наивысшей вероятной производительностью, то энергетический фактор остается одним из определяющих эту производительность. По мере развития технологии мощность 1-го вентиля в процессорах миниатюризируется, но при повышении производительности микропроцессора за счет параллелизма общая мощность в ряде всевозможных случаев вырастает. При объединении огромного числа процессоров в системе с массовым параллелизмом интегральная мощность и тепловыделение стают соизмеримыми с подобными показателями для векторно-конвейерных систем. Но, время от времени в маркетинговых целях параллельные системы с маленьким числом микропроцессоров сравниваются с суперкомпьютерами предшествующего либо наиболее ранешнего поколений, чтоб показать их достоинства в смысле простоты и удобства эксплуатации. естественно, из такового неправильного сопоставления недозволено прийти к выводу о необходимости сотворения современных суперсистем.

Главным стимулом сотворения суперсистем являются потребности решения огромных задач. В свою очередь, исследования и разработки по суперсистемам стимулируют целый комплекс базовых и прикладных исследовательских работ, результаты которых употребляются в предстоящем в остальных областях. До этого всего, это касается архитектуры и схемотехники вычислительных машин, высокочастотных интегральных схем и средств межсоединений, действенных систем отвода тепла. Не наименее важны результаты по способам распараллеливания при выполнении отдельных операций и участков программ на аппаратном уровне, способам построения параллельных алгоритмов, языков и программных систем для действенного решения огромных задач.

В развитии вычислительных средств можно выделить три главные задачи:

— увеличение производительности;

— увеличение надежности;

— покрытие семантического разрыва.

Этапы развития вычислительных средств принято различать по поколениям машин. Черта поколения определяется определенными показателями, отражающими достигнутый уровень в решении 3-х перечисленных заморочек. Так как подавляющий вклад в развитие вычислительных средств постоянно принадлежал технологическим решениям, основополагающей чертой поколения машин числилась элементная база. И вправду, переход на новейшую элементную базу отлично коррелируется с новеньким уровнем характеристик производительности, надежности и сокращения семантического разрыва.

В истинное время животрепещущим является переход к новеньким поколениям вычислительных средств. По сложившейся традиции решающая роль отводится технологии производства элементной базы. В то же время становится естественным, что технологические решения утратили монопольное положение. Так, к примеру, в наиблежайшей перспективе приметно увеличивается неувязка решается в большей степени строительными средствами. Роль технологии тут быть может лишь косвенной: высочайшая степень интеграции делает условия для реализации строительных решений.

В истинное время одним из доминируюших направлений развития суперЭВМ являются вычислительные системы c MIMD-параллелизмом на базе матрицы процессоров. Для сотворения схожих вычислительных систем, состоящих из сотен и тыщ связанных микропроцессоров, потребовалось преодолеть ряд сложных заморочек как в программном обеспечении (языки Parallel Pascal, Modula-2, Ada), так и в аппаратных средствах (действенная коммутационная среда, высокоскоростные средства обмена, массивные процессоры). Элементная база современных выcокопроизводительных систем характеризуется выcокой степенью интеграции (до 3,5 млн. транзисторов на кристалле) и высочайшими тактовыми частотами (до 600 МГц).

В истинное время все конторы и все институты США с массовым параллелизмом уже на данный момент значительно опережают по производительности классические суперЭВМ с векторно-конвейерной архитектурой. системы с массовым параллелизмом предъявляют наименьшие требования к процессорам и элементной базе и имеют существенно наименьшую стоимость при любом уровне производительности, чем векторно-конвейерные суперЭВМ.

На каждогодней конференции в Чепел-Хилл (Сев.Каролина) представлен проект конторы IBM, целью которого является создание гиперкубического параллельного процесора в одном корпусе. Система, нареченная Execube, имеет 8 16-разрядных микропроцесоров, интегрированных в кристалл 4Мбит динамического ЗУ (ДЗУ). При всем этом степень интеграци составляет 5 млн. транзисторов. Микросхема сделана по КМОП-технологии с 3-мя уровнями металлизации на заводе IBM Microelectronic (Ясу, Япония). Execube представляет собой попытку увеличения степени интеграции микропроцессора с памятью методом наиболее действенного доступа к инфы ДЗУ. По существу, память преобразуется в расширенные регистры микропроцессоров. Производительность микросхемы составляет 50 млн оп/с.

КомпанияCRAY Research обёявила о начале выпуска суперкопьютеров CRAY T3/E. Основная черта, на которой акцентировали внимание создатели — масштабируемость. Малая конфигурация составляет 8 процессоров, наибольшая — 2048. По сопоставлению с предшествующей моделью T3/D соотношение стоимость/производительность снижена в 4 раза и составляет 60 долл/Мфлопс, чему содействовало применение дешевых микропроцессоров DEC Alpha EVC, сделанных по КМОП-технологии. Предполагаемая стоимость модели Т3/Е на базе 16 микропроцессоров с 1-Гбайт ЗУ составит 900 тыс. баксов, а стоимость более сильной конфигурации (1024 микропроцессора, ЗУ 64 Гбайт) -39,7 млн. баксов при пиковой производительности 600 Гфлопс.

Одним из методов предстоящего увеличения производительности вычислительной системы является объединение суперкомпьютеров в кластеры с помощью оптоволоконных соединений. С данной целью компы CRAY T3/E снабжены каналами ввода/вывода с пропускной способностью 128 Гбайт/с. Потенциальные заказчики проявляют завышенный Энтузиазм к новейшей разработке конторы. желание приобрести комп проявили такие организации как Pittsburgh Supercomputer Center, Mobile Oil, Департамент по океанографии и атмосферным исследованиям США

Посреди японских компаний следует выделить фирму Hitachi, которая выпустила суперкомпьютер SR2201 с массовым параллелизмом, содержащий до 2048 процесоров. В базе системы переработанная компанией процессорная архитектура RA-RISC от конторы Hewlett-Paccard. Псевдовекторный машина — комплекс технических средств, предназначенных для автоматической обработки информации в процессе решения вычислительных и информационных задач) (либо вычислительной системы) которое делает арифметические и логические операции данные программкой преобразования инфы управляет вычислительным действием и коор работает под управлением ОС HP-UX/MPP Mash 3.0. В компе, не считая того, применена система поддержки параллельного режима работы Express, сделанная компанией Parasoft и получившая заглавие ParallelWare. Производительность новейшего компа составляет 600 Гфлопс.


4. КРАТКИЕ свойства НАИБОЛЕЕ РАСПРОСТРАНЕННЫХ СУПЕРКОМПЬЮТЕРОВ

IBM RS/6000 SP


Производитель
International Business Machines (IBM), подразделение RS/6000.

Класс архитектуры
Масштабируемая массивно-параллельная вычислительная система (MPP).

Узлы
Узлы имеют архитектуру рабочих станций RS/6000. Есть несколько типов SP-узлов, которые комплектуются разными микропроцессорами: PowerPC 604e/332MHz, POWER3/200 и 222 MHz (наиболее ранешние системы комплектовались микропроцессорами POWER2). High-узлы на базе POWER3 включают до 8 микропроцессоров и до 16 GB памяти.

Масштабируе-мость
До 512 узлов. Может быть совмещение узлов различых типов. Узлы инсталлируются в стойки (до 16 узлов в каждой).

Коммутатор
Узлы соединены меж собой высокопроизводительных коммутатором (IBM high-performance switch), который имеет многостадийную структуру и работает с коммутацией пакетов.

Cистемное ПО
OC AIX (устанавливается на любом узле), система пакетной обработки LoadLeveler, параллельная файловая система GPFS, параллельная СУБД INFORMIX-Online XPS. Параллельные приложения исполняются под управлением Parallel Operating Environment (POE).

средства
программирова-ния
Оптимизированная реализация интерфейса MPI, библиотеки параллельных математических подпрограмм — ESSL, OSL.

Обзор
Обзор архитектуры суперкомпьютеров серии RS/6000 SP компании IBM.



HP 9000 (Exemplar)


Производитель
Hewlett-Packard, подразделение высокопроизводительных систем.

Класс
Многопроцессорные сервера с общей памятью (SMP).

Предшествен-ники
SMP/NUMA-системы Convex SPP-1200, SPP-1600, SPP-2000.

Модификации
В истинное время доступны несколько «классов» систем семейства HP 9000: сервера исходного уровня (D, K-class), среднего уровня (N-class) и более массивные системы (V-class).

Микропроцессоры
64-битные микропроцессоры c архитектурой PA-RISC 2.0 (PA-8200, PA-8500).

Число микропроцессоров
N-class — до 8 микропроцессоров. V-class — до 32 микропроцессоров. В предстоящем ожидается повышение числа микропроцессоров до 64, а потом до 128.

Масштабируе-мость
SCA-конфигурации (Scalable Computing Architecture) — до 4 узлов V-class, т.е. до 128 микропроцессоров.

Системное ПО
Устанавливается операционная система HP-UX (совместима на уровне двоичного кода с ОС SPP-UX компов Convex SPP).

средства программирова-ния
HP MPI — реализация MPI 1.2, оптимизированная к архитектуре Exemplar. Распараллеливающие компиляторы Fortran/C, математическая библиотека HP MLIB. CXperf — с редство анализа производительности программ.

Обзор
Обзор архитектуры серверов HP 9000 класса V компании Hewlett-Packard


Cray T3E


Производитель
Cray Inc.

Класс архитектуры
Масштабируемая массивно-параллельная система, состоит из процессорных частей (PE).

Предшествен-ники
Cray T3D

Модификации
T3E-900, T3E-1200, T3E-1350

Процессорный элемент
PE состоит из микропроцессора, блока памяти и устройства сопряжения с сетью. Употребляются микропроцессоры Alpha 21164 (EV5) с тактовой частотой 450 MHz (T3E-900), 600 MHz (T3E-1200), 675 MHz (T3E-1350) пиковая производительность которых составляет 900, 1200, 1350 MFLOP/sec соответственно. Процессорный элемент располагает собственной локальной памятью (DRAM) объемом от 256MB до 2GB.

Число микропроцессоров
системы T3E масштабируются до 2048 PE.

Коммутатор
Процессорные элементы соединены высокопроизводительной сетью GigaRing с топологией трехмерного тора и двунаправленными каналами. Скорость обменов по сети добивается 500MB/sec в любом направлении.

Системное ПО
Употребляется операционная система UNICOS/mk.

средства программирова-ния
Поддерживается очевидное параллельное программирование c помощью пакета Message Passing Toolkit (MPT) — реализации интерфейсов передачи сообщений MPI, MPI-2 и PVM, библиотека Shmem. Для Фортран-программ может быть также неявное распараллеливание в моделях CRAFT и HPF. Среда разработки включает также набор зрительных средств для анализа и отладки параллельных программ.

Cray T90


Производитель
Cray Inc., Cray Research.

Класс архитектуры
Многопроцессорная векторная система (несколько векторных микропроцессоров работают на общей памяти).

Предшествен-ники
CRAY Y-MP C90, CRAY X-MP.

Модели
Серия T90 включает модели T94, T916 и T932.

машина — комплекс технических средств, предназначенных для автоматической обработки информации в процессе решения вычислительных и информационных задач) (либо вычислительной системы) которое делает арифметические и логические операции данные программкой преобразования инфы управляет вычислительным действием и коор
системы серии T90 базируются на векторно-конвейерном микропроцессоре Cray Research с пиковой производительностью 2GFlop/s.

Число микропроцессоров
Система T932 может включать до 32 векторных микропроцессоров (до 4-х в модели T94, до 16 модели T916), обеспечивая пиковую производительность наиболее 60GFlop/s.

Масштабируе-мость
Может быть объединение нескольких T90 в MPP-системы.

Память
Система T932 содержит от 1GB до 8GB (до 1 GB в модели T94 и до 4GB в модели T916) оперативки и обеспечивает скорость обменов с памятью до 800MB/sec.

Системное ПО
Употребляется операционная система UNICOS.


Cray SV1


Производитель
Cray Inc.

Класс архитектуры
Масштабируемый векторный суперкомпьютер.

машина — комплекс технических средств, предназначенных для автоматической обработки информации в процессе решения вычислительных и информационных задач) (либо вычислительной системы) которое делает арифметические и логические операции данные программкой преобразования инфы управляет вычислительным действием и коор
Употребляются 8-конвейерные векторные микропроцессоры MSP (Multi-Streaming Processor) с пиковой производительностью 4.8 GFLOP/sec; любой MSP быть может подразделен на 4 обычных 2-конвейерных микропроцессора с пиковой производительностью 1.2 GFLOP/sec. Тактовая частота микропроцессоров — 250MHz.

Число микропроцессоров
Микропроцессоры соединяются воединыжды в SMP-узлы, любой из которых может содержать 6 MSP и 8 обычных микропроцессоров. Система (кластер) может содержать до 32 таковых узлов.

память
SMP-узел может содержать от 2 до 16GB памяти. Система может содержать до 1TB памяти. Вся память глобально адресуема (архитектура DSM).

Системное ПО
Употребляется операционная система UNICOS.

средства программирова-ния
Поставляется векторизующий и распараллеливающий компилятор CF90. Поддерживается также очевидное параллельное программирование с внедрением интерфейсов MPI, OpenMP либо Shmem.

Cray X1


Производитель
Cray Inc.

Класс архитектуры
Масштабируемый векторный суперкомпьютер.

машина — комплекс технических средств, предназначенных для автоматической обработки информации в процессе решения вычислительных и информационных задач) (либо вычислительной системы) которое делает арифметические и логические операции данные программкой преобразования инфы управляет вычислительным действием и коор
Употребляются 16-конвейерные векторные микропроцессоры с пиковой производительностью 12.8 GFLOP/sec. Тактовая частота микропроцессоров — 800MHz.

Число микропроцессоров
В наибольшей конфигурации — до 4096.

память
Любой микропроцессор может содержать до 16GB памяти. В наибольшей конфигурации система может содержать до 64TB памяти. Вся память глобально адресуема (архитектура DSM). Наибольшая скорость обмена с оперативной памятью составляет 34.1 Гбайт/сек. на машина — комплекс технических средств, предназначенных для автоматической обработки информации в процессе решения вычислительных и информационных задач) (либо вычислительной системы) которое делает арифметические и логические операции данные программкой преобразования инфы управляет вычислительным действием и коор, скорость обмена с кэш-памятью 76.8 Гбайт/сек. на машина — комплекс технических средств, предназначенных для автоматической обработки информации в процессе решения вычислительных и информационных задач) (либо вычислительной системы) которое делает арифметические и логические операции данные программкой преобразования инфы управляет вычислительным действием и коор.

Системное ПО
Употребляется операционная система UNICOS/mp.

средства программирова-ния
Реализованы компиляторы с языков Фортран и Си++, включающие способности автоматической векторизации и распараллеливания, особые оптимизированные библиотеки, интерактивный отладчик и средства для анализа производительности. Приложения могут писаться с внедрением MPI, OpenMP, Co-array Fortran и Unified Parallel C (UPC).


Cray XT3


Производитель
Cray Inc.

Класс архитектуры
Массивно-параллельный суперкомпьютер.

машина — комплекс технических средств, предназначенных для автоматической обработки информации в процессе решения вычислительных и информационных задач) (либо вычислительной системы) которое делает арифметические и логические операции данные программкой преобразования инфы управляет вычислительным действием и коор
Употребляются микропроцессоры AMD Opteron.

Число микропроцессоров
В наибольшей конфигурации — до 30508.

память
Любой микропроцессор может содержать от 1 до 8 Гбайт оперативки. В наибольшей конфигурации система может содержать до 239 Тбайт памяти.

Системное ПО
Употребляется операционная система UNICOS/lc.

средства программирова-ния
На компе инсталлируются компиляторы Fortran 77, 90, 95, C/C++, коммуникационные библиотеки MPI (с поддержкой эталона MPI 2.0) и SHMEM, также оптимизированные версии библиотек BLAS, FFTs, LAPACK, ScaLAPACK и SuperLU. Для анализа производительности системы устанавливается система Cray Apprentice2 performance analysis tools.

SGI Origin2000


Производитель
Silicon Graphics

Класс архитектуры
Модульная система с общей памятью (cc-NUMA).

машина — комплекс технических средств, предназначенных для автоматической обработки информации в процессе решения вычислительных и информационных задач) (либо вычислительной системы) которое делает арифметические и логические операции данные программкой преобразования инфы управляет вычислительным действием и коор
64-разрядные RISC-процессоры MIPS R10000, R12000/300MHz

Модуль
Главный компонент системы — модуль Origin, включающий от 2 до 8 микропроцессоров MIPS R10000 и до 16GB оперативки.

Масштабируе-мость
Поставляются системы Origin2000, содержащие до 256 микропроцессоров (т.е. до 512 модулей). Вся память системы (до 256GB) глобально адресуема, аппаратно поддерживается когерентность кэшей.

Коммутатор
Модули системы соединены при помощи сети CrayLink, построенной на маршрутизаторах MetaRouter.

Системное ПО
Употребляется операционная система SGI IRIX.

средства программирова-ния
Поставляется распараллеливающий компилятор Cray Fortran 90. Поддерживается эталон OpenMP.

SGI Altix3000


Производитель
Silicon Graphics

Класс архитектуры
Модульная система с общей памятью (cc-NUMA).

машина — комплекс технических средств, предназначенных для автоматической обработки информации в процессе решения вычислительных и информационных задач) (либо вычислительной системы) которое делает арифметические и логические операции данные программкой преобразования инфы управляет вычислительным действием и коор
Intel Itanium II 1.3GHz/1.5GHz

Модули
Вся система строится из модулей (вычислительных, коммутационных, проч.) Вычислительный компонент системы — модуль C-brick, состоящий из 2-х блоков, включающий 4 микропроцессора (по 2 на блок), 4 слота памяти по 8DIMM (от 4 до 16Gb на C-brick).

Масштабируе-мость
Поставляются системы Origin2000, содержащие до 256 микропроцессоров (т.е. до 512 модулей). Вся память системы (до 256GB) глобально адресуема, аппаратно поддерживается когерентность кэшей.

Коммутатор
Модули системы соединены при помощи сети NUMAlink, построенной на собственных маршрутизаторах R-bricks.

Системное ПО
Употребляется доработанная («открытые» доработки) операционная система Linux.


Onyx2 InfiniteReality2


Производитель
Silicon Graphics

Класс архитектуры
Многопроцессорная система визуализации; по аппаратной архитектуре весьма похожа на Origin2000.

Число микропроцессоров
Система может включать до 128 микропроцессоров MIPS R10000.

Визуализация
Графические способности системы обеспечивают особые устройства 3-х типов: геометрические (векторные) микропроцессоры, растровые микропроцессоры, генераторы аналоговых сигналов. Система быть может оборудована 16 независящими каналами графического вывода (visualization pipelines). На аппаратном уровне поддерживается графический интерфейс OpenGL.

Системное ПО
Употребляется операционная система SGI IRIX.

Sun HPC 10000 (StarFire)


Производитель
Sun Microsystems, серия Sun HPC.

Класс архитектуры
Многопроцессорный SMP-.

Микропроцессор
UltraSPARC II/336MHz

Число микропроцессоров
Система StarFire соединяет воединыжды от 16 до 64 микропроцессоров.

память
Система включает от 2GB до 64GB памяти.

Системное ПО
ОС Solaris, ПО распределения ресурсов Load Sharing Facility (LSF).

средства разработки
Поставляется пакет поддержки параллельных приложений Sun HPC 2.0, включающий такие средства как HPF, MPI, PVM, PFS (параллельная файловая система), Prism (зрительная среда разработки), S3L (библиотека математических подпрограмм), и др.

Sun Fire 15K


Производитель
Sun Microsystems.

Класс архитектуры
Многопроцессорный SMP-.

Микропроцессор
UltraSPARC III/900MHz

Число микропроцессоров
Система Sun Fire 15K соединяет воединыжды до 106 микропроцессоров.

память
Система включает до 576GB памяти.

Системное ПО
ОС Solaris 8.

NEC SX-5


Производитель
NEC, серия SX.

Класс архитектуры
Параллельный векторный суперкомпьютер (PVP).

Предшествен-ники
NEC SX-4.

Узел
Любой узел системы является векторно-конвейерным SMP-суперкомпьютером, объединяющим до 16 личных векторных микропроцессоров (любой с пиковой векторной производительностью 8 Gflop/s и скалярной производительностью 500 MFlop/s).

память
Размер памяти всякого узла — до 128GB, производительность обменов с памятью добивается 1TB/sec.

Масштабируе-мость
Система может включать до 32 узлов, обеспечивая совокупную пиковую производительность до 4 TFlop/s.

Коммутатор
Для связи узлов употребляется скоростной коммутатор (IXS Internode Crossbar Switch).

Системное ПО
Употребляется операционная система SUPER-UX.

средства программирова-ния
поставляются компилятор языка HPF, реализация интерфейса MPI, компиляторы Фортран 77/90 с автоматической векторизацией и поддержкой OpenMP 1.1, также встроенная среда разработки и оптимизации PSUITE.

NEC SX-6


Производитель
NEC, серия SX.

Класс архитектуры
Параллельный векторный суперкомпьютер (PVP).

Предшествен-ники
NEC SX-5.

Узел
Любой узел системы является векторно-конвейерным SMP-суперкомпьютером, объединяющим от 2 до 8 личных векторных микропроцессоров (любой с пиковой векторной производительностью 8 Gflop/s и скалярной производительностью 500 MFlop/s).

память
Размер памяти всякого узла — до 64GB, производительность обменов с памятью добивается 1TB/sec.

Масштабируе-мость
Система может включать до 128 узлов, обеспечивая совокупную пиковую производительность до 8 TFlop/s.

Коммутатор
Для связи узлов употребляется скоростной коммутатор (IXS Internode Crossbar Switch).

Системное ПО
Употребляется операционная система SUPER-UX с усовершенствованной поддержкой SSI (Single System Image).

средства программирова-ния
поставляются компилятор языка HPF 2.0, реализация интерфейса MPI, компиляторы Фортран 77/90 с автоматической векторизацией, встроенная среда разработки и оптимизации PSUITE, поддерживается OpenMP 1.1 (в конце 2002 года предполагается поддержка OpenMP 2.0).

Fujitsu VPP


Производитель
Fujitsu

Класс архитектуры
Параллельный векторный суперкомпьютер (PVP).

Модификации
VPP300, VPP700, VPP5000

Процессорный элемент
Любой процессорный элемент (PE) системы VPP700E состоит скалярного устройства (SU), векторного устройства (VU), блока памяти и устройства сопряжения.
Для VPP700: VU состоит из 7 конвейеров и обеспечивает пиковую производительность до 2.4 GFLOP/sec. Размер памяти — до 2GB.
Для VPP5000: VU состоит из 4 конвейеров, пиковая производительность — 9.6 GFLOP/sec. Размер памяти — до 16GB.

Масштабируе-мость
Для VPP700: cистема может включать от 8 до 256 PE, суммарная пиковая производительность до 14.4 GFLOP/sec
Для VPP5000: до 512 PE, суммарная пиковая производительность до 4.9 TFLOP/sec.

Коммутатор
Процессорные элементы соединены коммутатором (crossbar Network), который производит обоесторонние обмены, не прерывая вычислений. Пропускная способность каналов коммутатора: для VPP700 — 615MB/sec, для VPP5000 — 1.6GB/sec.

Системное ПО
Употребляется операционная система UXP/V, основанная на unix System VR4.

Средства программирова-ния
Посреди средств разработки поставляются: распараллеливающий и векторизующий компилятор Fortran90/VPP, оптимизированная для VPP библиотека математических подпрограмм SSLII/VPP, библиотеки передачи сообшений MPI-2 и PVM 3.3.

Fujitsu PrimePower 2000


Производитель
Fujitsu

Класс архитектуры
Многопроцессорные сервера с общей памятью (SMP).

Предназначение
масштаба компании(Enterprise Server)

Виртуальные домены
до 15

Микропроцессоры
от 8 до 128 SPARC64-V, тактовая частота 675/788MHz, L1 кэш 128/128KB, L2 кэш 8MB

Пропускная способность шины
57.6 GB/sec

память
2GB — 512GB ECC SDRAM

Дисковые накопители
внутренние 8,736GB, наружные 414 TB, поддерживается жгучая подмена

Слоты ввода-вывода
PCI 12-192, из их 6-96 64bit/66MHz/33MHz и 6-96 64bit/33MHz, интегрированный SCSI контроллер UltraWide

Операционная система
Solaris 2.6, 7, 8, 9

Малая конфигурация
8*675MHz CPU, 4 GB память, 18.2 GB диски, стоимость 1004730 баксов США (Соединённые Штаты Америки — масштаба компании(Enterprise Server)

Partitions (разделы)
до 15 независящих физических, до 15 доп

Микропроцессоры
от 8 до 128 SPARC64-V, тактовая частота 1.35GHz, L1 кэш 256KB, L2 кэш 8MB

Пропускная способность шины
133 GB/sec

память
2GB — 512GB ECC SDRAM

Дисковые накопители
внутренние 9,34TB (32 PCI/Disk box), наружные 147GB * 4 диска на PCI/Disk box, поддерживается жгучая подмена

Слоты ввода-вывода
PCI до 320, интегрированный SCSI контроллер UltraWide

Операционная система
Solaris 8, 9


AlphaServer


Производитель
Compaq (Digital).

Класс архитектуры.
AlphaServer GS/ES — высокопроизводительный SMP-, AlphaServer SC — массивно-параллельная система, AlphaServer HPC — кластерные системы.

Модификации
GS320, GS160, HPC320, HPC160, GS140, GS60, ES40, DS20 и др.

машина — комплекс технических средств, предназначенных для автоматической обработки информации в процессе решения вычислительных и информационных задач)
(либо вычислительной системы) которое делает арифметические и логические операции данные программкой преобразования инфы управляет вычислительным действием и коор
Alpha 21264, 21264A (тактовая частота до 731 MHz в новейших моделях)

Число микропроцессоров
до 32 (модель GS320)

память
до 256 GB (модель GS320)

Масштабируе-мость
системы HPC320 включают до 4-х узлов AlphaServer ES40, т.е. до 16 микропроцессоров. системы AlphaServer SC могут соединять воединыжды до 128 узлов AlphaServer ES40, т.е. до 512 микропроцессоров. Также Compaq дает различные кластерные решения на базе собственных серверов.

Системное ПО
На платформе AlphaServer поддерживаются операционные системы Tru64 UNIX (это новое имя Digital unix), OpenVMS и Linux. Поставляется ПО кластеризации TruCluster Software.

средства программирова-ния
Поддерживается параллельное программирование в эталонах OpenMP и MPI.


5. ДЕСЯТКА САМЫХ МОЩНЫХ КОМПЬЮТЕРОВ

Данный перечень был взят из Top500 на ноябрь 2004 года. В перечне представлены последующие данные по любому компу:

— Rank – порядковый номер в перечне Top500;

Site – организация, в какой установлен комп;

— Country – страна — положение системы;

— Year – год установки либо крайнего сурового обновления системы;

— Computer – заглавие (тип) компа, обозначенное поставщиком;

— Processors – количество микропроцессоров;

— Manufacturer – производитель либо поставщик компа;

— Computer Family – семейство компов;

— Model – модель компа либо вычислительного узла;

— Installation Type – вид установки (экспериментальная, академическая, правительственная, промышленная, закрытая);

— Installation Area – область внедрения (погода, геофизика);

— Nmax – размер задачки, нужный для заслуги Rmax;

— Nhalf – размер задачки, нужный для заслуги половины Rmax;

— Rmax – наибольшая приобретенная производительность по LINPACK;

— Rpeak – теоретическая пиковая производительность.

Таблица 5.1 – 10-ка самых массивных компов


Rank
Site Country/Year
Computer Processors Manufacturer
Computer Family Model
Inst. type
Installation Area
Rmax Rpeak
Nmax nhalf

1
IBM/DOE United States/2004
BlueGene/L beta-System BlueGene/L DD2 beta-System (0.7 GHz PowerPC 440) / 32768
IBM
IBM BlueGene/L BlueGene/L
Research
70720 91750
933887

2
NASA/Ames Research Center/NAS
United States/2004
Columbia SGI Altix 1.5 GHz, Voltaire Infiniband / 10160 SGI
SGI Altix
SGI Altix 1.5 GHz
Research
51870 60960
1.29024e+06

3
The Earth Simulator Center
Japan/2002

Earth-Simulator /

5120 NEC



NEC Vector
SX6
Research
35860
40960
1.0752e+06
266240

4
Barcelona Supercomputer Center
Spain/2004
MareNostrum
eServer BladeCenter JS20 (PowerPC970 2.2 GHz), Myrinet / 3564
IBM
IBM Cluster
JS20 CLuster, Myrinet
Academic
20530
31363
812592

5
Lawrence Livermore National Laboratory
United States/2004
Thunder
Intel Itanium2 Tiger4 1.4GHz — Quadrics / 4096
California Digital Corporation
NOW — Intel Itanium
Itanium2 Tiger4 Cluster — Quadrics
Research
19940
22938
975000
110000

6
Los Alamos National Laboratory
United States/2002
ASCI Q
ASCI Q — AlphaServer SC45, 1.25 GHz / 8192
HP
HP AlphaServer
SC Alpha-Server-Cluster
Research
13880
20480
633000
225000

7
Virginia Tech
United States/2004
System X
1100 Dual 2.3 GHz Apple XServe/Mellanox Infiniband 4X/Cisco GigE / 2200
Self-made
NOW — PowerPC
XServe Cluster
Academic
12250
20240
620000

8
IBM — Rochester
United States/2004
BlueGene/L DD1 Prototype (0.5GHz PowerPC 440 w/Custom) / 8192
IBM/ LLNL
IBM BlueGene/L
BlueGene/L
Vendor
11680
16384
331775

9
Naval Oceanographic Office (NAVOCEANO)
United States/2004
eServer pSeries 655 (1.7 GHz Power4+) / 2944
IBM
IBM SP
SP Power4+, Federation
Research
10310
20019.2

10
NCSA
United States/2003
Tungsten
PowerEdge 1750, P4 Xeon 3.06 GHz, Myrinet / 2500
Dell
Dell Cluster
PowerEdge 1750, Myrinet
Academic
9819
15300
630000

ЗАКЛЮЧЕНИЕ

Бурное развитие промышленности суперЭВМ послужило откликом на необходимость населения земли в машинках, моделирующих процессы в настоящем времени и выполняющих ряд остальных сложных задач. СуперЭВМ постоянно являлись воплощением новейших научно-технических достижений и задавали темп и тенденции развития остальных видов машин. Пока рост производительности суперЭВМ отвечает повышению трудности предстающих перед человеком заморочек. Но, можно увидеть, что современная теория развития вычислительных средств ориентирована, в главном, на количественное улучшение черт. процесс разработки в некой степени можно именовать “выжиманием” максимума из уже сделанного. Это предполагает, что современный шаг развития вычислительной техники уже вошел в состояние относительной стабильности, и каких-то высококачественных измененний в границах современной концепции чуть ли придется ждать. Разумеется, что за шагом стабильности, который может продлиться неопределенное время (но очевидно маленькое в масштабе повсевременно ускоряющегося темпа жизни), последует “смутный период”, когда уровень способностей суперЭВМ уже не сумеет идти в ногу с потребностями населения земли. Эта неувязка породит необходимость в переходе на отменно новейший уровень вычислительной техники.

Еще одним огромным вопросительным знаком в развитии суперЭВМ остается неувязка практического отсутствия довольно чётких и понятных стратегических направлений заслуги тривиальной цели – создание искусственной умственной системы, очень соответственной естественной, другими словами Человеку. Внося существенную неопределённость в саму стратегию развития суперЭВМ, эта неувязка порождает ситуацию, когда повсевременно расширяющаяся в крайнее время мозаика феноменальных научных достижений в области сотворения ЭВМ , лишённая чёткой связывающей системы взглядов на описание и моделирование умственных систем, не только лишь не уменьшает эту неопределённость, да и в ряде всевозможных случаев создаёт предпосылки к её повышению.

Потому весьма принципиальным шагом, который следует создать на данный момент, является конкретизация стратегии предстоящего развития суперЭВМ.


СПИСОК ИСТОЧНИКОВ

1. Информационно-аналитический центр по параллельным вычислениям

]]>