WWW.NAUKA.X-PDF.RU
БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА - Книги, издания, публикации
 


«CUDA АЛЬМАНАХ ® НОЯБРЬ 2015 СОДЕРЖАНИЕ НОВОСТИ NVIDIA CUDA NVIDIA CUDA теперь и Вконтакте! 3 Новые специализированные ускорители NVIDIA ускоряют алгоритмы машинного обучения для ...»

CUDA АЛЬМАНАХ

®

НОЯБРЬ 2015

СОДЕРЖАНИЕ

НОВОСТИ NVIDIA CUDA

NVIDIA CUDA теперь и Вконтакте! 3

Новые специализированные ускорители NVIDIA ускоряют алгоритмы

машинного обучения для дата-центров Интернет-компаний 3

Графические процессоры помогают в исследовании изменчивых

ретровирусов и связанных с ними заболеваний 5 Приложение VASP с ускорением на GPU улучшает процесс разработки во многих отраслях 7 TOP500 - новый всплеск использования ускорителей в ведущих суперкомпьютерах мира 8

ВЕБИНАРЫ НА АНГЛИЙСКОМ ЯЗЫКЕ 10

НАУЧНЫЕ РАБОТЫ С ИСПОЛЬЗОВАНИЕМ ВЫЧИСЛЕНИЙ НА CUDA 1

Решение задач глобальной оптимизации на гетерогенных кластерных системах // К.А. Баркалов, В.П. Гергель, И.Г. Лебедев, А.В. Сысоев 11 Сравнительный анализ и параллельная реализация для графических процессоров двух подходов полу-Лагранжевого метода для задачи адвекции // А.В. Вяткин, А.А. Ефремов, Е.Д. Карепова 12 Применение современных технологий для высокопроизводительных вычислительных систем для решения задач локальной и глобальной сейсмики // Н. И. Хохлов, И. Б. Петров 15

ПОЛЕЗНЫЕ РЕСУРСЫ ПО CUDA 17

ВАКАНСИИ CUDA 18 КОНТАКТЫ 20 CUDA АЛЬМАНАХ / НОЯБРЬ 2015 2

NVIDIA CUDA ТЕПЕРЬ И ВКОНТАКТЕ!

Присоединяйтесь к нашей группе вконтакте: www.vk.com/nvidiacuda

НОВОСТИ NVIDIA CUDA

НОВЫЕ СПЕЦИАЛИЗИРОВАННЫЕ УСКОРИТЕЛИ NVIDIA

УСКОРЯЮТ АЛГОРИТМЫ МАШИННОГО ОБУЧЕНИЯ ДЛЯ

ДАТА-ЦЕНТРОВ ИНТЕРНЕТ-КОМПАНИЙ

NVIDIA представила комплексную супермасштабируемую платформу для дата-центров, которая позволяет компаниям, занимающимся web-сервисами, ускорять анализ данных, связанных с алгоритмами машинного обучения.

Линейка специализированных ускорителей NVIDIA включает два решения. Одно позволяет исследователям быстрее продвигаться в своей работе, создавая новые сети глубокого обучения (deep learning) для каждого приложения, которое они хотят оснастить искусственным интеллектом. Вторым решением является экономичный ускоритель, предназначенный для развертывания таких сетей в дата-центрах. В состав представленных решений также входит набор GPU-ускоряемых библиотек.

Вместе они позволяют разработчикам использовать ускоренную вычислительную платформу Tesla для ускорения машинного обучения в гипермасштабируемых дата-центрах и создавать не имеющие аналогов приложения на базе искусственного интеллекта.

«Гонка за искусственный интеллект уже началась, - говорит Дженсен Хуанг (Jen-Hsun Huang), соучредитель и генеральный директор NVIDIA. – Сегодня машинное обучение, несомненно, является одной из важнейших областей развития вычислений, о чем бы ни шла речь – о ПК, интернете или облаках. Революционные изменения уже коснулись ряда облачных сервисов, автомобильной отрасли и здравоохранения».

«Машинное обучение – это одна из важнейших вычислительных задач, стоящая перед нашим поколением. Мы создали линейку специализированных ускорителей Tesla, чтобы придать машинному обучению десятикратное ускорение. Экономия времени и затрат будет весомой», добавляет г-н Хуанг.

Новые программно-аппаратные продукты нацелены на поддержку новой волны вебприложений, которые стремятся обрасти возможностями искусственного интеллекта.

Достигнутые результаты в области машинного обучения позволяют с помощью искусственного интеллекта сделать приложения и сервисы умнее.

Машинное обучение применяют, чтобы сделать более точным распознавание звучащей речи. Оно позволяет добавлять метки при распознавании объектов и сцен в видеозаписях и фотографиях для дальнейшего поиска. Оно позволяет распознавать лица при неотчетливом изображении. Оно также лежит в основе сервисов, которые могут составлять расписания и подбирать новости с учетом индивидуальных вкусов и интересов, а также точно реагировать на голосовые команды, сделанные в разговорной манере.

CUDA АЛЬМАНАХ / НОЯБРЬ 2015 3 Все это - машинное обучение. Сегодня основная трудность для компаний, предоставляющих web-сервисы, заключается в том, чтобы обеспечить огромную вычислительную мощь, необходимую для развития и обучения растущего числа глубоких нейронных сетей, а также для обработки данных, чтобы мгновенно реагировать на миллиарды запросов пользователей данных сервисов. Линейка специализированных ускорителей NVIDIA создана специально, чтобы ускорить этот процесс и значительно повысить пропускную способность дата-центров.

Новые решения в рамках семейства NVIDIA Tesla включают:

NVIDIA® Tesla® M40 GPU – самый мощный ускоритель, созданный для обучения глубоких нейронных сетей;

NVIDIA Tesla M4 GPU – экономичный компактный ускоритель, предназначенный для систем машинного обучения и обработки потокового видео и фотоизображений;

NVIDIA Hyperscale Suite – набор программных инструментов, оптимизированный для машинного обучения и обработки видеоданных.

Графический ускоритель NVIDIA Tesla M40 Специализированный ускоритель NVIDIA Tesla M40 призван сэкономить дни и даже недели при обучении глубоких нейронных сетей и работе с огромными объемами данных. Ключевые особенности:

•оптимизация для машинного обучения – время на обучение меньше до 8 раз по сравнению с системами на базе CPU (1.2 дня против 10 дней при стандартном обучении AlexNet);

•надежность 24/7 – проведены испытания на высокую стабильность работы в дата-центрах;

•масштабируемость – транскодирует, улучшает и анализирует в пять раз больше видеопотоков одновременно по сравнению с CPU;

Графический ускоритель NVIDIA Tesla M4 NVIDIA Tesla M4 – это экономичный ускоритель, предназначенный для гипермасштабируемых окружений и оптимизированный для требовательных быстрорастущих приложений вебсервисов, включая транскодирование видео, обработку видео и изображений, применение машинного обучения. Ключевые особенности:

•повышенная пропускная способность – кодирует, улучшает и анализирует в пять раз больше видеопотоков одновременно по сравнению с CPU;

•низкое энергопотребление – обладая нескольким режимами питания, Tesla M4 потребляет 50-75 Вт и является до 10 раз экономичнее, чем CPU, при обработке видео и работе с алгоритмами машинного обучения;

•малый форм-фактор – экономичное компактное PCIe решение, подходящее для систем, CUDA АЛЬМАНАХ / НОЯБРЬ 2015 4 Пакет NVIDIA Hyperscale

Пакет NVIDIA Hyperscale включает инструменты для разработчиков и администраторов датацентров, предназначенные для веб-сервисов, включая следующие:

•cuDNN – самый популярный в индустрии алгоритм для обработки глубоких сверточных нейронных сетей в приложениях, использующих искусственный интеллект;

•GPU-ускоряемое мультимедийное ПО FFmpeg – широко используемое программное обеспечение FFmpeg для ускорения транскодирования и обработки видео;

•NVIDIA GPU REST Engine – позволяет легко и быстро создавать и развертывать ускоренные веб-сервисы высокой пропускной способности и низкой латентности, включающие изменение размеров изображений, ускорение поиска, классификацию изображений и др.;

•NVIDIA Image Compute Engine – GPU-ускоряемый сервис с API REST, который позволяет изменять размер изображения в 5 раз быстрее, чем CPU.

Поддержка Mesosphere Mesosphere уже объявила о сотрудничестве с NVIDIA и добавлении поддержки GPU в Apache Mesos и операционную систему Mesosphere Datacenter (DCOS). Этот шаг позволит разработчикам веб-сервисов быстрее создавать и разворачивать ускоренные дата-центры для приложений нового поколения.

ГРАФИЧЕСКИЕ ПРОЦЕССОРЫ ПОМОГАЮТ

В ИССЛЕДОВАНИИ ИЗМЕНЧИВЫХ РЕТРОВИРУСОВ

И СВЯЗАННЫХ С НИМИ ЗАБОЛЕВАНИЙ

Джордж Миллингтон (George Millington) Мутации. Патогенные частицы. Инвазия клеток. Это не фильм про зомби. Это жизнь ретровируса.

Изменение формы вирусов - вот основная причина, почему они представляют собой серьезную опасность для здоровья человека. Вирусы проходят многоступенчатый процесс, прежде чем вызывают инфекции. Вот почему их анализ и лечение представляют такую сложную задачу. Так было до сегодняшнего дня.

–  –  –

CUDA АЛЬМАНАХ / НОЯБРЬ 2015 5 Когда вирус вырывается из зараженной клетки, он находится в незрелом состоянии и РНКгеном вируса покрыт белковой оболочкой. Исследователи изучают способы остановить распространение вируса, заблокировав вирусные частицы в этом неинфекционном состоянии, прежде чем они начнут развиваться и созревать.

«Мы занимаемся тем, что ищем пути эффективного разрушения жизненного цикла вируса до того момента, как он станет патогенным», - рассказал Хуан Перилья (Juan Perilla), исследователь, работающий над этим проектом.

Атомарная модель незрелого ретровируса была воссоздана путем размещения отдельных субъединиц вируса на карте электронной плотности, полученной путем криоэлектронной микроскопии.

До недавнего времени очень маленькая и нестабильная форма вирусных частиц затрудняла исследования их атомной структуры.

«Мы отчетливо видим, когда ретровирус незрелый. Прежде чем стать патогенным, он переходит в совершенно определенное состояние, - сообщил Перилья. - Но добраться до его атомной структуры очень непросто».

Симуляции со скоростью супервычислений Когда вирус созревает, он проходит через определенный процесс, называемый обратной транскрипцией, который перегруппировывает вирусные белки и запускает процесс образования ДНК на основании информации в РНК. Затем вирусная ДНК внедряется в геном клетки-хозяина. Зараженная клетка будет синтезировать копии незрелого вируса в кровоток.

Новые вирусные частицы также, в свою очередь, должны созреть, прежде чем смогут заражать другие клетки.

Во время этого процесса происходят мутации, которые еще больше осложняют лечение ретровируса. Отличной моделью для изучения является структура вируса саркомы Рауса, или ВСР, заражению которым подвержены птицы. Получить изображения вируса в незрелой стадии в высоком разрешении было очень непросто.

CUDA АЛЬМАНАХ / НОЯБРЬ 2015 6 Для этого группа исследователей запустила процесс моделирования на самых быстрых суперкомпьютерах на базе GPU в мире, включая Titan в Национальной лаборатории Ок-Ридж и Blue Waters в Национальном Центре Суперкомпьютерных Приложений университета штата Иллинойс.

«Используя GPU, мы добились двукратного ускорения, то есть в два раза увеличили скорость вычислений, - сказал Бун Чонг Го (Boon Chong Goh), физик-аспирант, работающий над проектом. - Мы добились результата за один месяц вместо двух».

Благодаря проведенным симуляциям, в начале этого года была получена первая атомарная модель структуры незрелого вируса саркомы Рауса. С января исследователи занимаются изучением незрелого вируса иммунодефицита человека на суперкомпьютере Blue Waters.

ПРИЛОЖЕНИЕ VASP С УСКОРЕНИЕМ НА GPU

УЛУЧШАЕТ ПРОЦЕСС РАЗРАБОТКИ ВО МНОГИХ

ОТРАСЛЯХ

Марк Бергер (Mark Berger) Солнечная энергия. Проектирование полупроводников. Электромобили.

Исследователям, работающим в подобных областях, часто приходится изучать поведение материалов на атомном уровне, что требует сложного компьютерного моделирования.

Одним из самых популярных приложений для подобных симуляций является VASP, которое моделирует поведение и взаимодействие сотен отдельных атомов на электронном уровне.

На компьютере на базе CPU этот процесс может занимать много часов, дней и даже недель.

Ошибка в вычислениях или необходимость внести изменения приводит к еще большим потерям и без того ценного времени.

Ускорение VASP от 2,5 до 4-х раз Теперь, благодаря ускоренной вычислительной платформе Tesla, исследователи получают возможность выполнять симуляции от 2,5 до 4-х раз быстрее. Ученые быстрее получают необходимую информацию для решения самых сложных проблем.

Приложение VASP - сокращенно от Vienna Ab Initio Simulation Program – на атомном уровне моделирует любые объекты, начиная от электроники, катализаторов и магнетиков и заканчивая стеклом, резиной, металлом, керамикой и другими материалами.

CUDA АЛЬМАНАХ / НОЯБРЬ 2015 7 Больше скорость - больше достижений Для ускорения вычислений создатели кода VASP из Венского университета сотрудничали с другими университетами и на данный момент готовятся выпустить новую версию VASP, v 5.4.1, с поддержкой графических ускорителей.

Ключевые алгоритмы новой версии VASP с поддержкой GPU на графических ускорителях Tesla K80 получают ускорение от 2,5 до 4-х раз по сравнению с системами на базе CPU. Это новый мощный инструмент для исследователей, который поможет им ускорить работу.

TOP500 - НОВЫЙ ВСПЛЕСК ИСПОЛЬЗОВАНИЯ

УСКОРИТЕЛЕЙ В ВЕДУЩИХ СУПЕРКОМПЬЮТЕРАХ

МИРА

Особенности списка TOP500:

• Треть совокупной производительности всех систем списка теперь ускоряется графическими процессорами

• GPU NVIDIA Tesla установлены в 23 из 24 новых ускоренных суперкомпьютеров

• Последние пять лет число суперкомпьютеров на базе Tesla ежегодно растет на 48% Опубликованный список самых мощных суперкомпьютеров мира TOP500 в полной мере отражает трансформацию индустрии HPC, произошедшую в результате появления специализированных ускорителей.

Впервые свыше 100 ускоренных систем из списка 500 самых мощных суперкомпьютеров мира показывают суммарную производительность в 143 петафлопс – треть от совокупной производительности всех систем списка. И 70 их них – это суперкомпьютеры на базе графических процессоров NVIDIA® Tesla®, включая 23 из 24 новых систем. Примечательно, что последние пять лет количество суперкомпьютеров на базе Tesla ежегодно растет почти на 50%.

Можно выделить три основные причины, по которым ускорители находят широкое применение в системах высокопроизводительных вычислений.

Во-первых, Закон Мура продолжает замедляться, вынуждая индустрию искать новые пути более эффективного обеспечения вычислительной мощности. Во-вторых, сотни приложений, включая многие индустриальные стандарты, получили ускорение на GPU. В-третьих, даже самые скромные инвестиции в ускорители могут значительно увеличить пропускную способность вычислительных центров, обеспечивая максимальную эффективность суперкомпьютерных систем и гипермасштабируемых дата-центров.

«Я верю, что в один прекрасный день GPU-ускорение будет доступно у всех суперкомпьютеров мира, - говорит Дженсен Хуанг (Jen-Hsun Huang), соучредитель и генеральный директор NVIDIA. – К GPU-ускоряемым вычислениям уже обратились ведущие суперкомпьютерные центры мира, что нашло отражение в актуальной версии списка TOP500. Учитывая, что темп научных открытий растет и ученые все чаще обращаются к вычислениям, машинному обучению и визуализации, в будущем эта тенденция только усилится».

Ускорители NVIDIA Tesla применяются во многих суперкомпьютерах мира, включая самые мощные системы в ряде стран и регионов. Среди них: TITAN в Окриджской Национальной Лаборатории - самая мощная система США; суперкомпьютер «Ломоносов 2» в Московском Государственном Университете - самая мощная система России; Piz Daint в Швейцарском Национальном Вычислительном Центре – самая мощная система Европы.

CUDA АЛЬМАНАХ / НОЯБРЬ 2015 8 Замедление Закона Мура По мере приближения размеров транзисторов к атомарным, становится все сложнее повышать производительность микросхем, оставаясь в рамках текущих ограничений по цене и потребляемой мощности. Производительность решений каждые 18 месяцев больше не удваивается, при этом вычислительные потребности пользователей продолжают активно расти. Эти факторы привели к усилению спроса на специализированные графические ускорители, которые работают в тандеме с CPU, повышая производительность научных и технических приложений.

Сотни HPC-приложений поддерживают GPU-ускорители Платформа Tesla доступна для ускорения вычислений с 2008 года. На сегодняшний день доступно 370 GPU-ускоренных приложений, среди которых популярные научные, инженерные, аналитические и другие пакеты.

Новейшее исследование компании Intersect360 Research показало, что почти 70% из 50 самых популярных HPC-приложений – и 90% из топ-10 – поддерживают GPU-ускоренные вычисления.

Среди них – приложение по вычислительной гидродинамике ANSYS Fluent; приложение по молекулярной динамике GROMACS; а также, сегодняшний анонс, VASP, пакет, который применяют ученые по всему миру для моделирования поведения отдельных атомов на электронном уровне.

Эддисон Снелл (Addison Snell), один из авторов исследования, генеральный директор Intersect360 Research, отмечает: «Ландшафт индустрии HPC сегодня серьезно изменился, и произошло это благодаря графическим процессорам NVIDIA Tesla. Применение ускорителей и число GPU-ускоренных версий ведущих HPC кодов неуклонно растет».

Повышенная пропускная способность дата-центров благодаря GPU

Супервычислительные машины и гипермасшастабируемые дата-центры могут стоить сотни миллионов долларов. Ранее, при стабильно работающем Законе Мура, чтобы отвечать растущим запросам пользователей, было достаточно регулярно модернизировать системы за счет установки новых CPU. Теперь это стало невозможно. С приходом GPU-ускоренных вычислений модернизировать дата-центры становится возможным, добавляя ускорители NVIDIA Tesla, которые и обеспечивает требуемый прирост пропускной способности вычислительных систем.

–  –  –

Free OpenACC Course Real time, Low Latency Feature Tracking with ArrayFire More Science, Less Programming with OpenACC Deep Learning Courses CUDA АЛЬМАНАХ / НОЯБРЬ 2015 10

НАУЧНЫЕ РАБОТЫ С ИСПОЛЬЗОВАНИЕМ

ВЫЧИСЛЕНИЙ НА CUDA

РЕШЕНИЕ ЗАДАЧ ГЛОБАЛЬНОЙ ОПТИМИЗАЦИИ НА ГЕТЕРОГЕННЫХ

КЛАСТЕРНЫХ СИСТЕМАХ

К.А. Баркалов, В.П. Гергель, И.Г. Лебедев, А.В. Сысоев Подробнее Задача многомерной многоэкстремальной оптимизации может быть определена как проблема поиска наименьшего значения действительной функции (y) (1) где a,bЄRN есть заданные векторы.

Численное решение задачи (1) сводится к построению оценки y*k ЄD, отвечающей некоторому понятию близости к точке y* (например, || y*-y* ||, где 0 есть заданная точность) на основе конечного числа k вычислений значений оптимизируемой функции. Относительно класса рассматриваемых задач предполагается выполнение двух важных условий.

Во-первых, предполагается, что оптимизируемая функция (y) может быть задана не аналитически, а некоторым алгоритмом вычисления ее значений в точках области D; при этом испытание (вычисление одного значения) является вычислительно-трудоемкой операцией.

Во-вторых, будем предполагать, что (y) удовлетворяет условию Липшица (2) что соответствует ограниченности изменения значений функции при ограниченной вариации аргумента. Это предположение можно интерпретировать (применительно к прикладным задачам) как отражение ограниченности мощностей, порождающих изменения в моделируемой системе.

Задачи многоэкстремальной оптимизации имеют существенно более высокую трудоемкость решения по сравнению с другими типами оптимизационных задач, т.к. глобальный оптимум является интегральной характеристикой решаемой задачи и требует исследования всей области поиска. Как результат, поиск глобального оптимума сводится к построению некоторого покрытия (сетки) в области параметров, и выборе наилучшего значения функции на данной сетке.

Вычислительные затраты на решение задачи растут экспоненциально с ростом размерности (так называемое «проклятие размерности»).

Снижение объема вычислений может быть достигнуто при построении неравномерного покрытия области поиска: сетка должна быть достаточно плотной в окрестности глобального оптимума и более редкой вдали от искомого решения. Построение такого рода покрытий обеспечивается при повышении сложности самих численных методов глобального поиска.

Применение неравномерных покрытий позволяет повысить размерность решаемых задач глобальной оптимизации в 2-3 раза, что является критичным в приложениях. Получаемые оценки размерности (20-30) позволяют охватить

–  –  –

Рассмотрим теперь основные способы распараллеливания вычислений, которые могут быть применены при решении задач глобальной оптимизации.

Во-первых, можно организовать разделение области решения между процессорами и параллельно решать подзадачи в этих подобластях. Однако такой подход обладает низкой эффективностью, поскольку при разделении области поиска только небольшая часть процессоров (в худшем случае

– только один из них) будет решать задачу в подобласти с искомым глобальным минимумом;

остальные процессоры будут работать в подобластях, в которых отсутствует решение исходной задачи.

Во-вторых, можно распараллеливать вычисление целевой функции, описывающей оптимизируемый объект. Данный путь может давать ускорение, но является специфичным для каждой конкретной решаемой задачи.

В-третьих, можно распараллелить реализацию вычислительных правил алгоритма, обеспечивающих выбор точки проведения очередного испытания. В этом случае способ распараллеливания будет зависеть от конкретного класса алгоритмов и, кроме того, часто эти правила достаточно просты и распараллеливать их нецелесообразно (накладные расходы на организацию параллелизма могут свести к нулю возможное ускорение).

Наконец, можно изменить схему алгоритма с целью параллельного выполнения нескольких испытаний (именно этот подход и будет рассматриваться в данной работе). Он является наиболее перспективным, т.к. характеризуется эффективностью (распараллеливается именно та часть вычислительного процесса, в котором выполняется основной объем вычислений) и общностью (применим для широкого класса характеристических алгоритмов многоэкстремальной оптимизации). Одновременно данный подход позволяет эффективно задействовать гетерогенные вычислительные ресурсы современных суперкомпьютеров (ядра на центральном процессоре, графические ускорители, математические сопроцессоры). Вычислительные эксперименты проводились на суперкомпьютере «Лобачевский», использовался компилятор Intel C++ 14.0.2 и CUDA Toolkit 6.0.

–  –  –

А.В. Вяткин1,2, А.А. Ефремов1, Е.Д. Карепова1,2 Институт вычислительного моделирования СО РАН 1 Российская федерация, Красноярск, 660036, Академгородок, дом. 50, стр. 44 Ключевые слова: уравнение адвекции, полу-лагранжевый метод, NVIDIA CUDA, OpenMP, HPC

–  –  –

Алгоритм 1 (для GPU) 1 Выделить память для хранения результатов на CPU и GPU. Скопировать начальные данные с CPU на GPU.

2. Для каждого временного слоя k=1,3,5,…,K-1:

2.1 Обновить значения на предыдущем временном слое tk-1 и текущем временном слое tk.

2.2 Вызвать вычислительное ядро CUDA.

2.3 Обновить значения предыдущего временного слоя tk-1 и текущего слоя tk.

2.4 Вызвать вычислительное ядро CUDA.

3. Скопировать результаты вычислений с GPU на CPU.

Шаги 3.1, 3.

3 алгоритма являются шагами интегрирования по пространству, описанными в [2]. Способ реализации интегрирования значительно влияет на общую производительность вычислений, связанную с архитектурой GPU [3].

1. Нехватка регистровой памяти. Ввиду большой вложенности вычислительных функций наблюдается нехватка быстрой регистровой памяти GPU, при этом часть данных принудительно сбрасывается в локальную, существенно более медленную, память устройства, что значительно увеличивает время чтения/записи данных.

2. Уменьшение количества активных потоков. Количество активных вычислительных потоков на GPU напрямую зависит от объема доступной регистровой и константной памяти. При использовании большого количества регистров неизбежно уменьшается количество активных потоков, что снижает количество параллельных операций в вычислительном ядре CUDA.

3. Ветвления. Наличие большого количества ветвлений в расчетом ядре отрицательно сказывается на производительности, поскольку в нашем случае ветвления не позволяют выровнять данные в памяти GPU.

После анализа проблем изменен подход к вычислению интеграла по пространству [4–5],

–  –  –

1. LeVeque R. Finite Volume Methods for Hyperbolic Problems (Cambridge Texts in Applied Math ematics). Cambridge: Cambridge univ. press, 2002, 580 p.

2. Efremov A., Karepova E., Shaydurov V., Vyatkin A. A Computational Realization of a SemiLagrangian Method for Solving the Advection Equation, Journal of Applied Mathematics, vol.

2014, 2014, 12 p. doi:10.1155/2014/610398

3. CUDA C Best Practices Guide, v6.0, last updated February 13, 2014. http://docs.nvidia.com/ cuda/cuda-c-best-practices-guide/index.html#abstract

4. Shaydurov V., Vyatkin A. The Semi-Lagrangian Algorithm Based on an Integral Transformation // AIP Conference Proceedings. 2015. Vol. 1648. Article ID 850041. doi: 10.1063/1.4913096.

5. Vyatkin A.V., Shaydurov V.V. Integral semi-Lagrangian approach for two-dimensional continuity equation // Международная конференция: математические и информационные технологии, MIT-2013; University of Pristina, 2014. С. 739-745.

–  –  –

Н. И. Хохлов, И. Б. Петров Московский физико-технический институт (государственный университет) Лаборатория прикладной вычислительной геофизики Подробнее В данной работе рассмотрены вопросы распараллеливания программного комплекса, предназначенного для моделирования задач распространения динамических волновых возмущений в твердых телах, с применением различных современных технологий для высокопроизводительных вычислительных систем. Программный комплекс поддерживает двумерные и трехмерные структурные блочные сетки, явное задание неоднородностей и явное выделение контактных границ. Для численного интегрирования реализованы сеточнохарактеристические и конечно-объемные методы повышенного порядка точности. Алгоритм распараллелен используя технологии MPI, CUDA, OpenMP и OpenCL.

Численное моделирование распространения динамических волновых возмущений в твердых телах применяется при решении широкого круга задач. К таким задачам относятся задачи сейсморазведки, сейсмики, сейсмостойкости и прочностные задачи. Роль численного моделирования в каждой из данных областей очень важна. Численное моделирования распространения сейсмических волн представляет существенную часть работ при проведении геологоразведки в нефтяной отрасли. Математическое моделирование проводится в различных геологических средах, в том числе в слоистых средах и в средах с наличием неоднородностей (например, трещины или каверны). Задачи такого рода представляются очень ресурсоёмкими с точки зрения вычислительных ресурсов. Область вычисления, как правило, представляет собой сейсмический куб с длинной ребра от 1 км до 10 км. В тоже время, неоднородности могут быть размером в несколько метров. При моделировании задач сейсмостойкости также приходится сталкиваться с множеством неоднородностей. Параметры зданий, такие как толщина стен, размеры проемов намного меньше размеров расчетных областей, включающих в себя порой большие массивы породы, размерами более 10 км вдоль одного направления.

Таким образом, расчетная сетка должна быть достаточно подробной, чтобы иметь возможность правильно выделить все неоднородности. Для получения достаточной точности расчета и учета большого числа неоднородностей требуется использование больших вычислительных сеток, в реальных расчетах используются сетки размерами до нескольких десятков миллиардов узлов.

Авторами ведется разработка программного комплекса для моделирования задач распространения динамических волновых возмущений в твердых телах.

Комплекс работает на двумерных и трехмерных структурных блочных сетках с наличием неоднородностей. Для численного интегрирования применяются сеточно-характеристические и конечно-объемные методы 2-4 порядка точности. Код распараллелен используя различные современные технологии для высокопроизводительных вычислительных систем. В настоящее время достигнута эффективность распараллеливания до 70 %, используя технологию MPI при масштабировании до 16 тысяч вычислительных ядер. В системах с общей памятью алгоритм распараллелен используя технологию OpenMP. Также код распараллелен используя технологию CUDA, что дает ускорение до 50 раз по сравнению с одним ядром CPU.

–  –  –

Алгоритм может использовать несколько карточек в рамках одного узла. Для графических процессоров отличных от семейства карточек NVidia, код распараллелен используя технологию OpenCL.

Использование графических ускорителей дало существенное ускорение работы алгоритма, по сравнению с CPU версией. Так применение данной технологии позволило получить ускорение до 44 раз по сравнению с одним ядром CPU Intel Xeon E5-2697. Использование нескольких устройств GPU позволяет получить дополнительное ускорение. Помимо технологии CUDA алгоритм также был распараллелен используя технологию OpenCL, что позволило использовать для ускорения расчетов графические ускорители от AMD. Результат ускорения по сравнению с одним ядром CPU приведен на рис. 1. Результат ускорения работы на нескольких GPU устройствах приведен на рис. 2.

Рис. 2. Ускорение на нескольких графических устройствах

Применение технологии CUDA и использование графических ускорителей от nVidia позволяет существенно ускорить работу рассматриваемого алгоритма. В дальнейшем планируется доработать расчетный алгоритм с целью использования гибридного параллелизма GPU+MPI.

–  –  –

Новый каталог с 370 приложениями, ускоряемыми на GPU можно скачать по ссылке.

Материалы GPU Technology Conference 2015 доступны по ссылке Форум Разработчиков NVIDIA присоединяйтесь к Форуму CUDA-разработчиков, делитесь своим опытом и узнавайте много нового. http://devtalk.nvidia.com/ Документация по CUDA Со списком документации по CUDA можно ознакомиться здесь.

Обучение онлайн Udacity | Coursera | Курс на русском языке Библиотеки с поддержкой GPU ускорения Список библиотек с поддержкой GPU ускорения от NVIDIA и партнеров.

GPU Тест-Драйв Хотите бесплатно протестировать Tesla? Зарегистрируйтесь здесь.

Ускоряйте научные приложения с OpenACC Протестируйте компилятор PGI OpenACC бесплатно в течение месяца. Подробнее.

Книги, посвященные CUDA и вычислениям на GPU Со списком книг, посвященных CUDA и вычислениям на GPU, можно ознакомиться здесь.

Скачайте CUDA http://developer.nvidia.com/cuda-downloads Nsight http://www.nvidia.com/object/nsight.html Страница NVIDIA в vk.com https://vk.com/nvidia

–  –  –

РобоСиВи Москва Обязанности

Проведение исследований и разработка алгоритмов в следующих областях:

•технического зрения;

•3D-реконструкции по изображениям;

•анализа сцен и распознавания объектов;

•обработки изображений;

•выделение признаков на изображении;

•оптимизация алгоритмов;

•статистическая обработка данных;

•моделирование робототехнических систем;

•анализ устойчивости нелинейных систем.

Видение идеального кандидата:

•Высшее техническое образование, желательно наличие ученой степени;

•Хорошая математическая подготовка;

•Опыт разработки в одной или нескольких областях из списка приведенного в обязанностях (не менее 3 лет);

•Опыт разработки на С/С++;

•Опыт использования – Matlab, Octave, Python, Mathematica и др.

Желательно:

•Опыт использования библиотек OpenCV, PCL;

•Опыт работы с GPU и CUDA/OpenCL;

•Участие в разработке робототехнических систем или сложных приборов/устройств;

•Научные публикации;

•Разговорный английский;

РобоСиВи готовы предложить:

•Конкурентная белая заработная плата в зависимости от опыта работы, полное соблюдение ТК РФ;

•Работа в команде талантливых и амбициозных российских инженеров и исследователей;

•Место работы: метро Нагорная (10 мин пешком);

•Круглосуточная парковка на охраняемой территории.

Подробнее

–  –  –

Москва Международная компания Megaputer Intelligence, один из мировых лидеров в разработке систем data/text mining, в связи расширением, ищет талантливых математиковпрограммистов для работы над дальнейшим развитием своих продуктов.

Требования Обязательные требования

•Опыт работы на C++ с использованием STL

•Высшее профильное образование

•Хорошая математическая и алгоритмическая подготовка

•Технический английский (не ниже intermediate)

•Умение работать в команде

•Умение разбираться в чужом коде Приветствуется

• Практические знания основных методов Data Mining, теории вероятности и математической статистики

•Владение технологией CUDA

Обязанности:

•Непосредственное участие на всех этапах проектирования и разработки: формализация задачи, создание алгоритма, реализация решения

•Составление технической документации

•Ведение переписки с англоговорящими клиентами на всех этапах решения задачи

•Поддержание жизненного цикла и оптимизация разработанных решений Предлагаемые условия

•Достойный фиксированный оклад (полностью официальный, от 100,000 Net)

•Периодическая индексация оклада, исходя из ситуации на рынке труда

•Полное соблюдение ТК РФ, испытательный срок 3 месяца (полный оклад)

•Стабильная и интересная работа

•Реальная возможность профессионального роста и карьерные перспективы

•Дружный коллектив единомышленников и демократичная обстановка

•Гибкий график работы

•Удобный офис в 5-10 мин от метро Бауманская или Красносельская Подробнее

–  –  –



 

Похожие работы:

«ОТЧЕТ о результатах контрольного мероприятия «Проверка отдельных вопросов финансово-хозяйственной деятельности муниципального бюджетного учреждения «Специализированное монтажноэксплуатационное предприятие г. Курска» (утвержден председателем Контрольно-счетной палаты города Курска 3 июля 2015 года) 1. Основание для проведения контрольного мероприятия: пункт 1.6. Плана работы Контрольно-счетной палаты города Курска на 2015 год, утвержденного постановлением Контрольно-счетной палаты города Курска...»

«УТВЕРЖДЕН Общим собранием акционеров ОАО «Туполев» «03» июня 2013 г. протокол № 25 от «06» июня 2013 г. ПРЕДВАРИТЕЛЬНО УТВЕРЖДЕН Советом директоров ОАО «Туполев» «24» апреля 2013 г. протокол № 71 от «26» апреля 2013 г.ОТКРЫТОЕ АКЦИОНЕРНОЕ ОБЩЕСТВО «ТУПОЛЕВ» ГОДОВОЙ ОТЧЕТ за 2012 год Президент А.П. Бобрышев (подпись) Главный бухгалтер Т.Н. Ермолина (подпись) г. Москва 2013 год Оглавление Оглавление 1. Общие сведения об Обществе 2. Состав органов управления 3. Положение Общества в отрасли 4....»

«Сравнительный анализ космической деятельности России, Китая и Индии А.Крылов, эксперт По плодам их узнаете их. Матфей 7:16 Введение. А.Общая характеристика космической деятельности России, США, Китая и Индии Как известно, под космической деятельностью понимается любая деятельность, связанная с непосредственным проведением работ по исследованию и использованию космического пространства, включая Луну и другие небесные тела [1]. В настоящее время активной космической деятельностью занимается свыше...»

«Формирование познавательных универсальных учебных действий при изучении приставки на уроках русского языка в начальной школе. Гребнева Галина Николаевна, учитель начальных классов МБОУ СОШ №7 г. Дубны Согласно стандартам второго поколения очень важно развивать у младших школьников умение учиться, т. е. формировать универсальные учебные действия. Сегодня начальное образование призвано решать свою главную задачу: закладывать основу формирования учебной деятельности ребёнка – систему учебных и...»

«Федеральное государственное бюджетное  образовательное учреждение высшего  профессионального образования  «Челябинский государственный университет»    Библиотека  Информационный бюллетень  новых поступлений  2015            № 9 (190)  «Информационный бюллетень новых поступлений»  выходит с 1997 г.          Периодичность:  в 1997 г. – 4 номера в год  с 1998 г. – 10 номеров в год  с 2003 г. – 12 номеров в год  с 2007 г. – только в электронном варианте и размещается на сайте ...»

«КАЗАХСТАНСКИЙ РЫНОК КЕРАМИЧЕСКОЙ ПЛИТКИ И КЕРАМОГРАНИТА Аналитический обзор (ознакомительная версия) Данный отчет и мнения, содержащиеся в настоящей публикации, были подготовлены АО «Инвестиционный фонд Казахстана» (далее АО «ИФК») исключительно в целях информации. Несмотря на то, что были приложены значительные усилия для подготовки данного аналитического материала, АО «ИФК» не дает гарантий относительно полноты и точности приведенной информации. Данные, представленные в отчете, были получены...»

«Приказ Минобрнауки России от 15.05.2014 N Об утверждении федерального государственного образовательного стандарта среднего профессионального образования по специальности 38.02.04 Коммерция (по отраслям) (Зарегистрировано в Минюсте России 25.06.2014 N 32855) Документ предоставлен КонсультантПлюс www.consultant.ru Дата сохранения: 11.10.2015 Приказ Минобрнауки России от 15.05.2014 N 539 Документ предоставлен КонсультантПлюс Об утверждении федерального государственного образовательного Дата...»

«Russian Journal of Biological Research, 2014, Vol. (2), № 2 Copyright © 2014 by Academic Publishing House Researcher Published in the Russian Federation Russian Journal of Biological Research Has been issued since 2014. ISSN: 2409-4536 Vol. 2, No. 2, pp. 81-92, 2014 DOI: 10.13187/ejbr.2014.2.81 www.ejournal23.com UDC 630.181.351; 330.15; 502.4 The Dynamics of Herbage on the Areas of Logging in Formation of Rock Oak on the Black Sea Coast of Caucasus Nikolay A. Bityukov Sochi National Park,...»

«УПРАВЛЕНИЕ ПО ТАРИФНОМУ РЕГУЛИРОВАНИЮ Мурманской области ПРОТОКОЛ ЗАСЕДАНИЯ КОЛЛЕГИИ г. Мурманск 17.12.2014 УТВЕРЖДАЮ И.о.начальника Управления по тарифному регулированию Мурманской области В.А. Губинский 17 декабря 2014 г. Председатель заседания: ГУБИНСКИЙ И.о. начальника Управления На заседании присутствовали: Члены коллегии: СТУКОВА Е.С. Начальник отдела Управления ШИЛОВА А.Б. Начальник отдела Управления НЕЧАЕВА В.И. Начальник отдела Управления Сотрудники Управления Скиданов Д.Б. Начальник...»

«УТВЕРЖДЕН Приказом Министерства природных ресурсов Свердловской области от 31 декабря 2008 г. № 1750 ЛЕСОХОЗЯЙСТВЕННЫЙ РЕГЛАМЕНТ СИНЯЧИХИНСКОГО ЛЕСНИЧЕСТВА СВЕРДЛОВСКОЙ ОБЛАСТИ С ИЗМЕНЕНИЯМИ И ДОПОЛНЕНИЯМИ УТВЕРЖДЕННЫМИ ПРИКАЗАМИ МИНИСТЕРСТВА ПРИРОДНЫХ РЕСУРСОВ СВЕРДЛОВСКОЙ ОБЛАСТИ от 08.07.2010 г. № 1475, от 13.11.2010 г. № 2466 и ПРИКАЗАМИ ДЕПАРТАМЕНТА ЛЕСНОГО ХОЗЯЙСТВА СВЕРДЛОВСКОЙ ОБЛАСТИ от 28.12.2012 г. № 1724, от 30.12.2013 г. № 1916, от 28.01.2015 г. № 93, от 14.07.2015 г. № 1060, от...»

«ОАО «ТРК» Утвержден Общим собранием акционеров ОАО «ТРК» Протокол № _ от «_» 2015 г. Проект предварительно утвержден решением Совета директоров ОАО «ТРК» Протокол № 15 от «25» мая 2015 г. ГОДОВОЙОТЧЕТ Открытого акционерного общества «Томская распределительная компания» по результатам 2014 финансового года Генеральный директор ООО «ЭДФ Сети Восток» (управляющая организация ОАО «ТРК») Э.П. Божан Заместитель генерального директора по финансам – главный бухгалтер ОАО «ТРК» И.Н. Разманова г. Томск,...»

«Resources and Technology 11 (2): 127-151, 2014 ISSN 2307-0048 http://rt.petrsu.ru УДК 630.90 DOI: 10.15393/j2.art.2014.292 Обзор Промышленное использование категорий защитности – один из путей к устойчивому развитию локальных территорий Григорий Е. Романов1,* Петрозаводский государственный университет, пр. Ленина, 33, 185910 Петрозаводск, Россия E-Mails; romanov@psu.karelia.ru (Г.Е.Р.) * Автор, с которым следует вести переписку; E-Mail: romanov@psu.karelia.ru (Г.Е.Р.); Тел.: +7(814-2) 560753;...»

«1. Цели освоения дисциплины. В соответствии с ФГОСом целями освоения дисциплины «Материаловедение» являются приобретение студентами знаний об основных материалах, применяемых при производстве и эксплуатации транспортной техники, методах формирования необходимых свойств и рационального выбора материалов для деталей транспортных машин.Задачами курса «Материаловедение» являются: Приобретение знаний о структуре, свойствах и областях применения металлических и неметаллических материалов;...»

«Выпуск 5 (24), сентябрь – октябрь 201 Интернет-журнал «НАУКОВЕДЕНИЕ» publishing@naukovedenie.ru http://naukovedenie.ru УДК 3 Феоктистова Олеся Александровна Научно-исследовательский финансовый институт Россия, Москва1 Старший научный сотрудник feoktistova@nifi.ru Результаты труда научных работников: инструменты государственного стимулирования качества Аннотация. Повышение конкурентоспособности российской науки непосредственно связывается с задачей оценки уровня результатов научных исследований,...»

«ВЫПУСК 6 МИНИСТЕРСТВО ГЕОЛОГИИ СССР УПРАВЛЕНИЕ ГЕОЛОГИИ СОВЕТА МИНИСТРОВ ТУРКМЕНСКОЙ ССР ГЕОЛОГИЯ И ПОЛЕЗНЫЕ ИСКОПАЕМЫЕ ТУРКМЕНИИ ГР ды У УПРАВЛЕНИЯ ГЕОЛОГИИ СОВЕТА МИНИСТРОВ ТУР КМ ЕП С К О П ССР ВЫПУСК 6 ИЗДАТЕЛЬСТВО «ЫЛЫМ, АШХАБАД.ШЙ9 РЕДКОЛЛЕГИ Я М. К. Мирзаханов (редактор), Ф. А. Арест, В. Т. Воловик (зам. ре цактора), К. Н. Иомудский, Г. Н. Калмыков, Г. К. Литвин, Е. С. Пар никель, М. И. Раевский, М. М. Фартуков (зам. редактора). П Р ЕД ИСЛ О ВИ Е Управление геологии Совета Министров...»

«МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования учебной, научной, методической литературы и электронных изданий в ФГБОУ ВПО «АГАО»1. Общие положения 1.1. Инструкция устанавливает порядок формирования плана и рассмотрения рукописей учебной, научной, методической литературы и электронных изданий в редакционно-издательском отделе вуза. 2. Н орм ативны е ссы лки 2.1. Федеральный закон РФ «Об...»

«Государственное бюджетное Первый выпуск Общеобразовательное учреждение Октябрь 2015 года №25Петроградского района Санкт-Петербурга Большая Перемена В ЭТОМ ВЫПУСКЕ Тема номера Как здорово учиться в школе..1 информационный бюллетень Классные новости.2 Столик времен года ТЕМА НОМЕРА: ЗДРАВСТВУЙ ШКОЛА! ДО СВИДАНИЯ ЛЕТО! Адаптация ребенка к школе..4 Как один день пролетели каникулы. Пенистые волны, песчаные пляжи, лесные походы, Родительский клуб бабушкина деревня и беззаботная жизнь закончились...»

«ИНСТИТУТ СТРАН СНГ ИНСТИТУТ ДИАСПОРЫ И ИНТЕГРАЦИИ СТРАНЫ СНГ Русские и русскоязычные в новом зарубежье ИНФОРМАЦИОННО-АНАЛИТИЧЕСКИЙ БЮЛЛЕТЕНЬ № 1.06.200 Москва ИНФОРМАЦИОННО-АНАЛИТИЧЕСКИЙ БЮЛЛЕТЕНЬ «СТРАНЫ СНГ. РУССКИЕ И РУССКОЯЗЫЧНЫЕ В НОВОМ ЗАРУБЕЖЬЕ» Издается Институтом стран СНГ с 1 марта 2000 г. Периодичность 2 номера в месяц Издание зарегистрировано в Министерстве Российской Федерации по делам печати, телерадиовещания и средств массовых коммуникаций Свидетельство о регистрации ПИ № 77-7987...»

«ПЛЕНАРНЫЕ ДОКЛАДЫ УДК 630*221.0 О ПЕРСПЕКТИВАХ РАЗВИТИЯ ЛЕСНОГО КОМПЛЕКСА ДАЛЬНЕГО ВОСТОКА А.П. КОВАЛЕВ 680030 ХАБАРОВСК, ул. Волочаевская, 7 ФБУ «Дальневосточный научно-исследовательский институт лесного хозяйства» Приводится характеристика лесного фонда ДФО по показателям доступности для промышленной лесоэксплуатации. Определены основные факторы, способствующие прогрессивному истощению и ухудшению качества лесных ресурсов. Показаны пути выхода из сложившейся ситуации. Развитие и перспективы...»

«Министерство образования Иркутской области ОГАОУ ДПО «Институт развития образования Иркутской области» Новые горизонты открытого образования в контексте реализации ФЦПРО в 2014 году Итоговый сборник материалов о деятельности федеральной стажировочной площадки и базовых (опорных) площадок по реализации ФЦПРО 2011-2015 гг. по направлениям 1.8, 1.9. г. Иркутск, 2014 УДК 371.302 ББК 74.244.3 Князева Т.Б., Стекольникова М.О. Новые горизонты открытого образования в контексте реализации ФЦПРО в 2014...»








 
2016 www.nauka.x-pdf.ru - «Бесплатная электронная библиотека - Книги, издания, публикации»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.