Лаборатория обработки данных сверхбольшого объёма (Big Data Lab)

Программно-аппаратный комплекс обработки данных сверхбольшого объёма, создан в 2014 году, объединяющий специализированный программно-аппаратный комплекс хранения и аналитического анализа структурированных данных IBM Puredata for Analytics (Netezza) с объёмом дискового пространства не менее 96ТБайт (с учетом 4-х кратного сжатия и полной репликации данных) и Hadoop-кластер распределённого хранения и аналитической обработки неструктурированных данных (сервер управления IBM x3630 M4 (два процессора Intel Xeon Processor E5-2450v2; 96 Гбайт памяти; 2 диска по 600ГБ) и четыре сервера обработки данных IBM x3630 M4 (два процессора Intel Xeon Processor E5-2450v2; 96 Гбайт оперативной памяти; 8TB дисковой памяти).

Основная особенность хранилища данных IBM Puredata for Analytics (Netezza) – интеграция РСУБД и специализированного аналитического инструментария с аппаратными ускорителями запросов на основе FPGA, что обеспечивает на задачах аналитики ускорение от 10 до 100 раз по сравнению с традиционными СУБД.

Учебные курсы:

«Интеллектуальный анализ данных» для магистров по направлению 010400.68 – Прикладная математика и информатика.
«Методы и технологии обработки сверхбольшого объёма данных (больших данных)» в рамках образовательной программы дополнительного профессионального образования (повышения квалификации).
«Принятие управленческих решений с использованием технологий BIG DATA: новые возможности и перспективы в государственном и муниципальном управлении» в рамках Программы дополнительного профессионального образования для заместителей руководителей органов государственной власти Самарской области.

Лабораторные практикумы:

Основы работы с большими данными в среде Hadoop на платформе IBM InfoSphere BigInsights.
Введение в инструмент анализа больших данных BigSheets.
Обработка структурированных данных в среде Hadoop с использованием Big SQL.
Обработка больших данных с использованием Hive.
Введение в базовые операции Apache Spark.

Опыт исследований:

анализ логов и регистрируемых контрольных параметров крупного сегмента сетевого оборудования телекоммуникационной компании (одна из компаний «большой тройки») с целью прогноза моментов времени и степени серьёзности отказов оборудования для выбора способа реагирования на них сервисных служб;
анализ социальных сетей (на примере обработки потока twitter-сообщений);
развёртывание и сравнительное исследование технологий потоковой обработки Apache Spark, IBM InfoSphere Streams, Apache Storm, Apache Flume, Apache Flink на задачах анализа потоковых видео данных в реальном времени.

Есть опыт разработки систем быстрой обработки и анализа потоковых видео данных в реальном времени: обнаружение лиц в потоке видеоданных с последующим распознаванием по текущей базе персонала.

Суперкомпьютерный центр Самарского университета

Ресурсы центра

Пользователям

О нас