Работа с системой пакетной обработки заданий

В качестве системы пакетной обработки заданий (СПО) на кластерах используется менеджер ресурсов Torque и планировщик Moab HPC Suite Enterprise Edition. Подробнее о системе Torque см. в разделе "Программное обеспечение"

Команды на кластерах СКЦ СГАУ можно выполнять только через систему пакетной обработки заданий, как в пакетном, так и в интерактивном режиме. Удаленный вход пользователей на вычислительные ноды кластеров запрещен.

Основные команды работы с СПО:

  • qsub - постановка заданий в очередь;
  • qstat - просмотр статуса выполнения задания;
  • qdel - удаление задания из очереди.

Основные опции команды qsub, часто используемые при формировании пакетного задания:

Опция Назначение
-N job Имя задания
-A account Аккаунт или код проекта
-l walltime=время Время выполнения задания в формате чч:мм:сс (например 1час: walltime=01:00:00)
-l procs=процессы Количество вычислительных процессоов (ядер)

Примеры:
procs=128 - запрос 128 процессов (ядер). Планировщик самостоятельно определит на каких нодах запустить задачу.

-l nodes=ноды:ppn=процессы Количество вычислительных нодов nodes, с ppn процессов на каждом ноде.

Примеры:
nodes=1:ppn=2 - запрос двух ядер на одном ноде.
nodes=4:ppn=8:ddr - запрос 32 ядер на 4-х нодах из групы ddr.

-l software=имя_ресурса[+n] Запрос использования n лицензий определенного программного обеспечения.
-l pmem=N[kb|mb|gb|tb]

Запрос количества физической памяти на каждый процесс задачи.

Примеры:

-l procs=16 -l pmem=4gb  - запрос 16 процессов по 4ГБ ОЗУ на каждый процесс.

-j oe Перенаправлять поток стандартного вывода ошибок в стандартный вывод.
-m ae Посылать электронные сообщения о окончании и ошибках выполнения задания
-M user@mail.ru Адрес электронной почты, на который отправляются сообщения СПО.

Основные опции команды qstat

  • qstat -q - список очередей и их параметры;
  • qstat -a - список задач с расширенной информацией;
  • qstat -f <номер задачи> - полная информация о задаче;
  • qstat -n - информация на каких узлах запущена задача.

Основные опции команды qdel

  • qdel <номер задачи> - удаление задачи из очереди;
  • qdel all - удаление всех своих задач из очереди.

Для получения списка узлов с параметрами и состоянием рекомендуется использовать команду pestat.

Чтобы посмотреть какое количество узлов или ядер свободно на данный момент, можно использовать команду showbf. Команда отображет сколько ядер (Tasks) и узлов (Nodes) свободны для запуска задач.