После того, как в кластере №1 стало совсем плохо с узлами, было закуплено Nое количество материнских плат с процессорами и в процессе перестановки оборудования решено было провести и замену ПО, что стоит на кластере.
В этот раз на глаза попался проект Warewulf, который сейчас перерос в Perceus. Использовалась всё так же загрузка по сети, только вместо nfsroot, на головной машине создавались образы эталонной исталляции для узла, ядро и основные утилиты грузились в запакованном виде по сети, разворачивались в RAM-диск, это всё загружалось, остатки ОС монтировались по NFS и узел работал. В качестве дистрибутива была выбрана Fedora Core 4. Остальное ПО не поменялось - GNU compiler suite, LAM-MPI, PBS, который к тому моменту уже превратился в Torque. Для распределения нагрузки по узлам была предпринята попытка перейти для tcl-планировщик, оценивая загруженность узла по load average, что было, конечно, неразумно, но в тот момент оно работало лучше, нежели планировщик по умолчанию. Для запуска параллельных задач по-прежнему использовался ручной поиск свободных узлов при помощи wwtop, перечисление оных в hostfile и запуск при помощи mpirun.
Так кластер проработал относительно долго, пережив пережив переезд в другое помещение. Но и в нем на материнских платах стали пухнуть конденсаторы и через какое-то время было решено купить ещё 16 мат. плат, 16 процессоров, 32 планки памяти и опять поменять оборудование.
Aucun commentaire:
Enregistrer un commentaire