Отказоустойчивость и аварийное восстановление

Возможность восстановления после отказов крайне важна доя правильной работы любой системы, к их числу относится и диспетчер операций. Отказоустойчивость фундаментально отличается от аварийного восстановления, но обе эти концепции тесно связаны. Отказоустойчивость — это возможность продолжать работу даже в случае возникновения отказа. То есть отказы не приводят к прерыванию обслуживания. Время активации у механизмов отказоустойчивости, таких как кластеризация или балансировка нагрузки, обычно измеряется секундами или минутами. Эти механизмами также характеризуются высокой стоимостью на, скажем, дублирующее оборудование. Аварийное восстановление — это возможность восстановить работоспособность после прерывания обслуживания. Это означает, что отказы не приводят к потере данных. Время активации таких механизмов аварийного восстановления, как резервные копии или запись в ^журналы, обычно измеряется часами или даже днями. Механизмы аварийного восстановления обычно не столь дороги, хотя сайты подхвата функций в центрах хранения данных могут быть довольно дорогостоящими. По мере становления информационных технологий, системы наблюдения вроде диспетчера операций становятся все более важными, и, значит, приходится тратиться на их отказоустойчивость. B некоторых организациях диспетчер операций рассматривается как некритичный для производства компонент и поэтому не реализуется с отказоустойчивостью. Смысл здесь в том, даже при отказе диспетчера операций производственные системы могут продолжать работу, хотя и без наблюдения и оповещений. Кроме масштабируемости, встроенной в OpsMgr, в компоненты среды встроено и резервирование на основе избыточности. Важно четко знать, как обеспечить резервирование OpsMgr и правильно разместить его компоненты. Резервирование для основных компонентов можно обеспечить с помощью следующих методов.

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *