Включение резервного оборудования замещением. Виды резервирования Включение резервного оборудования замещением

1. Нормальный режим

Особенность энергосистемы состоит в том что процессы выработки и потребления электрической энергии происходят одновременно, тоесть невозможно накапливать выработанную электрическую энергию в заметных количествах. Поэтому для источника питания и электрических потребителей в каждый момент должен соблюдаться баланс:

· активных мощнастей ;

· реактивніх мощнастей ,

где Р г, Q г – соответственно активная и реактивная мощность генераторов ИП;

Мощность потребляемых нагрузок;

Потери мощности в сетях;

Мощности собственных нужд.

В нормальном установившемся режиме все генераторы имеют синхронную частоту. Отключение частоты (𝜟f) – один из основных показателей качества электроэнергии (ПКЭ), в нормальном режиме допускается отклонение на ±0,2 Гц. При нарушении баланса активной мощности изменяется частота вращения генератора, а следовательно и частота переменного тока.

При ƩР Г < ƩРп - частота снижается (например при резком увеличении нагрузки в связи с включением большого числа электрических нагревателей при падении температуры воздуха).

При ƩР г > ƩР П - частота растет, при уменьшении нагрузки, ту рбины начинают разгонятся и вращаются быстрее.

Следствием больших отклонений частоты могут являться:

· выход из строя электрических станций;

· понижение производительности двигателя;

· нарушение технологического процесса;

· брак продукции.

А при недопустимых снижениях частоты происходит развал системы.

При аварийных отключениях генератора или линий с трансформаторами, допускается 𝜟f = +0,5 Гц, 𝜟f = -1 Гц, общей продолжительности на год, не более 90 часов.

Рост частоты можно ликвидировать уменьшением мощности генератора или отключением части из них, при понижении частоты:

· мобилизация резервов;

· использованием автоматического частотного регулирования (АЧР).

На электростанциях должен быть «горячий» резерв мощности (когда генератор нагружают до мощности меньшей номинальной), в таком случае они быстро набирают нагрузку при внезапном нарушении баланса мощности и « холодный » резерв (ввод нового генератора). Кроме резерва мощности на электростанциях системы необходимый резерв по энергии на ТЭС должен быть обеспечен соответствующий запас топлива, а на ГЭС - запас воды.

Если резерв электростанции исчерпан, а частота в системе не достигла номинального значения, то в действия вступают устройства АЧР, которые предназначены для быстрого восстановления, путем отключения части менее ответственных потребителей (в первую очередь отключения потребителей 3 категории надёжности).

При полной нагрузке генераторов по активному току в системе может возникнуть дефицит реактивной мощности, если же реактивная нагрузка потребителей значительно превысит возможную, реактивную мощность генераторов (при отключении части из них), то произойдет такое понижение напряжения, при котором ток потребителей значительно увеличится, что приведет к дальнейшему снижению напряжения и т.д. Такое снижение напряжения в системе называется лавиной напряжений.

В современных системах для предохранения от аварийного лавинного напряжения все генераторы снабжают автоматическим регулятором напряжения и быстродействию форсировки возбуждения, следовательно в системе всегда должен быть определенный резерв реактивной мощности, для этого делают компенсацию реактивной мощности.

2. Использование генератора в режиме синхронного компенсатора

Синхронный компенсатор – это генератор без нагрузки на валу.

Турбогенераторы и гидрогенераторы могут работать в режиме синхронного компенсатора.

3. Аномальные режимы:

· перегрузка (работа с током статора и ротора больше номинального);

· асинхронный режим;

· несимметричный режим.

Кратковременная перегрузка по току статора и ротора обычно бывает вызвана:

· внешними короткими замыканиями;

· выпадом генератора из синхронизма;

· форсированным возбуждением.

При этом повышается температура обмоток генератора, а при коротком замыкании возможно и механическое повреждение, поэтому допускается только кратковременная перегрузка, которая зависит от системы охлаждения.

Асинхронный режим работы генератора возникает при:

· потери возбуждения генератора в следствии повреждения в системи возбуждения;

· выпадения генератора из синхронизма из-за КЗ в сети;

· резкого сброс или наброса нагрузки.

Несимметричные режимы работы генератора могут быть вызваны обрывами и отключениями одной фазы сети, однофазной нагрузки в виде электрической тяги и плавильных печей и др.

При вариантах «холодного» резервирования резервное оборудование находится в выключенном состоянии и включается только при подключении резерва в работу. До включения резервного оборудования его ресурс не расходуется, и «холодное» резервирование дает самую большую ВБР.

Недостаток холодного резервирования – включение резервной аппаратуры проходит за некоторое время, в течение которого система не управляется или неработоспособна. На этом интервале ввода в строй «холодной» резервной аппаратуры источники питания выходят на режим, аппаратура тестируется, прогревается. В нее загружается необходимая информация.

В случае «горячего» резервирования все резервные элементы ЦВМ включены и готовы сразу после команды включиться в работу. Это может обеспечить меньшее время переключения на резерв. Однако ресурс включенной резервной «горячей» аппаратуры расходуется и достижимая ВБР в этом методе меньше, чем в случае «холодного» резервирования. Время переключения на резерв – важный параметр, и допустимые его значения определяются конкретной прикладной задачей.

Для системы дублированной замещением с холодным резервом ВБР равна:

Данное приближение справедливо для ВБР . Использование дублирования с холодным замещением в нашем примере ЦВМ из 100 БИС с

на каждую ВБР за один год непрерывной работы будет равна

Рдуб.х = 1 – 0,01 = 0,99. Вместо 0.9 для нерезервированной системы.

Таким образом, простое дублирование ЦВМ приводит значение её ВБР в желаемые рамки.

Для системы троированной замещением с холодным резервом ВБР равна:

Ртр.х.= 0,995

Для системы дублированной замещением с горячим резервом ВБР равна:

И для нашего примера ЦВМ будет иметь значение ВБР

Рдб.г.= 0,99

Для системы троированной замещением с горячим резервом ВБР равна:

На графике приведены изменения Р(t) для трех случаев:

1) нерезервированная система

2) система дублированная с холодным резервом

3) система дублированная с горячим резервом

Горячее резервирование троированием с восстанавливающими органами (с мажоритарными элементами).

Этот метод реализует горячее резервирование с восстановлением информации на мажоритарных элементах с голосованием по большинству.

Мажоритарный элемент – логическое устройство, работающее по большинству. Если у него на входе 011,110,101,111 ,то на выходе у него1. Если у него на входе 001,010,100,000, то на выходе у него 0.

Мажоритарный элемент (МЭ) одновременно решает задачи обнаружения отказа — выход одного из элементов отличается от двух других и подключения резервного. В случае последовательно соединения таких мажорированных троек элементов обеспечивается восстановление информации во всех элементах после отказавшего.

Система работоспособна, когда или все каналы работоспособны, или два из трех любых (таких сочетаний три) каналов работоспособны.

Здесь Р1 – ВБР каждого канала троированной системы.

Данная схема хороша не своей высокой ВБР (ВБР у систем с холодным и горячим резервированием замещением выше), а тем, что функции контроля и подключения резерва выполняются одновременно и автоматически на уровне МЭ. Специализированный мажоритарный контроль идет побитно над результатом каждой машинной операции. Здесь сами МЭ не резервированы и это недостаток примененной схемы.

В ЦВМ, резервированных по схеме троирования с мажоритарными органами, мажорированию подвергаются все разряды (поразрядно) передаваемого по шине данных числа, выбираемого из памяти или записываемого в память числа и т.п. По данным нашего примера ВБР ЦВМ с одним мажоритарным органом после выходного регистра имеет значение. Ртр.мж = 0,972

Сравнительные характеристики различных схем резервирования по ВБР, по времени перехода на резерв.

Изменение ВБР представлены в относительном времени . Это удобно, так как графики справедливы для любого . Здесь –

интенсивность отказов системы Для последовательной надежностной схемы.

Интенсивность отказа элементов, составляющих систему.

Красным цветом отмечено изменение ВБР по t для нерезервированной системы.

Хотел бы привлечь Ваше внимание к вопросам повышения отказо- и катастрофоустойчивости информационных систем на Вашем предприятии.

Информационные технологии все шире используются во всех областях деятельности. Сегодня на любом предприятии уже трудно найти производственный процесс, осуществляемый без помощи компьютерных техологий. Они стали одним из основных средств производства.

На предприятиях нефтеперерабатывающей промышленности существуют критически важные производственные и технологические процессы, любой сбой в которых может привести к крайне тяжелым или непоправимым последствиям. Многие из них управляются с помощью информационных технологий.

Наряду с этим широкое проникновение этих технологий в производство имеет оборотную сторону. Усиливается зависимость бизнеса от них. Любой компьютерный сбой приводит к простою одного или многих работников. В это время они не выполняют свою работу, следовательно, не зарабатывают прибыль. Не заработанная прибыль - это прямые убытки.

Сказанного достаточно, чтобы самым серьезным образом задуматься над решением проблемы обеспечения высокой готовности и отказоустойчивости информационных систем.

Наша компания продвигает и внедряет системы повышенной надежности информационных систем на основе технологий и программного обеспечения лидеров рынка.

Программное обеспечение, а также аппаратные комплексы предназначены для обеспечения непрерывной работы технических и программных средств, функционирующих под управлением операционных систем Windows и Linux. Оно устанавливается на двух идентичных серверах и позволяет продолжать выполнение запущенных приложений в случае отказа или сбоя любого из серверов, исключая даже незначительные перерывы в работе пользователей.

Основными преимуществами предлагаемых нами решений являются:

∙ Экономичность — совокупная стоимость владения значительно ниже, чем у других систем высокой готовности при более высоких параметрах надежности и живучести.

∙ Простота — это единственная технология высокой готовности, которая так же легка для администрирования, как и единый сервер. Установка и эксплуатация не требуют больших затрат на подготовку персонала.

∙ Минимальное время простоя — отказы элементов серверов практически никак не влияют на производительность и целостность данных.

Виды резервирования

∙ Катастрофоустойчивость — позволяет сохранять работоспособность сервера даже при физическом уничтожении одного из узлов, при этом узлы могут территориально находиться на разных этажах здания, в разных зданиях или даже в разных городах.

∙ Полная защита информации — данные не теряются даже в случае отказа одного из узлов.

∙ Открытая архитектура — все компоненты системы абсолютно стандартны, применение специальных аппаратных средств, модифицированных или специально написанных драйверов устройств не требуется.

Наши решения успешно применяется в составе современных систем управления производственными и бизнес-процессами, мониторинга технического состояния оборудования, анализа и оценки обстановки, сбора и обработки важной информации, потеря которой связана с непоправимым ущербом. А также обеспечивают отказоустойчивость работы автоматизированных систем управления технологическими процессами, применяются для обеспечения безопасности объектов, в составе систем видеонаблюдения и контроля доступа,

Было бы целесообразным с учетом имеющегося у нас положительного опыта внедрения отказоустойчивых технологий совместно рассмотреть вопрос о расширении их использования в рамках единой технической политики в том числе и в целях предотвращения экстренных и критических ситуаций на Вашем объекте.

Мы готовы предоставить дополнительную информацию и провести демонстрацию данных технологий.

Резервирование в электроснабжении

2.4.1 .Виды резервирования

На стадии проектирования СЭС для обеспечения требуемой надежности приходится во многих случаях как минимум дублировать отдельные элементы и даже отдельные системы, т.е. использовать резервирование.

Резервирование характерно тем, что оно позволяет повысить надежность системы по сравнению с надежностью составляющих ее элементов. Повышение надежности отдельно взятых элементов требует больших материальных затрат. В этих условиях резервирование, например, за счет введения дополнительных элементов, является эффективным средством обеспечения требуемой надежности систем.

Если при последовательном соединении элементов общая надежность системы (т.е. вероятность безотказной работы) ниже надежности самого ненадежного элемента, то при резервировании общая надежность системы может быть выше надежности самого надежного элемента.

Резервирование осуществляется путем введения избыточности. В зависимости от природы последней резервирование бывает:

Структурное (аппаратное);

Информационное;

Временное.

Структурное резервирование заключается в том, что в минимально необходимый вариант системы, состоящей из основных элементов, вводятся дополнительные элементы, устройства или даже вместо одной системы предусматривается использование нескольких одинаковых систем.

Информационное резервирование предусматривает использование избыточной информации. Его простейшим примером является многократная передача одного и того же сообщения по каналу связи. Другим примером являются коды, применяемые в управляющих ЭВМ для обнаружения и исправления ошибок, возникающих в результате сбоев и отказов аппаратуры.

Временное резервирование предусматривает использование избыточного времени. Возобновление прерванного в результате отказа функционирования системы происходит путем ее восстановления, если имеется определенный запас времени.

Существуют два метода повышения надежности систем путем структурного резервирования:

1) общее резервирование, при котором резервируется система в целом;

2) раздельное (поэлементное) резервирование, при котором резервируются отдельные части (элементы) системы.

Схемы общего и раздельного структурного резервирования представлены соответственно на рис. 2.6. и 2.7., где n — число последовательных элементов в цепи, m – число резервных цепей (при общем резервировании) или резервных элементов для каждого основного (при раздельном резервировании).

При m = 1 имеет место дублирование, а при m =2 – троирование. Обычно стремятся по возможности применять раздельное резервирование, т.к. при этом выигрыш в надежности часто достигается значительно меньшими затратами, чем при общем резервировании.

В зависимости от способа включения резервных элементов различают постоянное резервирование, резервирование замещением и скользящее резервирование.

Постоянное резервирование – это такое резервирование, при котором резервные элементы участвуют в работе объекта наравне с основными. В случае отказа основного элемента не требуется специальных устройств, вводящих в действие резервный элемент, поскольку он включается в работу одновременно с основным.

Резервирование замещением – это такое резервирование, при котором функции основного элемента передаются резервному только после отказа основного. При резервировании замещением необходимы контролирующие и переключающие устройства для обнаружения факта отказа основного элемента и переключения с основного на резервный.

Включение резервного оборудования замещением. Холодное и горячее резервирование.

Скользящее резервирование – представляет собой разновидность резервирования замещением, при котором основные элементы объекта резервируются элементами, каждый из которых может заменить любой отказавший элемент.

Оба вида резервирования (постоянное и замещением) имеют свои преимущества и недостатки.

Достоинством постоянного резервирования является простота, т.к. в этом случае не требуются контролирующие и переключающие устройства, понижающие надежность системы в целом, и, самое главное, отсутствует перерыв в работе. Недостатком постоянного резервирования является нарушение режима работы резервных элементов при отказе основных.

Включение резерва замещением обладает следующим преимуществом: не нарушает режима работы резервных элементов, сохраняет в большей степени надежность резервных элементов, позволяет использовать один резервный элемент на несколько рабочих (при скользящем резервировании).

В зависимости от режима работы резервных элементов различают нагруженный (горячий) и ненагруженный (холодный) резерв.

Нагруженный (горячий) резерв в энергетике называют также вращающимся или включенным. В данном режиме резервный элемент находится в том же режиме, что и основной. Ресурс резервных элементов начинает расходоваться с момента включения в работу всей системы и вероятность безотказной работы резервных элементов в этом случае не зависит от того, в какой момент времени они включаются в работу.

Облегченный (теплый) резерв характеризуется тем, что резервный элемент находится в менее нагруженном режиме, чем основной. Поэтому, хотя ресурс резервных элементов также начинает расходоваться с момента включения всей системы в целом, интенсивность расхода ресурса резервных элементов до момента их включения вместо отказавших значительно ниже, чем в рабочих условиях.

Этот вид резерва обычно размещается на агрегатах, работающих на холостом ходу, и, следовательно, в данном случае ресурс резервных элементов срабатывается меньше по сравнению с рабочими условиями, когда агрегаты несут нагрузку.

Вероятность безотказной работы резервных элементов в случае этого вида резерва будет зависеть как от момента их включения в работу, так и от того, насколько отличаются законы распределения вероятности безотказной работы их в рабочем и резервном условиях.

В случае ненагруженного (холодного) резерва резервные элементы начинают расходовать свой ресурс с момента их включения в работу вместо основных. В энергетике этим видом резерва служат обычно отключенные агрегаты.

Расчеты надежности систем с параллельно включенными элементами зависят от способа резервирования.

⇐ Предыдущая13141516171819202122Следующая ⇒

Похожая информация:

Поиск на сайте:

В практике построения высокодоступных систем, прежде всего IT, существует понятие “единой точки отказа” (SPOF, Single Point Of Failure). Любая система высокой доступности данных стремится не иметь в своей архитектуре узла, линии связи или объекта, отказ которого может вывести из строя всю систему, или вызвать недоступность данных.

Все это так. Однако я обратил внимание, что в последнее время, в особенности в IT-шной среде возникло своеобразное “фетиширование” вот этого вот “отсутствия единой точки отказа”. Широко распространилось мнение, что “отсутствие единой точки отказа” это синоним “хорошо” и “система правильная ”, а ее присутствие – “плохо” и “система неправильная ”. �?

холодный резерв

на этом исследование вопроса архитектурной правильности заканчивается. Однако, как и в любом другом деле, суть, на самом деле, лежит несколько глубже.

Дело в том, что “отсутствие единой точки отказа” это “инструмент” для достижения высокой доступности, но не “цель”. “No SPOF” это одно из средств достижения доступности, но не сама доступность как таковая, средство, одно из, а не цель, часто необходимое, но не достаточное условие.

Что же, в таком случае, на самом деле определяет годность решения?

Мне представляется, что это удовлетворение требованиям по RPO/RTO для данной конкретной бизнес-задачи.

Термины RPO/RTO хорошо известны специалистам в области защиты данных и резервного копирования. RPO, Return Point Objective – это “точка доступности данных”, в случае их потери. RTO, Return Time Objective – это время, которое неоьходимо системе для восстановления своей работы, и возобновления обслуживания.

Например, если вы делаете резервное копирование вашей базы данных раз в сутки по вечерам, после окончания рабочего дня, в 21:00, то RPO для вашей системы будет 21:00 вечера предыдущего дня, то есть момент начала создания резервной копии.

Допустим, вы потеряли данные, восстановили их из бэкапа по состоянию на 21 час прошлого дня. Восстановление базы заняло 40 минут. Если у вас работает база данных, то вам еще надо актуализировать ее состояние из archive logs, накатив изменения, записанные с 21:00 по текущее время. Допустим, это заняло 15 минут. �?того, RTO, в вашем случае – 55 минут.

Плохо это или хорошо? Невозможно ответить с точки зрения IT. Ответ должен дать бизнес, которому вы служите. Для какой-то задачи даже 10 минут простоя это много. Какая-то вполне готова подождать пару часов, а какие-то задачи вполне могут и сутки постоять, ничего страшного не случится. Падение биржи NYSE может быть чревато паникой в масштабах глобальной экономики. Падение сети обслуживания банкоматов крупного банка, который за 10 минут периода простоя мог бы обработать десятки тысяч обращений “физиков”, это еще не паника, но все еще очень неприятно. А хостинг домашних страничек вполне может и сутки полежать с сообщением “�?звините, ведутся работы”, в лучшем случае выплатив клиентам неустойку за сутки простоя.

Разумеется, бизнес будет требовать нулевого RPO/RTO, это всегда так, они всегда это требуют. 🙂 Однако следует помнить, что все стоит денег, и каждое улучшение ситуации с временем недоступности стоит денег, причем часто растет по экспоненте, каждое следующее улучшение этих параметров обойдется бизнесу все дороже и дороже.

Поэтому, как правило, бизнес и IT обычно приходят к некоему компромиссу. Компромисс этот, как правило, сегментирован по задачам. Но в конечном счете бизнес и IT, совместно вырабатывают какие-то требования по RPO/RTO.

�? система, которая выполняет эти требования, система, удовлетворяющая этим требованиям бизнеса, за примелемые для бизнеса деньги – это хорошая система . Система, которая не удовлетворяет им – плохая .

Обратите внимание, что в моем опредении “плохой” и “хорошей” системы я не использовал понятие “отсутствия единой точки отказа” вовсе.

Может ли быть хорошей, то есть удовлетворять требованиям бизнеса по RPO/RTO, система с наличием “единой точки отказа”? Да запросто. Если период восстановления работоспособности системы укладывается в заданные рамки – да пусть сколько угодно там будет точек отказа. В особенности, если ликвидация в решении всех “единых точек отказа” экономически нецелесообразна, потому что чрезмерно дорога для решаемой бизнесом задачи.

Помните, что надежность, это комплексный параметр, зависящий от множества факторов и множества участников. Создание сверхнадежного стораджа для хранения данных не сделает сверхнадежной вашу IT-систему, если к этому сверхнадежному, кластерному, без единой точки отказа, и по FC Dual Fabric подключены ненадежные сервера, без кластеризации и с истекшим сервисным контрактом, выполняющие собственно бизнес-приложение и бизнес-функцию. Помните, что как и в случае морской эскадры, скорость которой определяется скоростью самого медленного в ней корабля, надежность IT-системы определяется надежностью самого слабого в ней звена , а отнюдь не самого надежного.

В надежности нет “волшебной пули”, как нет и абсолютной надежности. �? наличие или отсутствие “единой точки отказа” в вашей части IT-системы может никак не отражаться на надежности бизнес-системы в целом. Всегда следует смотреть глубже, и задаваться целью, выполняются ли требования по RPO/RTO, необходимые бизнесу, и сколько это стоит. �? можно ли за те же деньги, или дешевле, найти решение, улучшающее этот показатель, и каким образом.

А не просто фетишировать на один из множества инструментов для достижения этой цели.

Метки: RPO, RPO/RTO, RTO, SPOF
Рубрика: justread | Комментариев нет

Резервирование дисков и каналов

При использовании зеркального диска есть вероятность повреждения единых для обоих дисков канала, контроллера и блока питания.

OS NetWare 386 может резервировать целиком каналы, при этом используются два контроллера, к которым соответственно подключены два диска. Для питания этих контроллеров и дисков используются два блока питания.

Горячее резервирование серверов

Восстановление данных с зеркального диска может потребовать, в зависимости от объема диска, времени порядка нескольких часов. Иногда такая задержка в работе сети является совершенно недопустимой.

Относительно недавно фирма Novell разработала сетевую OS NetWare System Fault Tolerance Level III (SFT III) версии 3.11. Эта OS обеспечивает горячее резервирование серверов.

Система NetWare SFT III состоит из двух серверов, соединенных между собой скоростной линией связи, с использованием специальных адаптеров MSL (Mirrored Server Link).Эти адаптеры могут соединяться коаксиальным кабелем длиной до 33 метров или оптоволоконным кабелем длиной до 4 километров.

Выход из строя одного сервера не влечет за собой остановку работы сети — в дело автоматически включается резервный сервер. Благодаря высокоскоростному каналу связи диски резервного сервера содержат те же файлы, что и диски основного, поэтому никакого восстановления данных не требуется. Можно ремонтировать один из двух используемых серверов без остановки всей системы, что очень важно, если система должна работать круглосуточно.

Глава II. Техническое построение локальной сети

Постановка задачи

Целью курсовой является организация локальной сети и выход в Интернет в жилом доме

Для решения поставленной цели в курсовой работе решаются следующие задачи:

· Выбор топологии и кабельной системы сети;

· Выбор сетевого оборудования;

· Выбор программного обеспечения.

Необходимо разработать рациональную, гибкую структурную схему сети жилого дома, предусмотреть режимы быстрого обновления оперативной информации на сервере, а так же проработать вопросы необходимого уровня защиты данных.

Построение сети

Для решения первой задачи мною была выбрана топология «Звезда» так как:

Традиционно считается, что локальные сети должны строиться по топологии "звезда", а кольцевая архитектура присуща серьезным телекоммуникационным системам на основе SDH/ATM (это очень эффективное средство повышения надежности в телефонии, где несколько АТС могут продолжать работать независимо от вышедшего из строя узла).

Однако, любая многосвязная архитектура более надежна, чем простое соединение. И кольцо Ethernet не исключение. С распространением недорогих коммутаторов, поддерживающих STP (протокол покрывающего дерева), использование резервных связей стало достаточно простым процессом, не требующим вмешательства администраторов сети.

Горячий резерв

При использовании "кольца" в случае выхода из строя какого-либо узла (или части кабельной системы) работоспособность сети в целом сохраняется.

Однако, кольцевая топология является избыточной по числу связей, а значит и более дорогой. А вопрос надежности стоит не слишком остро из-за небольших размеров ЛВС.

Очевидно что с точки зрения надёжности предпочтительнее топология «кольцо», но так как для домашней сети значительнее актуальнее вопрос стоимости сети и, учитывая, трудности возникающие при прокладке кабеля, то в итоге топология «звезда» является наиболее оптимальной.

Для решения задачи выбора кабельной системы сети мною был выбран кабель витая пара категории «cat5e» так как:

Для абонентской системы здания оптимальным выбором служит витая пара категории 5е. Она позволяет передавать данные со скоростью 100мбит/c, удобна в прокладке, обладает достаточно низкой стоимостью и отвечает всем требованиям по надёжности, предъявляемым к абонентской системе.

Учитывая низкий общий бюджет проекта, очевидным выбором для магистральных соединений становилась витая пара категории 5e для внешней проводки. Её существенным недостатком является низкий уровень защищённости от внешних электромагнитных наводок и статического напряжения, что сказывается на общей надёжности сети, но этот недостаток подавляется прокладкой кабеля в специальных кабель каналах, отдельно от общедомой электропроводки.

Для решения задачи выбора сетевого оборудования, мною были выбраны 2 коммутатора D-Link DES-3028, так как управляемые коммутаторы второго уровня серии DES-3028 представляют собой наиболее эффективное решение в категории управляемых сетевых коммутаторов начального уровня. Обладая богатым функционалом, эти коммутаторы предоставляют недорогое решение по созданию безопасной и эффективной сети отделов предприятий малого и среднего бизнеса, а также промышленных предприятий. Также эта серия является оптимальным по соотношению «цена/функционал» решением уровня доступа сети провайдера услуг. Отличительными функциями данного коммутатора являются высокая плотность портов, 4 гигабитных порта Uplink, небольшой шаг изменения настроек для управления полосой пропускания и улучшенное сетевое управление. Эти коммутаторы позволяют оптимизировать сеть как по функционалу, так и по стоимостным характеристикам.

Главный и идинственный сервер в сети должен обеспечивать:

· WEB — сервер

· Файловое хранилище

· P2P – трекер

· Выступать посредником между серверами интернет-провайдера и локальной сетью

Для решения этой задачи мною было принято решения отказатся от специализированных серверных решений и выбрать систему примерной конфигурации:

· Процессор: Core 2 Quad Q9650

· Память: 8Gb DDR II

· 2x 1,5Tb HDD обьедененых в RAID 0

В качестве сетевой ОС была выбрана Ubuntu Server x64, так как эта ОС имеет ряд огромных плюсов, такких как:

· Бесплатность в отличии, например, от Windows Server

· Гибкость конфигурации

· Наличие всего необходимого софта в базовом пакете

· Поддердка практически всего оборудования

· Регулярные обновления и наличие русскоязычного сайта поддержки

Повышение надежности за счет резервирования оборудования

Резервирование - один из самых распространенных и кардинальных способов повышения надежности и живучести вычислительных систем. Однако, за резервирование приходится расплачиваться значительным увеличением габаритов, массы и потребляемой мощности.

Так же при этом усложняется проверка аппаратуры и ее обслуживание. Так как количество отказов увеличивается из-за увеличения количества аппаратуры. Резервирование уменьшает полезную нагрузку на аппаратуру и увеличивает ее себестоимость.

Основным параметром резервирования является кратность резервирования. Это отношение числа резервных устройств к числу рабочих (основных) устройств. Кратность резервирования ограничена жесткими пределами в отношении массы, габаритов и потребляемой мощности БЦВС.

Различают общее и раздельное резервирование. Резервирование БЦВМ в целом – это общее резервирование. В этом случае параллельно работают основная и резервные БЦВМ.

При раздельном резервировании БЦВМ разбивается на отдельные подсистемы, каждая из которых или некоторые из них резервируются отдельно. При использовании раздельного резервирования можно выделить несколько уровней резервирования:

1. Резервирование на уровни деталей

2. Резервирование на уровне элементов

3. Резервирование на уровне устройств.

На данный момент наиболее распространенным раздельным резервированием является резервирование на уровне устройств (ОЗУ, процессор, жесткие диски и т.д.), так как современные БЦВМ имеют модульное построение, а резервирование на уровне модулей значительно повышает ремонтопригодность.

В зависимости от способа включения резервного элемента или БЦВМ различают горячее и холодное резервирование.

При горячем резервировании резервные элементы работают в одинаковых условиях с основными элементами и выполняют все их функции. При этом увеличивается потребляемая мощность и усложняется обслуживание, так как необходимо выявлять отказавшие элементы и своевременно их заменять.

При холодном резервировании резервные элементы не работают, либо работают в облегченных условиях. В этом случае резервный элемент включается в работу только в случае выхода из строя основного элемента. Холодное резервирование потребляет меньше мощности, легче в обслуживании, и резервное элементы не расходуют свой ресурс. Однако, при холодном резервировании необходимо использовать специальные переключатели, позволяющие резервному элементу вступить в работу. Включение резервных элементов может происходить, как вручную, так и автоматически.

Холодное резервирование используется только на уровне крупных элементов или целых БЦВМ с применением различных методов обнаружения неисправностей.

Горячее резервирование может применяться и на более глубоких уровнях с использованием избыточности на основе мажоритарной логикой.

В реальной аппаратуре холодное и горячее резервирование обычно применятся в различных сочетаниях.

Рассмотрим различные способы резервирования:

1. Резервирование на основе мажоритарной логики.

Этот тип резервирования используется при горячем резерве элементов или целых БЦВМ. Выходные сигналы с основного и всех резервных элементов преобразуются в один сигнал на мажоритарном элементе. При этом сравниваются все сигналы, и правильным считается тот, который совпал большее число раз (2 из 3, 3 из 5 и так далее).

Достоинства мажоритарной логики резервирования:

2. Не требуется обнаружение неисправного элемента и переключение на резервный.

3. Подавляются все сбои.

Недостатки:

1. Существенно увеличивается объем, масса и потребляемая мощность оборудования.

2. Снижается быстродействие, так как мажоритарные элементы включаются последовательно с основными элементами вычислительной системы.

3. Отсутствует индикация отказавших устройств, что уменьшает ремонтопригодность.

4. Система отказывает, когда еще есть исправные элементы, так как мажоритарный элемент не может принять верные решения, если отказавших элементов больше, чем исправных.

При таком виде резервирования после каждого резервируемого элемента стоит детектор ошибок, фиксирующий несовпадение результатов работы основного и резервного элемента. В случае обнаружение несовпадения запускается диагностическая программа, определяющая, какой именно блок отказал, и исключающая его из работы до устранения ошибки.

Схематично подобная схема включения выглядит следующим образом:

Здесь Ао и Ар составляют первый блок вычислительной системы, причем Ао – основной элемент, а Ар – резервный. Оба этих элемента, за исключением случая, когда один из них неисправен, имеют одинаковые выходы.

Во и Вр – составляют второй блок. Выходы этих элементов так же идентичны.

Сигналы с основных и резервных элементов объединяются с помощью логического элемента «или» для того, чтобы при исключении из работы неисправного элемента сигнал все равно поступал в оба канала.

Аналогично можно применять резервирование на три, четыре и так далее элементов. При этом увеличивается вероятность безотказной работы, однако, значительно повышается потребляемая мощность, габариты, вес, усложняется структура вычислительной системы и программирование для нее.

Преимущества резервирования дублированием с детектором отказов:

1. Значительно увеличивается вероятность безотказной работы вычислительной системы.

2. Меньше резервных элементов, чем при использовании мажоритарной логики резервирования.

3. Повышается ремонтопригодность, так как точно известно, какой элемент отказал

4. Детектор ошибок не влияет на информационные потоки и не снижает быстродействие вычислительной системы, так как подключается параллельно, относительно проверяемых устройств.

Недостатки:

1. В случае обнаружения ошибки необходимо прервать работу основного программного обеспечения для обнаружения неисправного элемента и исключения его из работы.

2. Усложняется программное обеспечение, так как требуется специальная программа обнаружения неисправных элементов.

3. Система не может обнаружить ошибку при отказе одновременно основного и резервного элемента.

3. Резервирование на основе постепенной деградации вычислительной системы.

В этом случае, если все элементы вычислительной системы исправны, они функционируют в полном объеме, и каждый элемент выполняет свою функцию. Однако, стоит выйти из строя хотя бы одному элементу, сразу же запускается диагностическая программа, определяющая, какой именно элемент вышел из строя, и исключающая его из работы. При этом функции, которые исполнял вышедший из строя элемент, перераспределяются между рабочими элементами с сохранением всех функциональных возможностей, за счет уменьшения объема обрабатываемой информации или с уменьшением функциональности при сохранении объема обрабатываемой информации.

Так как бортовые вычислительные системы рассчитаны на максимальную загрузку, которая происходит достаточно редко, подобный способ резервирования значительно повышает надежность, без серьезных затрат.

Достоинства:

1. Повышается живучесть вычислительной системы.

2. Не увеличиваются габариты, масса и потребляемая мощность.

3. Повышается ремонтопригодность, так как точно известно, какой элемент отказал.

4. Не требуются специализированные элементы, анализирующие сигналы элементов, а, следовательно, всю вычислительную систему можно разрабатывать на стандартизированном оборудовании.

Недостатки:

1. Усложняется программное обеспечение, так как необходимо реализовывать алгоритмы, отслеживающие исправность элементов вычислительной системы и перераспределяющие задачи после выхода из строя одного или нескольких элементов

2. При выходе из строя элементов вычислительной системы снижается объем обрабатываемой информации или функциональность.

3. Резервирование возможно только на уровне процессорных модулей и ЭВМ.

4. Обслуживание становится дороже, так как заменять надо целые блики и ЭВМ.

Это основные способы резервирования с помощью оборудования. Обычно, в реальной аппаратуре они применяются в различных комбинациях, в зависимости от требуемого результата, степени необходимой надежности и живучести отдельных элементов вычислительной системы и всего комплекса в целом.

В случае «горячего» резервирования все резервные элементы включены и готовы сразу после команды включиться в работу. Это может обеспечить меньшее время переключения на резерв. Однако ресурс включенной резервной «горячей» аппаратуры расходуется и достижимая ВБР в этом методе меньше, чем в случае «холодного» резервирования. Время переключения на резерв – важный параметр, и допустимые его значения определяются конкретной прикладной задачей.

Для системы дублированной замещением с холодным резервом ВБР равна:

Данное приближение справедливо для ВБР . Для системы троированной замещением с холодным резервом ВБР равна:

Для системы дублированной замещением с горячим резервом ВБР равна:

Для системы троированной замещением с горячим резервом ВБР равна:

На графике приведены изменения Р(t) для трех случаев:

1) нерезервированная система

2) система дублированная с холодным резервом

3) система дублированная с горячим резервом

Изменение ВБР представлены в относительном времени . Это удобно, так как графики справедливы для любого . Здесь – интенсивность отказов системы

Для последовательной надежностной схемы.

Интенсивность отказа элементов, составляющих систему.

§ 1 Введение

Целью вычислений при наличии обратимых повреждений является построение надежных систем, которые вычисляют правильные результаты даже сталкиваясь с локальными неудачами. Например, если один из модулей отказывает, скажем, из-за ошибки программирования, то другие модули продолжают вычисления, закрывая неудачу первого модуля. Будет изучен ряд новых методов, чтобы осуществить эту исключительно сильную форму модульности.

Отказ системы – отклонение фактического поведения системы от запланированного поведения. Один из разделов проектирования системы, устойчивой к ошибкам, определяет, что конкретно составляет желаемое и не желаемое поведение.

Отказы происходят из-за ошибки в модуле. Причина ошибки – дефект . Дефекты подразделяются на 4 категории:

Дефекты аппаратуры (например, отказы в работе устройств).

Дефекты программного обеспечения (погрешности проектирования).

Дефекты среды (наводнения, землетрясения)

Дефекты управления (погрешности операторов и ремонтного персонала).

Для того, чтобы оценить надежные системы, нужен метод измерения надежности. Можно моделировать срок службы модуля, как последовательность периодов правильной работы (когда модуль делает то, что предполагается делать) и неправильной работы (когда он не делает то, что предполагается делать). Таким образом, надежность системы может быть измерена, как процент времени, когда она выполняет свои функции (работает правильно).

Среднее время от начала правильного выполнения до первого отказа называется средним временем наработки на отказ , Т о. Это – статистическая величина. Время от первого отказа до момента, когда модуль снова заработает правильно, статистически определяется, как среднее время до восстановления , Т в. Надежность может быть теперь количественно определена, как Т о / (Т о + Т в). Величина Т ср = Т о + Т в иногда называется средним временем между отказами . Например, можно сравнить стандартную компьютерную систему IBM (Т ср = 9 дней, Т в = 10 минут) и компьютерную систему Tandem (Т ср = 11 лет).

Общий подход к проектированию надежных систем прост:

Обнаружение ошибок (требует планирования).

Помещение ошибок в «контейнер» (модульность и изоляция дефектов).

Исправление ошибок.

Что представляет собой общая методика исправления ошибок? Дефекты аппаратных средств могут быть преодолены с помощью копирования данных и обработки, маскирующей отказы. Чтобы сделать малым Т в, применяется самодиагностика системы. Подход к преодолению погрешностей операторов и обслуживающего персонала состоит в том, чтобы уменьшить возможность ошибок (т.е. устранить оператора, осуществлять самонастройку и самопроверку, и т.д.). Дефекты окружающей среды могут быть преодолены с помощью эффективной репликации (дополнительные источники энергоснабжения; не устанавливать систему там, где она может быть затоплена; иметь дополнительные линии связи; копировать систему полностью). Для текущего состояния технологии, главная проблема – ошибки аппаратного и программного обеспечения.

§ 2 Обеспечение надежности микропроцессорных информационно-управляющих вычислительных систем (увс).

Под надежностью изделия (элемента, узла, устройства, системы) понимается свойство последнего сохранять свое качество при определенных условиях эксплуатации в течение заданного промежутка времени, т. е. надежность - качество, развернутое во времени. Количественно надежность характеризуется рядом интервальных, интегральных и точечных показателей.

Невосстанавливаемые изделия - изделия, поведение которых существенно лишь до первого отказа, - характеризуются следующими количественными показателями надежности: интенсивностью отказов λ (t ); частотой отказов f (t ); вероятностью безотказной работы P (t ); вероятностью отказа Q (t ); наработкой на отказ Т о.

Восстанавливаемые изделия - изделия, эксплуатация которых допускает их многократный ремонт,- характеризуются следующими количественными показателями надежности: параметром потока отказов ω (t ); параметром потока восстановлений μ (t ); функцией готовности К г (t ); коэффициентом готовности К г; средним временем работы между двумя отказами t ср; средним временем восстановления t в.

Если в процессе функционирования невосстанавливаемого изделия возможен ремонт отдельных его элементов при сохранении работоспособности изделия в целом за счет резерва или если надежность функционирования восстанавливаемого изделия оценивается в интервале времени до первого отказа восстанавливаемого изделия в целом, то такие изделия характеризуются следующими количественными показателями надежности: вероятностью безотказной работы P (t ); вероятностью отказа Q (t ); наработкой на отказ Т о; параметром потока отказов элементов изделия ω (t ); параметром потока восстановлений элементов изделия μ (t ).

Количественные показатели надежности невосстанавливаемых изделий. Интервальные показатели надежности - вероятность безотказной работы P (t ) и вероятность отказа Q (t )-определяются как вероятности событий P (t )= P {τ > t } и Q (t )= P {τ ≤ t } соответственно, где τ - случайный момент времени, в который происходит отказ. При этом P (t ) + Q (t ) = 1, P (0) = l, Q (0) = 0, P (∞)→0, Q (∞)→1.

Точечный (локальный) показатель надежности - интенсивность отказов λ (t )-определяется как вероятность невосстанавливаемого отказа изделия в единицу времени после момента времени при условии, что до этого момента времени отказ не возникал, т.е.

при
и с учетом (1) интенсивность отказов

, (2)

Интегрируя левую и правую части выражения (2) в пределах от 0 до t , нетрудно получить другую форму связи между вероятностью безотказной работы и интенсивностью отказов изделия:

. (3)

Рис. 1. Графическая зависимость интенсивности отказов изделий от времени

Интенсивность отказов λ (t ) -один из наиболее удобных количественных показателей надежности изделий электроники: интегральных схем, радиоэлектронных изделий (транзисторов, диодов, резисторов, конденсаторов и т. п.). Изменение интенсивности отказов λ (t ) во времени большинства изделий электронной техники имеет существенно нелинейный характер (рис. 1), тем не менее на большом по времени участке работы интенсивность отказов изделия обычно мало изменяется и принимается в практических расчетах постоянной.

Следует помнить, что λ (t ), оставаясь постоянной во времени на основном участке работы, существенно зависит от условий эксплуатации изделия (климатических, механических и радиационных воздействий, электрической нагрузки и т. п.), т. е.

где a i - поправочный коэффициент i -гo эксплуатационного фактора; λ 0 - интенсивность отказов изделия при номинальных (лабораторных) условиях эксплуатации.

Частота отказов f (t ) -плотность вероятности времени работы изделия до первого отказа:

. (4)

С вероятностью безотказной работы частота отказов связана соотношением

(5)

Одной из часто используемых на практике интегральных характеристик надежности является наработка на отказ Т о - математическое ожидание случайного момента времени τ , в который происходит отказ, т. е.

. (6)

Учитывая свойство преобразования Лапласа, заметим, что если известно изображение вероятности безотказной работы P (s ), то

. (7)

Для экспоненциального закона вероятности безотказной работы изделия, т. е. при λ (t ) = const и P (t ) = exp (– λt ), наработка на отказ равна величине, обратной интенсивности отказов:

Количественные показатели надежности восстанавливаемых изделий. Точечный (локальный) показатель надежности - параметр потока отказов ω (t ) -удельная вероятность появления хотя бы одного отказа в единицу времени, т. е.

где П o (t )-поток отказов - последовательность отказов, наступающих в случайные моменты времени.

Точечный (локальный) показатель надежности- параметр потока восстановлений μ (t ) -удельная вероятность хотя бы одного восстановления в единицу времени, т. е. где П в (t ) -поток восстановлений - последовательность восстановлений, наступающих в случайные моменты времени.

Среди множества различных отказов (восстановлений) в теории надежности особое место занимает простейший поток отказов (восстановлений), поскольку наиболее важные для практики результаты получены в теории надежности именно для случая простейших потоков. Это объясняется тем, что поведение изделия как системы массового обслуживания при простейших потоках отказов и восстановлений описывается системой дифференциальных уравнений с постоянными коэффициентами, методы решения которой хорошо разработаны.

Для практики расчетов надежностных показателей изделий очень важна связь между параметром потока отказов ω (t ) восстанавливаемого изделия и интенсивностью отказов λ (t ) того же изделия, рассматриваемого как невосстанавливаемое, т. е. функционирующее до первого отказа.

В показано, что

, (8)

где f (t )= λ (t )P { t ) -частота отказов невосстанавливаемого изделия.

Решение дифференциального уравнения (8) в предположении, что поток отказов соответствующего восстанавливаемого изделия простейший, дает ω (t ) = λ (t ).

Если учесть, что на практике в большинстве случаев предполагается, что λ (t )= λ =const, то ω (t ) = λ , т. е. численно параметр потока отказов восстанавливаемого изделия равен интенсивности отказов соответствующего невосстанавливаемого изделия.

В предположении, что поток восстановлений изделия простейший, на практике параметр потока восстановлений изделия находят как μ (t ) = l / Т в =const, где Т в - эмпирическое (опытное) значение среднего времени восстановления (ремонта) изделия.

Точечный (локальный) показатель восстанавливаемого изделия- функция готовности K г (t )-определяется как вероятность того, что в любой момент времени t изделие оказывается в работоспособном состоянии, т. е.

, если
, и
, если
. (9)

где P i (t ). и P j { t ) -вероятности нахождения системы в момент времени t в i -м исправном и j -м отказовом состоянии соответственно; N + 1 - общее число, a k - число исправных состояний изделия.

Предел функции готовности K Г (t ) при t →  называется коэффициентом готовности К Г и служит интегральным показателем надежности восстанавливаемого изделия:

. (10)

Поскольку коэффициент готовности является финальной вероятностью пребывания системы в исправном состоянии, его можно вычислить, используя изображения Лапласа соответствующих вероятностей:

Обычно изображение функции готовности K Г (s ) имеет вид

причем n ≥ m ; поэтому

(12)

Интегральные показатели надежности - среднее время работы между двумя отказами T cp и среднее время восстановления T в , т. е. математическое ожидание времени между соседними отказами и восстановлениями соответственно. Показатели T cp и T в можно определить, если известны финальные вероятности пребывания изделия во всех возможных состояниях и интенсивности переходов из отказовых в предотказовые состояния:

; (13)

, (14)

где
-финальная вероятность нахождения изделия в l -м рабочем состоянии, l = 0 ... L ;

Финальная вероятность нахождения изделия в (L + i ) -м отказовом состоянии, L + i = L + l , ..., L + N ; μ L + i , l - интенсивность перехода из (L +i )-гo отказового состояния в l -е предотказовое состояние.

Иными словами, среднее время между двумя отказами T cp определяется как отношение суммы финальных вероятностей нахождения системы в рабочих состояниях к сумме финальных вероятностей нахождения системы в отказовых состояниях, непосредственно связанных с рабочими состояниями и умноженных на соответствующую эквивалентную интенсивность восстановления. Последняя есть сумма интенсивностей восстановления, с которыми возможен переход из данного нерабочего состояния L + i , где i=l ÷N , во все связанные с ним рабочие состояния. При вычислении среднего времени восстановления T в в числителе отношения берется сумма финальных вероятностей нахождения системы во всех отказовых состояниях, в знаменателе - сумма, аналогичная выражению T cp . Заметим, что

Классификация методов резервирования. При расчете надежности сложного изделия (узла, устройства, системы) полезно составить расчетную надежностную схему.

Если изделие состоит из N элементов и отказ изделия в целом наступает при отказе любого одного из его элементов, то говорят об основном (последовательном) соединении этих элементов, условное изображение расчетной надежностной схемы которого приведено на рис. 2, а. Так как каждый i элемент характеризуется в общем случае интенсивностью отказов λ i (t ) и вероятностью безотказной работы
, то вероятность безотказной работы изделия в целом

. (15)

Для экспоненциального закона вероятности, безотказной работы отдельных элементов, т. е. при λ i = const, вероятность безотказной работы изделия в целом

и наработка на отказ Т о = 1 / λ Σ , где

Если изделие состоит из N элементов и отказ изделия в целом наступает лишь в случае, когда откажут все N входящих в него элементов, то говорят о параллельном соединении этих элементов, расчетная надежностная схема которого приведена на рис. 2, б. В этом случае вероятность безотказной работы

а наработка на отказ Т о и интенсивность отказов изделия вычисляются по (6) и (2) соответственно.

а)

Рис. 2. Условное изображение в надежностных схемах последовательного (а), параллельного (б) и параллельно-последовательного (в) соединений изделий.

В общем случае изделие с точки зрения надежности может быть представлено параллельно - последовательной рабочей надежностной схемой, в которой последовательное соединение элементов отражает поведение элементов, отказ которых приводит к отказу изделия в целом, а параллельное соединение элементов отражает поведение элементов, отказ которых приводит к отказу изделия в целом, если откажут все элементы параллельного соединения. На рис. 2, в приведен пример параллельно-последовательной надежностной схемы.

Если надежностная схема изделия содержит параллельное соединение, т. е. если в изделии повышение надежности обеспечивается использованием функционально избыточных элементов, то говорят, что в изделии имеет место резерв. При этом различают поэлементный, общий и скользящий резерв.

Рис. 3. Классификация способов резервирования изделий

Поэлементный резерв - резерв, при котором функционально избыточные элементы предусматриваются на случай отказа отдельных элементов или групп элементов изделия.

Общий резерв - резерв, при котором функционально избыточные элементы предусматриваются на случай отказа изделия в целом.

Скользящий резерв - резерв, при котором функции элемента неизбыточного изделия передаются резервному элементу только после отказа основного элемента, причем основные элементы резервируются одним или несколькими резервными элементами; каждый из которых может заменить любой отказавший основной элемент.

Общий, поэлементный и скользящий резерв в зависимости от того, в каком режиме (включенном или выключенном) используются резервные элементы до момента начала их функционирования вместо отказавших основных элементов, подразделяют на нагруженный (горячий) и ненагруженный (холодный) резерв.

В случае нагруженного (горячего) резерва резервные элементы находятся в том же рабочем режиме, что и основные.

В случае ненагруженного (холодного) резерва резервные элементы до момента их использования вместо основных элементов практически не несут нагрузок, находятся в выключенном состоянии.

Классификация способов резервирования невосстанавливаемых и восстанавливаемых изделий (узлов, устройств, систем ЭВМ) в зависимости от режима работы и способа включения резервных элементов приведена на рис. 3.

Методы расчета количественных показателей надежности изделий. Расчет показателей надежности невосстанавливаемых изделий с нагруженным общим или поэлементным резервом в предположении внезапных отказов элементов с постоянными во времени интенсивностями отказов элементов проводится с использованием соотношений (6), (15), (16). Например, для расчетной надежности схемы, показанной на рис. 2, в,

Расчетная надежностная схема для невосстанавливаемых изделий с нагруженным скользящим резервом (рис. 4, а) содержит п основных элементов и т резервных. В предположении, что вероятности безотказной работы всех элементов (основных и резервных) одинаковы и равны p (t ), вероятность безотказной работы изделий в целом P (t ) определяется как вероятность события, что за время t в изделии произойдет не более т отказов, т. е.

, (17)

где p (t ) в случае внезапных отказов с постоянной во времени интенсивностью λ равна ехр (-λ t ).

На практике с целью повышения надежности сложных вычислительных устройств широкое распространение получило мажорирование, которое можно рассматривать как частный случай скользящего нагруженного резервирования.

При мажорировании изделие l -кратно резервируется; причем l нечетно. Результат работы всех изделий сравнивается в специальном устройстве - мажорирующем элементе (рис. 4, б)-и за истинное значение принимается такое, которое имеет место на выходе большинства изделий, т. е. на выходе (l -1)/2+1 изделий. Вероятность безотказной работы l -кратно мажорированного изделия в предположении, что мажорирующий элемент абсолютно надежен, можно оценить, используя соотношение (17), если в нем положить

Рис. 4. Расчетные надежностные схемы для случаев невосстанавливаемых изделий с нагруженным скользящим резервом (а ) и мажорирования (б ).

m + n = l , m = (l -1)/2, т.е.

При l =3, 5 и 7 соответственно получим Р 3 (t ) = р 2 (t )(3-2р (t )]; P 5 (t )= р 3 (t ); P 7 (t )= р 4 (t ) .

Показатели надежности невосстанавливаемых изделий при нагруженном общем, поэлементном и скользящем резерве либо восстанавливаемых изделий при ненагруженном или нагруженном общем, поэлементном и скользящем резерве можно вычислить, описывая «старение» таких изделий случайным марковским процессом с дискретными состояниями .

Случайный процесс называется марковским случайным процессом (процессом без последействия), если дальнейшее поведение процесса определяется его состоянием в данный момент времени и не зависит от его предыстории. Случайный марковский процесс называется процессом с дискретными состояниями, если возможные состояния изделия S 1 , S 2 , S 3 , ... можно перечислить (перенумеровать) одно за другим, а сам процесс состоит в том, что время от времени изделие S скачком (мгновенно) переходит из одного состояния в другое под действием простейших потоков отказов и восстановлений отдельных элементов изделия.

При анализе поведения изделия во времени в процессе износа (старения) удобно пользоваться графом состояний, содержащим столько вершин, сколько различных состояний возможно у изделия. Ребра графа состояний отражают возможные переходы из некоторого состояния во все остальные в соответствии с параметрами потоков отказов или восстановлений. Если для каждого состояния изделия, другими словами, для каждой вершины графа вычислить вероятность нахождения изделия именно в этом состоянии в любой произвольный момент времени P i (t ), то, зная эти вероятности, можно оценить интересующие на практике показатели надежности, используя соотношения (2),(6),(9)- (14).

Связь между вероятностями нахождения изделия во всех его возможных состояниях, в свою очередь, выражается системой дифференциальных уравнений Колмогорова . Структура уравнений Колмогорова построена по вполне определенному правилу: в левой части каждого уравнения Колмогорова записывается производная вероятности нахождения изделия в рассматриваемом состоянии вершины графа, а правая часть содержит столько членов, сколько ребер графа состояний связано с данной вершиной графа (если ребро направлено из данной вершины, соответствующий член: имеет знак минус, если в данную вершину - знак плюс). Каждый член равен произведению параметра потока отказа (восстановления), связанного с данным ребром, на вероятность нахождения в той вершине графа, из которой исходит ребро. Система уравнений Колмогорова включает столько уравнений, сколько вершин в графе состояний изделия. Решение системы уравнений Колмогорова при конкретных начальных условиях, определяемых спецификой эксплуатации изделия, дает значения искомых вероятностей P i (t ).

В общем случае применение теории случайных марковских процессов к решению задач оценки показателей надежности восстанавливаемых и невосстанавливаемых изделий включает: 1) составление списка всех возможных состояний изделия; 2) вычисление параметров потоков отказов и восстановлений для каждого состояния; 3) составление графа состояний; 4) запись системы дифференциальных уравнений Колмогорова; 5) решение системы уравнений Колмогорова и определение количественных показателей надежности по соотношениям (2), (6), (9)-(14).

Пути повышения надежности УВС. Надежность УВС растет по мере совершенствования элементной базы. Так, применение микропроцессорных наборов БИС, БИС ЗУ, матричных кристаллов ведет к уменьшению числа элементов, числа межсоединений (паек, сварок) в средствах вычислительной технике. Однако из-за тенденции постоянного увеличения функциональных возможностей средств вычислительной техники число элементов в системах остается достаточно большим.

Если резерв в УВС отсутствует, то практически невозможно достичь приемлемых показателей надежности. Поскольку в инженерной практике считают, что вычислительное средство надежно, если вероятность безотказной работы Р (Δt ) в течение некоторого интервала времени Δt равна 0,997, постольку при λ = 10 -4 ÷10 -7 1/ч и числе элементов в системе n = 10 4 ÷10 5 время безотказной работы в указанном выше смысле составляет лишь единицы часов:

Например, при λ = 10 -7 1/ч и n =10 4 Δt ≤3 ч. Так как существенно уменьшить п и λ нельзя, то и увеличить Δt без применения резерва практически не удается. Опыт эксплуатации электронной техники показывает, что интенсивность отказов элементов при ее хранении примерно на порядок ниже, чем при работе в реальных условиях эксплуатации, т. е.

λ xp ≈ 0,1λ . Это означает, что применение ненагруженного резерва без восстановления может снизить n λΔt не более чем в 10 раз. Такой подход дает возможность создавать средства вычислительной техники, работающие безотказно практически лишь в течение десятков часов, что не решает проблемы резкого повышения надежности УВС.

Теоретически введением избыточности в структуру УВС можно создать сколь угодно надежную вычислительную систему. Но не всегда это практически выполнимо. Для подтверждения этого тезиса сравним количественные показатели надежности: 1) нерезервированной УВС, характеризуемой параметром потока отказов ω = λ и параметром потока восстановлений μ; 2) дублированной УВС (общее резервирование) с восстановлением отказавших ЭВМ; 3) дублированной УВС (поэлементное резервирование) с восстановлением отказавших элементов; 4) УВС, состоящей из п основных и m резервных равнонадежных ЭВМ с параметром потока отказов, каждый из которых равен λ (предполагается, что восстановление отказавших элементов с параметром μ возможно в процессе работы системы).

Для нерезервированной УВС

Р (t ) = ехр (–λ t ); К Г = μ / (μ + λ); T cp = 1 / λ.