MiroHost сделал официальное заявление о вчерашней аварии в дата-центре

2281
63

Компания Mirohost, дата-центр которой вчера оказался обесточен, сделала первое официальное объяснение.

Отмечается, что вышли из строя оба источника бесперебойного питания (UPS), включённых в параллель для резервирования по схеме N+1, через которые было подключено электропитание всего дата-центра. Точная причина выхода из строя оборудования, которое как раз предназначено для обеспечения бесперебойности питания, пока не установлена.

“Предположительно это могло быть связано с броском питания на городской сети в момент аварийного обесточивания линий метрополитена в связи с пожаром. В связи с этим в экстренном режиме были произведены работы по переключению дата-центра на новую систему UPS, а также обеспечена работа UA-IX, которая была восстановлена в течение 20 минут после отключения. В течение двух часов были проделаны работы, которые в плановом режиме занимают несколько дней. Над устранением аварии работало около 40 различных специалистов – энергетики, электрики, инженеры по обслуживанию UPS, системные администраторы”, — сообщает компания в своем корпоративном блоге.

Александр Ольшанский, президент компании, объяснил, что электроенергия у компании была (в дата центре у них есть дизельный генератор и два независимых ввода электропитания), но включать все напрямую, минуя UPS было опасно. Особенно когда причина выхода из строя системы бесперебойного питания не установлена. Он пообещал, что в течение ближайших дней будет проведен детальный анализ причин аварии и исследование вышедших из строя UPS.

Оставить комментарий

Комментарии | 63

  • Такі установи повинні мати мінімально два незалежні вводи + потужний генератор чи кілька + систему UPS — це елементарно  і відомо будь-якому енергетику і закладаєтсья в моменті проектування (Заява про те, що все було, а підвів упс — смішна. Чи в наявності лише домашні упси? Хто не знає, то система резервного живлення має передбачати перепади напруги, пропадання всіх трьох джерел живлення і тримати рівно стільки, скільки потрібно на запуск генераторів чи перекидання вводів ну і приміщення де розміщені упси — це досить велика кімната). Але щось мені так здаєтсья, що винним в цьому всьому зроблять енергетика, чи навіть просто електрика.

    • Вы или текст не читали весь, или совсем не понимаете его смысла. Написали же, что можно было бы включить все напрямую, без упсов, но, если бы скачек повторился, то был бы риск того, что сгорели бы все сервера в датацентре.

      И это проблема не Мирохоста, как компании, а Ньютелки, которой принадлежит дата-центр, в котором многие компании снимают целые комнаты со стойками. 

      • Учитывая, что деньги я плачу Мирохосту, то это проблема Мирохоста.

      • Леша, а разве физически площадка Мирохоста и Ньютелки это не разные помещения?

        • Дата-центр (как здание) один, а внутри куча комнат, которые арендуют разные компании. Никто не будет ставить в своих комнатах дополнительные упсы, т.к. на это место лучше поставить стойки.

          I.UA не имеет ни какого отношения к Мирохосту, при этом мы тоже вчера лежали из-за питания, т.к. это ответственность Ньютелки.

          • «Никто не будет ставить в своих комнатах дополнительные упсы, т.к. на это место лучше поставить стойки»

            Никто, кроме тех, кому платят за гарантии работоспособности. Ваш портал зарабатывает не на том что оказывает услуги для бизнеса, поэтому, в случае отказа вашего сервиса, никто кроме вас деньги не потеряет.

          • У вас видимо нет представления о том, как выглядят промышленные упсы. Бытовые проблему не решают.

          • Хлопці, прикольно вас читати.
            Ви так спокійно тут дискусії розводите, … тому що в наслідок аварії ВСЬОГО ЛИШЕ виник збій в роботі обладнання й  тривала пауза в роботі інтернет-проектів.
            Це, звісно, крута комерційна проблема для будь-якого бізнеса.

            А тепер уявіть, що в інших місцях (наприклад, на металургійних, хімічних, гірничих, машинобудівних.. заводах) подібний перебій у живленні агрегатів може призвести до катастроф на виробництві й загибелі людей.
            Тож, там подібні отмазки Ольшанського мало кого цікавили би, адже наслідки були б на порядок гірші.

            У 2001 році (я тоді працював старшим майстром на доменій печі на «Криворіжсталі») в полі біля Миколаєва завалилась високовольтна лінія й весь Кривбас залишився без напруги на 4 години. 
            Ото була жопа. У нас все електрообладнання на печі стало, зупинилась подача водяного і повітряного охолодження, всі заслонки стали мертвими… а нам якраз чавун треба випускати…
            Люди бігали й не знали, чи вже уйобувать з печі, чи все таки лізти на агрегати й руками крутити кінематику, яку зазвичай відкриває двигун з кількістю обертів 3500 на хвилину.Деякі задвижки крутили всі 4 години  і не відкрили до кінця… Загалом, тоді пощастило, що пічка не вибухнула (як у 90-х було у Дніпродзержинську).Але у нас в ті роки ще майже нічого з UPS не було. Лише офісні системи від APC для компів. Після того почали вивчати варіанти й вибили фінансування на більш серйозні апаратні рішення.Але розповідати, що одразу два УПСа накрилися — це повна маячня. Вирогідність : 1 з 1000000. Та й взагалі, нащо їм така система безперебійного живлення, що лягає обома джерелами водночас?Думаю, це брехня.Ні, я не думаю — я впевнений.Хочете дізнатися правду — спитайте у Ольшанського назву фірми обладнання, яке накрилось двома апаратами водночас.А потім можна піти до представництва фірми й спитати: що ж це за херня, як ми вам можемо довіряти? Ви казали, що ваша подвоєна система з «гарячим резервуванням» не має аналогів і гарантує 99,9999% готовності?Ось, тут вони й вскриють правду — бо їм невигідно сидіти мовчки, коли їх поливають брудом — вони проведуть реальне розслідування і скажуть вам, в чому була причина!А без цього…. завтра ви отримаєте ПОВТОРЕННЯ ситуації.Бо винні не були названі.І сьогодні ніхто не знає, ЯК НАЗИВАЄТЬСЯ бренд, обладнання якого вийшло з ладу двума апаратами водночас.А …. всім же цікаво, насправді — бо ніхто не хоче купувати собі UPS, що не працюють в ті критичні моменти, для яких вони і ПРИЗНАЧЕНІ .

          • Да там действительно накрылось два упса, но, не из-за скачка в сети, а из-за электриков, которые в этот момент расширяли датацент подключая новую пару упсов. Тут сразу нужно было обратить внимание на то, от куда так быстро нашлась вторая пара на замену и понять, что говорят нам неправду.

  • То что случилась ошибка понятное дело, что есть виновные в этом люди.

    Но стоит ли добивать сейчас MiroHost всякими заявлениями, поучиваниями, нравоучениями и прочее?
    Главное не уподобиться тем которые только и ждут, что лидер споткнулся, чтоб набросится и заклевать в сложный момент, ведь другой возможности то в принципе нет… к сожалению язвить всегда есть кому…
    Вспомните что и у Amazon и Google были свои промахи, но это не помешало им и дальше качественно работать.  
    Уверен что компания найдёт причины казуса, устранит их и обеспечит чтобы такого больше не произошло. А для остальных участников рынка хорошая возможность задуматься застрахованы ли их оборудование от подобных проблем.

    • Стосовно моєї фрази, це з позиції енергетика 🙂 Оскільки енергетики завжди гворять керівникам, що потрібно такі так, а потім доводиться викручуватись і ліпити щось з того, що на думук керівництва достатньо. І все працює до першого чи другого подібного випадку і тоді починають знову витрачати гроші і докупляти необхідне. Але так і витрати збільшуються. Спочатку купують менше, потім додають ще і нколи з першого разу все, що потрібно.

      Кожен прокол чогось вчить.

      • Вы всё правильно говорите с позиции хорошего специалиста, но вы не знаете чем руководствуется руководитель в этот момент. Ведь вся картина бизнеса, его проблемы,  возможности, выгоды, обязательства и прочие моменты знает только он и он в этот момент старается принять наиболее качественное решение, но он докладывать подчиненному не обязан, что например если в этом месяце компания не закроет обязательства, то все работники могут потерять работу. Вот поэтому не рекомендую делать поспешных выводов.

  • Мдя, кризис-менеджментом у нас в стране ни кто не занимается. А про репутационный я вообще молчу. 

    Вон в Англии целые агентства работают над рисками и кризисами. Консультируют. А нам зачем? Дорого же и гром пока не грянул. Точнее вчера грянул.

  • Давно ли аккумуляторы меняли? 🙂

  • Мне грубо говоря покласть какие у них проблемы, и как быстро они их решили. Это не война, на дата центр не упал метеорит. «Всего лишь» питание отключено было «одно из», так почему тогда возникла проблема? Я потерял деньги пока сайты не работали и уверен, что эту проблему можно было избежать при правильной организации. 

    Фиг с ним, посмотрим в реальность и признаем, что возможно Мирохост решили проблему быстрее, чем кто-либо другой мог бы ее решить. Но это прокол, люди понимают. Зачем браво рапортовать — смешно же?

    • Мне грубо говоря покласть какие у них проблемы, и как быстро они их решили — я думаю с такой позицией вам довольно не легко живеться:)

      •  Это нормальная позиция. Но авариям «покласть» на эту позицию.

      • Артур, всё упирается в деньги. 
        Если через падение хостинга я их недозаработал — это мои проблемы, правда? 
        А то что я недозаработал их через чужые провтыки — я не собираюсь относится «с пониманием». 

        Каждый получает деньги за то. что делает. И делать это надо хорошо. чтоб потом не отмазыватся. 

          • Я уже не пользуюсь услугами Мирохоста некоторое время. 
            По причине неподходящих пакетов виртуального хостинга. 

            Но вот у многих клиентов, с хорошим международным трафиком — было вчера очень много вопросов )))

          • я пользовался мирохостом и вполне был доволен, пока не понадобился свой сервак, который я предпочел поставить у себя дома — кто не хочет, ищет проблему, кто хочет, возможность 😉

          • а как вы обеспечиваете бесперебойность работы каналов и электропитания?

          • сейчас уже никак — мне все это надоело и я прекратил этим заниматься, а в то время, когда я этим болел — у меня был автономный генератор, для подобных моментов

        • Все упирается в деньги — и это верно. Цена девятки, кажись, называется:)

          Артур Оруджалиев
          Главный редактор AIN.UA
          Sent with Sparrow (http://www.sparrowmailapp.com/?sig)

      • Если бы у на в Украине хотя бы 10% населения было с подобной позицией, то с большинством «беспредела», «рейдерских захватов», «хамства в банках», «при продаже дверей» и т.п. было бы покончено.

      • Есть договор и в нем прописано в каком случае должна обеспечиваться бесперебойная работа, а в каком — нет. То, что ребята сэкономили на УПСах — действительно только их проблемы и клиентов не касаются. Ну или как их убедить поставить еще УПСов? Выплатой неустойки, наверное.

        • А как до проведения экспертизы вы узнали, что «сэкономили на упсах»?


          Артур Оруджалиев
          Главный редактор AIN.UA
          Sent with Sparrow (http://www.sparrowmailapp.com/?sig)

          • Они вышли из строя из-за неполадок на внешних линиях питания. Об этом говорит сам мирохост. Причина такого — недостаток резервирования и/или тестирования. 
            Даже, если дело в уборщице, что в панике зацепила важных кабель — это проблема ДЦ. Если бы у Мирохоста были подозрения в том, что дело в форсмажоре, то они бы их озвучили сразу.

            К сожалению, недостаточное резервирование питания, это бич всех (или почти всех) украинских публичных ДЦ. Потому, мирохосту в данном случае, стесняться нечего. Если бы они поставили нужное количество УПСов, скорее всего, не смогли конкурировать с остальными по цене. Но это не значит, что в аварии Мирохост не виноват.

    • печалька конечно же, что Вы потеряли пару каких-то копеек!!! Может это Вас сподвигнет открыть свой датацентр под свои «мега» проекты и не обвинять людей в том, в чем не следует? 😉

  • Объяснение неубедительное. Возникает больше вопросов, чем получено ответов. 
    Жаль. У меня сервер не перегружался 560 дней до этого… 
    Понятно убытки…  

  • подобная хрень была как-то в колоколе в  бункере,  ни о каких компенсациях, есс-но, речь не пошла )

  • Что-то я ни на сайте Мирахоста, ни в письмах от них не нашёл никаких заявлений, кроме голословных заявлений, что » MiroHost обладает самым надежным оборудованием, необходимым для бесперебойной работы вашего сайта и электронной почты»

  • Лично меня устроило бы простое честное письмо лично мне, как клиенту: «Здрасьте, извините, проебали, виноваты, причины вот… чтобы больше такого не случилось сделаем так… и так…».При чем тут корпоративный блог — не знаю. Где слово «извините» — не вижу.

    А еще лучше — корпоративный твиттер с сообщениями типа: «ребята, уплаи, разбираемся…», «отрубило электричество, планируем в течении часа подняться». Мы же говорим о большой хорошей украинской интернет-компании, правда? Пара десятком ретвитов — и все в курсе, а значит уже легче.

    Не отбирая ни у кого права на форс-мажор, прошу относиться ко мне с уважением как к клиенту, и методично изживать из компании совковый менталитет.

  • Трабл мирохоста бесспорный. И многие сайты не получили той ожидаемой прибыли во время их отсутствия в интернете или просто процесс остановился.
    Будем надеяться, что выводы сделает не только мирохост, но и другие компании предоставляющие услуги. На месте мирохоста хотя бы какие то письма счастья прислали клиентам с извинениями, для некоторых этого была бы достаточная компенсация.

  • да упсы еще спасают и от скачков напряжения и выравнивают напряжение в во время переключения на генератор. У упсов есть паспорта в которые вносятся данные проверки (например еженедельно или ежемесячно нагрузка в амперах на упс) и поверки (например раз в 6 месяцев вырубают питание и смотрят сколько протянет упс пока напруга не упадет до 215 или 210 вольт). Я тут для примера написал а вообще проверки делаеются согласно рекомендации поставщика или внутреннего техрегламента. Раз в несколько лет батареи заменяются на новые а то и весь упс заменяется на более мощный. Упсов как правило стоит на один больше чем нада что бы один можна было ремонтировать, ну в больших датацентрах рекомендованно на 2 или 3 больше чем нада — во первых хорошо иметь резерв по питанию, во вторых для повышения надежности. Скорее всего они не проверяли упсы и когда напряжение резко упало то оказалось что не все упсы работают как надо, а рабочие упсы просто не смогли обеспечить 220 вольт и вырубились по перегрузке. В итоге они вырубили часть серверов и вкуючали их по одному. Второй менее вероятный вариант —  упсов в мирохосте стоит меньше чем нада и когда два из них загнулось (упсы вообще редко загибаются так в них куча защит) оказалось что остальные просто не вытянули нагрузку. 
    чисто имхо

    • Продолжу тему. Указано что вышли из строя ОБА бесперебойника. т.е. резервирование было 1+1. Скорее всего нагрузка выросла, резервирование пропало, один сбойнул (или уже был битый) а второй просто лег при краткосрочном переходе на батареи. Уверен что авария развилась очень быстро в промежуток «моргания сети», т.е не более 20-40сек, поскольку если продолжительно то дальше должен был стартонуть генератор и выйти на режим (если АВР ДЭС оснащена корректным реле контроля фаз). При нормальной конфигурации перегруз системы или поломки ИБП, даже двух ИБП, должны были перевести нагрузку на транзит от сети. Интересно, какого типа стояли ИБП? Какой мощности, если каждый из них мог защитить весь ДЦ? И какого производителя?  Да, и если хороший дизель-генератор, то можно было стартовать работу ДЦ без ИБП, плавно подключая нагрузку. 

  • + более мене оперативно устранили проблему
    — пресловутые генераторы/упсы не работают 
    = отличная встряска для тех.персонала и выявление одной неисправности (из большого количества, о которых они и не догадываются)

  • недавно сталкивались с похожей проблемой (она была гораздо меньшего масштаба, неработал только один из сервисов 2 часа) на крупном мировом сервисе облачного хостинга. В блоге поддержки сразу появилась запись, что случилось и по ходу решения проблемы запись обновлялась. По нашему запросу получили сразу письмо с квалифицированным ответом. Через день пришло письмо с развернутым описанием возникшей проблемы, извинениями и 33% дисконта месячной стоимости на те услуги с которыми был так или иначе связан неработающий сервис. 

  • Приношу всем свои извинения по поводу аварии в нашем ДЦ. Мы разумеется сейчас разошлем извинительные письма, и скорее всего рассмотрим вопрос компенсаций клиентам. Но сейчас мы работаем еще в напряженном режиме, значительная часть персонала не ложилась спать и соответственно нам сейчас немного не хватает рук. Так что еще раз прошу у всех прощения за инцендент, думаю до вечера мы решим все вопросы и отпишемся клиентам. Детальное расследование ицендента назначено на след неделю.

    А. Ольшанский

  • такое ощущение, что половина комментаторов просто не читала текст полность

  • проблемы клиентов Мирохоста обязан решать/компенсировать Мирохост
    а вот выставлять регрессный иск производителям УПСов, энергетикам-проектировщикам или еще кому бы то ни было, кто окажется виновен в произошедшем — это право Мирохоста, если, конечно, не окажется, что это внутренний факап

  •  зная как работает Мирохост, уверен, что это был их внутренний факап!!! уже не первый раз они что-то меняют у себя внутри, при этом никому ничего не говоря, а потом вылазят проблемы, которые опять же Мирохост не признает сразу, пока им носом не ткнешь! Уверен, что они у себя что-то решили сами обновить, поменять и видимо через корявость рук все хорошенько шарахнуло… А пытаются спихнуть на третьих лиц.

  • Похоже, тут многие знают, что надо было сделать и чего не надо было делать, будь они на месте мирохост.

    Хочу просто обратить на то, что было реально сделано и видно для нас, как клиентов:

    1. После того, как сработал мониторинг дозвонились в мирохост с первого раза. 
    2. Сразу узнали суть проблемы (вышедшие из строя два упса), ожидаемый срок решения и действия, которые для этого предпринимаются
    3. Как только связь с серверами восстановилась, нам сразу сообщили об этом

    Так что к информированию о происходящем у нас вопросов нет.

    Для себя сделали выводы, что
    1. realtime резервирование за пределы дата-центра — это хорошо (и оно у нас было)
    2. Резервные NS в том же дата-центре, что и основные сервера — это плохо (и глупо 🙂 )

    У zappos недавно увели базу данных клиентов и ничего, не вилы не подняли, выводы сделали и живут дальше. 

    Не знаю, что произойдет с другими дата-центрами, если им «подарить» по питающей шине 10 киловольт, но в мирохост, я думаю, такой проблемы больше не будет. 

  • Почему выполнение такой простой и понятной задачи, как планирование, часто
    является такой сложной? Ответ на этот вопрос не совсем очевиден. Обращу
    внимание, только на один из ответов, а именно, производители
    высокотехнологичного оборудования приучили конечного потребителя к тому,
    что нет необходимости вникать в технические подробности оборудования и
    что отказ от планирования позволит сэкономить значительный бюджет.
    Последний пункт очень часто перевешивает все остальное.
    Поскольку статья будет касаться особенностей бесперебойного электроснабжения корпоративного сектора, а не SОHО (Small Office — Home Offiice),
    то особое внимание обращаю на то, что вариант «увидели, купили,
    включили, забыли» не будет работать в данной ситуации. Только тщательная
    и взвешенная постановка задачи, а затем планирование работы и
    многостороннее рассмотрение системы на этапе проектирования дадут в
    итоге результат — построение оптимальной системы для обеспечения
    бесперебойного электропитания.

    Во всех секторах экономики, которые используют ИБП повышенной сложности, в
    частности, банковский, операторы связи, промышленный, подразумевается
    беспрерывная эксплуатация с периодической профилактической остановкой на
    обслуживание инженерных систем. И хотя, в последние годы наблюдается
    стремительный рост в усовершенствовании данных систем и рынок насыщен
    ими, мы постоянно получаем информацию о серьезных сбоях и авариях систем
    ИБП. Такие аварии сопровождаются длительными простоями для устранения
    неполадок, и, как следствие, серьезными финансовыми потерями, а также
    недовольством конечных потребителей. Особенно наглядно такая проблема
    видна в работе интернет провайдеров, поскольку конечный потребитель сразу ее ощущает. Естественно, что истинную причину «падения связи» мало кто называет.

    http://tehnoblog.org.ua/blogs/a/320-Prodolzhenie-osobennosti-elektrosnabzheniya-servernyih

Поиск