Истории из нашей профессии, смешные и не очень.

Здесь Вы можете побеседовать о чём душе угодно. Желательно конечно, но не обязательно, чтобы тема разговора имела какое-то отношение к обучению и сертификации.
Андрей Азаркин(КроТ)
Сообщения: 0
Зарегистрирован: 01 янв 1970 03:00

Истории из нашей профессии, смешные и не очень.

Сообщение Андрей Азаркин(КроТ) » 08 июл 2014 21:42

Думаю у многих в нашей профессии есть интересные, веселые и поучительные истории связанные с работой. возможно такая тема уже была, но предлагаю возобновить.

Андрей Азаркин(КроТ)
Сообщения: 0
Зарегистрирован: 01 янв 1970 03:00

Истории из нашей профессии, смешные и не очень.

Сообщение Андрей Азаркин(КроТ) » 08 июл 2014 22:25

Работал я как то в крупной японской конторе провайдере, назовем ее KDDI. Администрировал я крупнейший на восточном побережье США интернет узел. Была у меня такая ситуация. После того как я пришел в компанию, стал осваиваться, и начал замечать что пресловутое японское "семь раз отмерь - один раз отрежь" тут не работает. Взяли меня на должность главного инженера и технического советника при VP. У сети 5 крупных POPs в Нью Йорке и 2 в Лос Анджелесе, куча крупнейших корпоративных клиентов типа Google, Yahoo, Microsoft, Time Warner, Netflix и прочих. И я к своему ужасу обнаружил что у всех узлов отсутствует OOB - Out-of-Band management. Ну я как добросовестный и ответственный инженер пришел с этой новостью к своему боссу, VP Operations. Он японец, человек хорошо разбирающийся в управлении но слабо понимающий в технологии, как это часто бывает. Он отмахнулся, сказал что в курсе и это его сильно не волнует т.к у нас на каждом узле реданданси на линейных картах. То есть если даже откажет линейная карта, другие каналы транки сидят на других картах, то есть транк не упадет целиком. Ну я вроде свое дело сделал, довел, так сказать информацию. Но периодически напоминал боссу что сие некошерно иметь узлы без OOB. Все таки 10-и гигабитные клиенты, каждый свич на узле стоит под сраку денег ( $250,000 только chassis ), и вообще мало ли еще что. Но босс ссылался на тонкий бюджет и что мол все работало и работать будет и дальше... Думаю, ладно, но если что, я предупреждал.

Так и вышло. В один прекрасный день, вернее ночь как обычно это бывает с пятницы на субботу, у меня зазвонил мобильник. Смотрю, наш НОК меня вызывает. Беру трубу, а оттуда - "Шеф, все пропало! Гипс снимают, клиент уезжает!" и все в таком роде. Гляжу почту, а там под три сотни емайлов с alerts. Думаю, опа, приплыли.

Все алерты идут с сервера который ругается что все клиенты на свиче в Лос Анжелесе недоступны. Откываю ноут, пробую зайти на свич. Хрена с два, даже не пингуется. Думаю неужто свич сдох??? Звоню в ЛА в наш датацентр. Спрашиваю у вас все в порядке с питанием? Они говорят да, все нормально. Обьясняю что у меня свич недоступен, и я подозреваю что обесточен. Соединили меня с техником. Он прошелся до моего шкафа, вернулся и говорит, нет питание в порядке, свич запитан и все огни на нем горят. Думаю, это конечно хорошо, только что за беда тогда... Захожу на второй свич в ЛА и вижу что все транки на первый down. транков всего 4х10Г, обьединенных в один LAG. каждый транк сидит на своей linecard. Не может быть чтобы все карты отказали разом. Конечно все это время мне звонят: босс, НОК, датацентр... Голова идет кругом, но надо что то решать. OOB нет, значит зайти на свич через консоль удаленно не могу. Единственный выход, просить ЛА датацентр найти чувака с ноутом и консольным кабелем и дать мне доступ через VNC или Ситрикс. Как назло, там всего два человека на смене, у них там все есть но нет софта для удаленного доступа, а установить они его не могут из-за ограничений в полиси.

Короче, мне это надоело, звоню в техсуппорт Brocade ( свичи у нас были Foundry RX , a Foundry был куплен Brocade ). Говорю у меня эмердженси, нужен срочный выезд техника на обьект. Надо отдать должное, они оперативно отреагировали, через час технарь был уже на месте ( уж не знаю насколько у.е они выставили нам счет потом, но это была не моя забота уже ). Короче приехал техник, воткнулся в консоль через ноут и дал мне доступ через VNC. зашел я на свич, смотрю на логи. Вижу что упали два транка одновременно. Но остальные два то вроде должны были работать, думаю. Потыкал в конфиги и думаю п..дец, вот оно!

Оказалось в конфигах была одна маленькая но важная команда " minimum-active links 3". Думаю понятно, что она отрубала весь LAG если количество живых транков было меньше трех. У меня упали два, и весь LAG был отключен! Уж не знаю кто и когда ее туда прописал, но я ее стер, поднял LAG и все заработало.

Потом конечно у меня был долгий разговор с менеджментом и VP. Короче даунтайм был около 3-х часов, потеряли мы десятки тысяч $ в качестве компенсации клиентам, плюс расходы на техсуппорт, плюс репутация.... Думаю обьяснять не надо что моего начальника вызвали на ковер и долго имели в позе лотоса. Я тоже имел разговор с ним и как и следовало ожидать сказал " А я вас предупреждал". Будь у нас OOB, проблема была бы решена за пару минут.

После этого в бюджете сразу же нашлись деньги на OOB, и на всех узлах уже он стоял через две недели. Надо отметить что он нас выручал потом неоднократно.

Мораль сей басни такова. Не надо экономить на мелочах :)))

Pavel Podbelniy(PavelP)
Сообщения: 2
Зарегистрирован: 01 янв 1970 03:00

Истории из нашей профессии, смешные и не очень.

Сообщение Pavel Podbelniy(PavelP) » 08 июл 2014 22:53

Классика! Жаль мораль, в большинстве случаев, остается моралью ибо идёт в конце истории, т.е. после происшествия.

Главное в таких ситуациях- отбить атаку на себя и не стать козлом отпущения.

00x2142
Сообщения: 32
Зарегистрирован: 01 янв 1970 03:00

Истории из нашей профессии, смешные и не очень.

Сообщение 00x2142 » 08 июл 2014 22:55

to Андрей Азаркин:
А каким образом сделали OOB?

Андрей Ru(AR)
Сообщения: 100
Зарегистрирован: 01 янв 1970 03:00

Истории из нашей профессии, смешные и не очень.

Сообщение Андрей Ru(AR) » 08 июл 2014 23:09

to Андрей Азаркин:
это пять. классика жанра. молодец, пробил свое
CCSI

Андрей Азаркин(КроТ)
Сообщения: 0
Зарегистрирован: 01 янв 1970 03:00

Истории из нашей профессии, смешные и не очень.

Сообщение Андрей Азаркин(КроТ) » 08 июл 2014 23:13

to Лазарев Сергей:

В любом крупном датацентре у основных провайдеров есть POP. Я написал нескольким с запросом что нам нужен выделенный 100Mbps канал на каждом узле. Нашел в Гугле хороший и недорогий IP terminal server. Один провайдер ( Atlantic Metro ) дал нам хорошую цену ( около 50$ в месяц за 100Мб канал ) плюс /29 сабнет т.е 4 статических IP адреса. Пробросили кросс-коннект от их шкафа к нашему, и от терминального сервера обычным консольным кабелем воткнулись в консольный порт на свиче. Телнетишься на айпи сервера, и из CLI сервера выбираешь консольный порт и заходишь на консоль. простейшая схема.

00x2142
Сообщения: 32
Зарегистрирован: 01 янв 1970 03:00

Истории из нашей профессии, смешные и не очень.

Сообщение 00x2142 » 08 июл 2014 23:25

to Андрей Азаркин:
Спасибо. Я примерно так и думал. Интересна была схема.
Я как то встречал схему, когда админам на месте выдавали по андроид планшету и юсб-переходник на консоль. В случае ахтунга звонили админу, цеплялись по тимвьюверу на планшет и делали что надо. Или просто оставляли планшеты на зарядке в серверной рядом с оборудованием.

Андрей Азаркин(КроТ)
Сообщения: 0
Зарегистрирован: 01 янв 1970 03:00

Истории из нашей профессии, смешные и не очень.

Сообщение Андрей Азаркин(КроТ) » 08 июл 2014 23:39

to Лазарев Сергей:

Пока у нас не было OOB, я на одном узле где у нас был центральный свич, сам сделал временный workaround. Нашел старый десктоп с windows XP, установил на него телнет клиент, ФТП сервер и разной другой фичи. Поставил его на стол позади стойки со свичом, благо место было и датацентр был наш, т.е люлей я бы за такую самодеятельность не получил бы. Воткнул десктоп напрямую в свич через сериал порт, а сетевую карту воткнул во внутреннюю сеть. Поверх постaвил прогу GoToMyPC, что позволяло мне заходить на десктоп отовсюду. Но решение было неэлегантным и только на одном узле. Да и десктоп вещь ненадежная, может посыпаться в любой момент. Думал поставить Пингвина вместо Окон, но сетевуха была старая и драйвера на нее были глючные. Короче плюнул и оставил как есть. Ну а потом уже сделали нормальный ООБ на всех узлах.

PIX(maikl)
Сообщения: 626
Зарегистрирован: 01 янв 1970 03:00

Истории из нашей профессии, смешные и не очень.

Сообщение PIX(maikl) » 10 июл 2014 03:04

http://www.digi.com/products/consoleservers/

Не иметь OOB это кощунство. И извините за мнение - виноват тут не только VP, нагибать надо было " главного инженера и технического советника при VP". Причина - не сумел убедить руководство в важности OOB.

Но такие истории сплошь и рядом. Менеджменту пофигу пока все работает. Как завалиться - плачу любые бабки - только чтоб работало.

"Конечно все это время мне звонят: босс, НОК, датацентр."
- Очень знакомо.

00x2142
Сообщения: 32
Зарегистрирован: 01 янв 1970 03:00

Истории из нашей профессии, смешные и не очень.

Сообщение 00x2142 » 10 июл 2014 11:28

to PIX:
Почему не сумел? Сумел. Показал самый главный аргумент в действии. OOB же в итоге есть.
А вот если бы руководство даже после ахтунга не согласилось бы сделать OOB, все равно был бы виноват инженер?


Вернуться в «Курилка»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость