Нередко заказчики обращаются с проблемой, когда с исправными и верно установленными трансиверами оптический линк 100GE не поднимается. Как правило, происходит это во время миграции/модернизации с одновендорных решений типа "Вендор А - Вендор А" на сеть типа "Вендор А - HUAWEI". В недавнем кейсе заказчик проделал путь из СПБ в Великий Новгород, чтобы провести ночные работы по замене коммутатора Вендора А на коммутатор HUAWEI CE6800. На другой стороне был пакетный брокер Profitap XX-3200. Ребята планировали быстро выполнить работы и вернуться в СПБ к утру, но линк не поднялся.
Линк строился на трансиверах HUAWEI 100GBase_SR4. Никаких ошибок, алармов не генерировалось, только сообщение, что трансивер вставлен и трансивер вытащен. Трансиверы при этом успешно определялись на обеих сторонах. Вывод команды display interface показывал, что скорость установлена жестко 100000, FULL дуплекс, автосогласование отключено (настройки по умолчанию). Ничего из этого мы не пытались изменить: трансивер не поддерживал скорость ниже 100GE, а скорость интерфейа 100G1/0/8 можно было изменить только на 40GE.
Но мы могли изменить FEC.
FEC (Forward error correction) имеет три режима: Base-R, который используется только для 25GE линков, RS-FEC для 100GE и 25GE линков в зависимости от модели коммутатора (как в нашем случае), и состояние "отключено". В документации прописано однозначно, что режим FEC на обоих сторонах должен быть одинаковым, иначе линк не поднимется.
На стороне Profitap XX-3200G в настройках не удалось найти параметр FEC, поэтому предложили выключить его на Huawei:
fec mode none или undo fec mode (в представлении интерфейса)
После этого линк поднялся.
После применения команды важно ввести commit, чтобы изменения вступили в силу. Очевидная вещь, но недавно долго разбирали другой кейс, когда заказчик утверждал, что FEC отключил, но commit не применял.
---
Немного подробнее про FEC - FEC Huawei в WDW сетях.
Другая проблема отсутствия линка на 100GE интерфейсе - 100GE интерфейс DOWN (local fault) после добавления его в Virtual System NetEngine 8000
Комментарии (9)
Sin2x
24.08.2022 00:15Вы бы хоть рассказали для статьи, что это за FEC-режим, и за что он отвечает. Судя по гуглу, это вещь вендоронезависимая и, возможно, полезная.
vasyo Автор
24.08.2022 09:21В конце есть ссылка "Немного подробнее про FEC": статейка специально написана для этого кейса и выделена отдельно, чтобы не нагружать кейс.
13werwolf13
24.08.2022 09:23+2краткий ответ знакомого сетевика-затейника
НЕСКАЖУК, [24.08.2022 11:12] это коррекция ошибок за счет избыточного кодирования НЕСКАЖУК, [24.08.2022 11:14] ну там разные схемы, в эзернете классическом например применялась схема 8/10, т.е каждые 4 бита кодировались на самом деле пятью битами НЕСКАЖУК, [24.08.2022 11:19] Это контроль и коррекция ошибок, возникающих при передаче, без необходимости повторного запроса данных. То есть при передаче n бит полезной информации фактически передается чуть больше, что позволяет проверить, верно ли дошла информация, и исправить, если что-то пошло не так. НЕСКАЖУК, [24.08.2022 11:19] просто для почитать - коды рида-соломона НЕСКАЖУК, [24.08.2022 11:20] ну или вот видел такую штуковину, трансиверы на 1,25 гигабита?) Дмитрий Марков, [24.08.2022 11:20] не, не видел в живую, ток на картинках и в мечтах.. НЕСКАЖУК, [24.08.2022 11:20] потому что в оптическом гигабите применяется код 8/10 символьная скорость гигабитного трансивера - 1,25 гигабит, четверть уходит на коррекцию ошибок НЕСКАЖУК, [24.08.2022 11:21] https://en.wikipedia.org/wiki/8b/10b_encoding фактически все современные протоколы ее используют НЕСКАЖУК, [24.08.2022 11:22] прикол в чем, передаешь ты байтик, 1001 0111 скажем на физическом уровне будет передано чот типа 01001 10111, условно - число единиц для порции информации должно быть четным НЕСКАЖУК, [24.08.2022 11:23] кто-то грыз оптику и на ту сторону пришло 01011 10111 - опа, нечетное число бит НЕСКАЖУК, [24.08.2022 11:23] единичек* НЕСКАЖУК, [24.08.2022 11:25] тока фактически там так подобрано, что возможных вариантов полезной нагрузки 256, а по интерфейсу - 1024, что дает нам как набор управляющих последовательностей, которые сигнализируют всякое - начало передачи, пауза между фреймами и так далее - так и возможность каждый бит закодировать двумя возможными путями НЕСКАЖУК, [24.08.2022 11:25] соответственно, если у тебя при передаче одного байта нарушилась одна циферка, интерфейс на той стороне все равно поймет, что это НЕСКАЖУК, [24.08.2022 11:26] на латенси влияние минимальное, это на уровне декодирования сигнала происходит НЕСКАЖУК, [24.08.2022 11:26] поэтому кому-то в голову пришла идея - а давайте-ка выключим FEC и получим 1,25 гигабита! НЕСКАЖУК, [24.08.2022 11:29] там правда вылезло другое, оно не тока для коррекции, там коды так подобраны, чтобы не было слишком много последовательных нулей и единиц НЕСКАЖУК, [24.08.2022 11:29] соответственно 1,25 гигабита 3.14зд*ц чувствительно к качеству линка
nidalee
24.08.2022 12:53Оформление цитаты неудачное, приходится каждую строку скроллить по горизонтали.
13werwolf13
24.08.2022 13:02+1простите, поздно понял, исправить уже не могу
nidalee
24.08.2022 13:04Да это на будущее :)
Можно в поддержке попросить поправить, но я бы уже не заморачивался наверное.
heone
24.08.2022 19:41+2Прикольно что современные ITшники, не знают методов передачи информации с избытком, применяемых со времён RS-232 и гибких дискет.
BiosUefi
Удивляют продукты в которых отсутствует диагностика. Даже за любые деньги.
Сейчас делали железяку с 10Gb (AMD/V1000). На референсной плате идут стабильные 9,34-09,45Gb, а на нашей плавает, от 6,4 до 10,1Gb . Причем бывает, что минутами висит 6-8, а минутами стабильные 10Gb. В какую сторону копать.... печаль.