Известная ошибка в ITIL — это проблема, которая уже была проанализирована, но ещё не была решена
Как работают известные ошибки и зачем они нужны?
Пусть у нас есть абстрактная служба ИТ, в которой разработка в одном подразделении, а эксплуатация в другом.
Пусть у нас несколько сотен информационных систем и один сменный «круглосуточный» администратор. Он не может знать тонкости всех серверов и приложений. Пусть у нас есть система дистанционного обучения, которую создал департамент разработки.
Допустим, на этапе создания программного продукта, разработчик обнаружил, что у него иногда не закрываются соединения с базой данных. Исправлять долго, а приложение уже глючит. В этом случае разработчик регистрирует известную ошибку, примерного такого вида.
Это информация для сменного администратора, который следит за несколькими сотнями информационных систем. Можно быстро понять, что делать, если всё зависнет, к примеру. Нехитрым образом у нас возникла инструкция для сменного администратора, которому не обязательно знать что-то о проблемах соединений в Java,
Администратор, ответственный за эксплуатацию, регистрирует проблему, для контроля её решения. Это важно, чтобы решение проблемы разработчиками, контролировала вертикаль эксплуатации. Проблема имеет такой упрощённый вид:
Видите, в ней есть наша известная ошибка: «Java/Проблема хранения и раздачи Connection Pool во временное пользование»! Проблема помечена, как связанная с базой данных, операционному директору легко вычленить данный класс проблем и «предъявить» исполнительному директору обратить внимание руководителей, ответственных за организацию эксплуатации на возникшие нюансы.
Исполнительный директор в ответ «нагнёт» донесёт информацию о сложностях в департамент разработки. И инициирует доработку системы:
Это пример того, как организовать процесс и минимизировать ручное управление.
И. Здесь организован взаимный контроль из мультиагентной архитектуры процесса.
1nd1go
По сути - это хорошая задача. По подаче - "предъявить", "нагнет" - вы слово пацана пересмотрели или чалились где?
Возращаясь к сути - у нас был внедрен вот этот подход на достаточно обширной системе.
Наблюдаемые симптомы проблемы эксплуатацией редко просто ассоциируются в изначальную ошибку (Root cause). Даже если ошибка уже известна, все равно симптомы выходят разные. Это требует привлечение разработки для анализа в большинстве случаев. Хотелось бы почитать практические примеры как сокращать объем анализа в таких случаях.
ingvarotto Автор
Про симптомы —это да. Однако, работа с большей частью ошибок алгоритмизируема. Могут помочь общие принципы диагностики, логгирования, тестирования, организации моделирования решений проблем. Это очень занимательная задача обеспечения качества продукта.
Про практические примеры: нужно подумать, чтобы наглядно было. Вполне возможно, что это будет любопытно.