Системный аналитик. Краткий гайд по профессии. Часть 1 / forpes.ru

Главная
Системный аналитик. Краткий гайд по профессии. Часть 1

Системный аналитик. Краткий гайд по профессии. Часть 1 +16

08.09.2024 07:15

nick_oldman 30 13000 Источник

Данный текст является обзорной и вводной статьей из запланированной серии, и преимущественно ориентирован на новичков в IT-индустрии, предназначен для желающих познакомиться с профессией, узнать о ее содержании, основных принципах, практиках и инструментах, используемых в ней, и является попыткой структурировать и свести воедино свои знания и опыт, накопленные за время работы в этой увлекательной профессии.

Из этой статьи вы узнаете об основах сетевого взаимодействия, основном протоколе и формате обмена данными в сетях, познакомитесь с устройством простейших приложений и рассмотрите пример построения архитектуры сложного приложения в виде распределенной системы.

Кто такой системный аналитик?

Системный аналитик является посредником между бизнесом и разработчиками. Он изучает потребности бизнеса, формализует их, передает разработчикам в виде требований и участвует в приемке конечного результата. Для этой работы необходимы хорошие коммуникативные навыки и аналитический склад ума.

Главная цель аналитика - понять проблему бизнеса и предложить решение с использованием информационных технологий.

Системный аналитик должен быть погружен в технические аспекты информационных систем. Он должен обладать большим количеством практических технических навыков и стараться «говорить на одном языке» с разработчиками - детально описать все технические нюансы, связанные с разработкой.

В современных реалиях от системного аналитика зачастую требуется глубокое погружение в предметную область (бизнес-домен) и особенности внутренних процессов. Аналитики должны стараться следить за тенденциями в технологиях, а также уметь добывать необходимые знания и применять их на практике. Вместе с тем, хард-скилы, требующиеся от системного аналитика, довольно сильно зависят от потребностей команды или проекта, особенно, если на проекте есть роль solution-архитектора.

Для знакомства с профессией необходимо изучить базовые понятия, на которых основаны компьютерные системы и сети.

Интернет и взаимодействие в нем

Своим бурным ростом и развитием IT-сфера обязана сети Интернет. В основе всего взаимодействия в интернете лежит модель OSI, а точнее ее развитие - модель TCP/IP.
Модель OSI (Open System Interconnection), как и модель TCP/IP описывают, как устройства в локальных и глобальных сетях обмениваются данными и что происходит с этими данными.

Канальный уровень (Link layer) описывает организацию физического соединения между устройствами в пределах одной сети. Протоколы канального уровня работают с физическими адресами (MAC-адресами) устройств.
Сетевой уровень (Network layer) описывает правила передачи данных из одной сети в другую (маршрутизацию).
Транспортный уровень (Transport layer) - отвечает за передачу данных с гарантированной или негарантированной доставкой между устройствами.
Прикладной уровень (Application layer) – обеспечивает взаимодействие между приложениями в сети.

Процесс работы TCP/IP

перед отправкой информация разделяется на блоки;
на транспортном уровне (TCP) проверяется, чтобы все блоки данных пришли без ошибок и в нужном порядке. Затем блоки данных делятся на сегменты или датаграммы (в зависимости от используемого протокола). Кроме того, контролируется поток информации, предотвращая перегрузку сети;
на сетевом уровне (IP) каждому сегменту добавляется адрес - сообщается, какие узлы или маршруты следует использовать для достижения конечной точки, таким образом получается пакет данных;
на канальном уровне (Ethernet) каждый пакет преобразуется в кадр (фрейм) и получает физический номер (MAC-адрес) для доставки на конкретное устройство внутри сети;
по прибытии в конечную точку доставки данные собираются в обратном правильном порядке и восстанавливают исходную информацию.

Сетевое взаимодействие. Протокол HTTP

Правила взаимодействия устройств в сети Интернет определяются протоколом HTTP (Hypertext Transfer Protocol). Он устанавливает порядок формирования запросов от веб-браузера (клиента) к веб-серверу (серверу).
Защищенной версией протокола HTTP является протокол HTTPS (Hypertext Transfer Protocol over Secure Socket Layer), обеспечивающий защиту данных в сети с помощью шифрования передаваемых данных в соответствии с протоколом SSL.

Основой HTTP является взаимодействие «клиент-сервер»:

клиент инициирует соединение и посылает запрос на сервер (Request);
сервер обрабатывает запрос и посылает ответ клиенту (Response).

HTTP-запрос

HTTP-запрос клиента к веб-серверу должен включать:

URL (Uniform Resource Locator) - текстовая строка (адрес), которая указывает на местоположение ресурса в сети;
метод (Method) - определяет действие, выполняемое сервером, после получения сообщения;
заголовок (Header) - часть HTTP-запроса, которая содержит техническую информацию, необходимую для формирования запроса или ответа;
тело (Body) - сервер и клиент передают друг другу данные в теле (Body) HTTP-запроса.

Пример HTTP-запроса

Основные методы, которые предоставляет HTTP:

POST - создание ресурса. Клиент передаёт на сервер информацию, которую он должен записать у себя определённым образом;
GET - чтение ресурса. Клиент запрашивает у сервера определённую информацию и получает ее в ответ;
PUT - полное обновление информации. Клиент может заменить существующую на сервере информацию;
PATCH - частичное обновление информации. Клиент может заменить часть существующей на сервере информации;
DELETE - удаление информации. Клиент может удалить информацию с сервера.

Какие еще существуют HTTP-методы

CONNECT - метод для установления тоннеля (двусторонней связи) между клиентом и сервером.
HEAD - запрашивает заголовки. Может быть выполнен перед загрузкой большого ресурса для получения данных о ресурсе.
OPTIONS - метод запроса данных о методах, поддерживаемых ресурсом.
TRACE - метод для проверки соединения. Сервер должен вернуть полученное сообщение назад клиенту в теле ответа.

Применение методов соответствует спецификации протокола HTTP, однако это не означает, что вы не можете отправить запрос на создание ресурса с помощью метода GET, или запросить ресурс на чтение методом POST.

Например:

Чаще всего в методе GET параметры передаются в URL (1) или в параметрах запроса (query parameters) (2):

1. GET https://qwerty.com/books/245 - в этом случае в запросе передан идентификатор (245) некой книги (books) в магазине на сайте (qwerty.com).

2. GET https://qwerty.com/api/v1/books?author=Orwell&title=1984 - в этом случае в запросе переданы параметры типа «ключ-значение», которые «прикрепляются» к URL ресурса через символ «?». Если запрос подразумевает поиск по нескольким параметрам, они могут быть соединены через «&».

Но если запрос будет сложнее и надо будет передать в нем больше параметров, то можно столкнуться с ограничением длины URL-строки в 2048 символов, и параметры будут потеряны при передаче на сервер.
Поэтому в таких случаях используют метод POST, в котором можно сложить запрашиваемые параметры в тело запроса в виде JSON-объекта (о нем речь пойдет далее) и спокойно передать на сервер.

HTTP-ответ

Сервер также отвечает клиенту определенным образом.

HTTP-ответ состоит из кода ответа, заголовков и тела:

коды ответа объединены в группы по значению, которое даёт краткую информацию о результате выполнения запроса;
в заголовке ответа сервер сообщает клиенту, как интерпретировать полученный ответ и правильно обработать HTTP-сообщение сервера;
тело ответа содержит данные, которые являются результатом выполнения запроса. Но не у всех ответов оно есть. Например, у DELETE запроса тело ответа может отсутствовать.

Пример HTTP-ответа

Формат обмена данными. JSON

Как и для передачи тела запроса, так и для передачи тела ответа самым популярным форматом данных является формат JSON (JavaScript Object Notation), определяющий правила описания объектов.

Объект (Object) — это некоторое понятие предметной области в виде пары
{ "ключ": "значение" }. Начало и конец объекта обозначаются фигурными скобками.

Один объект от другого можно отличить благодаря их свойствам, называемым ключом (Key).

Каждый объект содержит один или несколько ключей.
Каждый ключ содержит одно или несколько значений (Value).

Если у ключа множество значений, начало и конец множества обозначаются квадратными скобками, а значения разделяются запятой. Несколько пар «ключ/значение» тоже разделяются запятой.

Значение ключа также можно представить, как объект, состоящий из объектов. Подобная вложенность заключается в отдельные фигурные скобки (как для обозначения начала и конца объекта), а свойства внутри неё также берутся в кавычки и отделяются запятыми.

В JSON можно передавать следующие типы данных: строка, число (целое или дробное), логический тип данных (Boolean) – true или false, массив и объект.
Для передачи даты обычно используют формат unix-time в строке, например: "2024-07-26T14:30:00-03:00".

Фронтенд и бэкенд в приложениях. API

Фронтенд (frontend) и бэкенд (backend) - две основные части системы, которые используются в архитектуре программного обеспечения.

Фронтенд представляет собой презентационную часть системы, ее пользовательский интерфейс и связанные с ним компоненты.
Бэкенд является внутренней реализацией системы.

Такое разделение позволяет фронтенд-разработчикам сосредоточиться на интерфейсных решениях, не зная деталей внутренней реализации, а бэкенд-разработчикам - на создании программных интерфейсов (application programming interface).

API (Application Programming Interface) - программный интерфейс, который описывает способы взаимодействия одной компьютерной программы с другими. Зачастую для обозначения API используют слово «контракт». Иными словами - договор между двумя сторонами, определяющий обмен информацией между ними.

Упрощенно, API включает в себя: операцию, данные на входе операции, данные на выходе операции, а также логику обработки ошибок.

Одними из популярных подходов к разработке в настоящее время являются:

Code first — сначала пишем код, потом по нему генерируем контракт;
API first (Contract first ) — сначала создаем контракт, потом по нему пишем или генерируем код.

API делят на те, которые обеспечивают взаимодействие бэкенд-бэкенд: backend-API и фронтенд-бэкенд: web-API.

Интеграцию между системами по API используют, когда необходимо:

обмениваться данными в режиме реального времени;
иметь гибкий доступ к функционалу приложения (системы);
иметь способы аутентификации и авторизации для защиты доступа к системе или ее данным.

Взаимодействия между системами бывают:

синхронные (например: REST API, SOAP, gRPC);
асинхронные (например: Kafka, RabbitMQ, WebSocket).

Отступление от правил

Стоит заметить, что в данном контексте REST, SOAP или gRPC это лишь пример синхронного взаимодействия.

Всегда можно в ответ на синхронный запрос пользователя немедленно возвращать ему ответ о том, что его запрос принят в обработку, помещать этот запрос в очередь на обработку, обрабатывать и так же отправлять пользователю синхронный ответ - такой подход называется коллбэк (callback) и является асинхронной оберткой над синхронным взаимодействием.

Различия их в том, что приложения с асинхронным взаимодействием не ждут ответа после отправки запроса, а могут продолжить выполнять свой основной поток задач.

Плюсы синхронного взаимодействия:

Простота реализации.
Четко прослеживаемая последовательность операций при отладке (тестировании).

Минусы синхронного взаимодействия:

Снижение производительности и доступности как отдельного сервиса, так и всей системы при возрастании нагрузки.
Необходимость ожидания ответа со стороны вызываемого сервиса.
Сильная связанность между сервисами (если внесение изменений в одном сервисе требует изменений в другом такие сервисы называют сильно связанными).

Асинхронное взаимодействие, напротив, устраняет минусы синхронного, но является чуть более сложным в разработке и отладке и, соответственно, обеспечивает слабую связанность между сервисами.

Выбор типа взаимодействия зависит от многих факторов, в том числе и от постановки бизнес-задачи:

Требования ко времени отклика системы: если возможна быстрая обработка запроса или требуется быстрый отклик сервиса, предпочтительным является синхронное взаимодействие.
Требования к производительности: если требуется высокая производительность и доступность системы предпочтительным является асинхронное взаимодействие.

Примеры систем с асинхронным и синхронным взаимодействием

В качестве примера целесообразности использования асинхронного взаимодействия можно привести систему, обрабатывающую заявку на кредит в мобильном приложении абстрактного банка.
Пользователь подает заявку в приложении, нажимает кнопку "Получить одобрение" и его запрос отправляется в скоринговые системы, определяющие рейтинг заемщика, его риск-профиль и многое другое, от чего зависит одобрение заявки.
Процесс скоринга обычно занимает от одной до нескольких минут.
Держать пользователя на экране приложения в ожидании одобрения заявки на кредит без возможности продолжить взаимодействие с приложением банка не имеет смысла как с точки зрения пользовательского опыта, так и с точки зрения высокой нагрузки на сервисы бэкенда.
Поэтому логично вернуть пользователю ответ, что его заявка принята со временем ожидания решения по ней в течении N минут.
Пользователь сможет продолжить взаимодействие с приложением, в то время как его заявка обрабатывается, а затем получит уведомление с решением по ней и завершит процесс получения кредита.

А в качестве примера использования синхронного взаимодействия можно привести систему, обрабатывающую заявку на открытие вклада в том же самом приложении.
Пользователь выбирает тарифный план, указывает сумму, которую он хочет положить на вклад, и нажимает кнопку "Открыть вклад".
В ответ он получит сообщение о том, что вклад открыт, увидит на экране информацию об этом и процесс открытия вклада для него на этом завершится.

Базы данных. SQL, noSQL

Для хранения и обработки информации используют базы данных, различающиеся способом хранения данных.
Если данные в базе представлены в виде связанных таблиц, такую базу данных называют реляционной (англ. relation, «связь»).

Основные понятия.

Сущность (entity) – объект предметной области, который представлен в базе. Сущности обычно соответствуют таблицам в реляционных базах.
Атрибут (attribute) – характеристика сущности. Атрибуты соответствуют столбцам в реляционных базах.
Для обеспечения уникальности записи в таблице к каждой записи добавляется признак (атрибут) — первичный ключ (primary key), который может быть составным (состоять из значений нескольких атрибутов).

Таблицы в базе данных не существуют изолированно друг от друга, между ними устанавливаются связи.

Внешний ключ (foreign key) – атрибут, ссылающийся на первичный ключ другой сущности. Он обеспечивает однозначную логическую связь записей между таблицами внутри одной базы данных.

Связи между таблицами бывают следующих типов:

Один-к-одному (one-to-one) – одной записи в таблице А соответствует одна запись в таблице В;
Один-ко-многим (one-to-many) – одной записи в таблице А может соответствовать несколько записей в таблице В (в обратную сторону не работает);
Многие-ко-многим (many-to-many) – одной записи в таблице А соответствует несколько записей в таблице В и так же в обратную сторону.

Всякую связь "многие–ко–многим" в реляционной базе данных необходимо заменить на связь "один–ко–многим" с помощью введения дополнительных таблиц.

Нормализация – это организация данных в таблицах таким образом, чтобы устранить дублирование и избыточность данных и тем самым избежать нарушения целостности данных при их изменении (аномалий). База данных считается нормализованной после достижения третьей нормальной формы.

Виды нормальных форм (рассмотрим только наиболее часто встречающиеся на практике три формы):

1НФ: В таблице нет повторяющихся строк.
2НФ: У таблицы есть первичный ключ, а все остальные поля зависят него, но не от его части (если первичный ключ составной).
3НФ: Все атрибуты, не являющиеся ключом зависят только от первичного ключа и не зависят друг от друга.

Базы данных управляются системами управления базами данных - СУБД (например, PostgreSQL, mySQL итд).
Для работы с базой данных существует свой язык запросов – SQL (Structured Query Language).
Запросы в языке SQL пишут с помощью операторов.

Скрытый текст

SELECT - оператор чтения записи из таблицы.
INSERT - оператор вставки записи в таблицу.
UPDATE - оператор обновления записи в таблице.
DELETE - оператор удаления записи из таблицы.
FROM – оператор, указывающий таблицу, в которой проводится операция.
WHERE – оператор фильтрации.
ORDER BY – оператор сортировки записей.
GROUP BY – оператор группировки записей.
HAVING – оператор фильтрации поверх группировки.
LIMIT – оператор ограничения количества читаемых записей.
OFFSET – оператор пропуска записей при чтении.
AND, OR, NOT – логические операторы.
IN, LIKE, BETWEEN – операторы условия.
JOIN – оператор соединения таблиц.
INNER JOIN - предполагает объединение по «внутренней» области, общей для двух таблиц.
LEFT OUTER JOIN - в результат объединения войдут все записи из левой таблицы
RIGHT OUTER JOIN - в результат объединения войдут все записи из правой таблицы
FULL OUTER JOIN - в результат объединения войдут все записи из двух таблиц

Если данные в БД представлены не в виде связанных таблиц, то такие БД относятся к типу noSQL (not only SQL). Выделяют четыре основных типа noSQL СУБД:

key-value СУБД – данные хранятся в виде записи «ключ - значение» (Redis, DynamoDB);
колончатые СУБД - данные хранятся в виде разреженной матрицы, строки и столбцы которой используются как ключи (HBase, Cassandra);
документоориентированные СУБД - хранят иерархические структуры данных (MongoDB);
графовые СУБД - хранят данные в виде графа и его обобщений (Neo4j).

Как устроены современные приложения и системы

В завершении первой части статьи рассмотрим пример абстрактной системы.

Рассмотрим вариант клиент-серверной архитектуры, в которой у нас есть сервер (Application Server) с монолитным приложением и два клиента, общающиеся с приложением по REST API.

Простейший вариант клиент-серверной архитектуры

Для того, чтобы хранить данные приложению необходимо иметь подключение к базе данных. В данном случае чаще всего для хранения структурированных данных используют реляционные БД.

С ростом количества запросов к приложению, необходимо предусмотреть кэш, чтобы сократить время отклика приложения при частых запросах одних и тех же редко изменяемых данных.
Так как БД хранит данные на жестком диске, то для ускорения доступа к ним логично хранить данные в оперативной памяти на локальном сервере (in-memory cache) или на отдельном сервере с помощью in-memory database.

Добавляем кэш для хранения часто запрашиваемых и редко изменяемых данных

Для обеспечения отказоустойчивости приложения, хранения и доступа к наиболее критичным данным, необходимо использовать подходы к масштабированию БД, один из которых – репликация.
С этой целью БД объединяются в кластер (Database Cluster). Объявляется Master Server, в случае выхода из строя которого основную нагрузку до его восстановления принимает Slave сервер. Данные реплицируются из Master-ноды по всем Slave-нодам.

С ростом нагрузки возникает необходимость перейти к микросервисной архитектуре. Монолитное приложение разбивается на сервисы (каждый из которых выполняет определенный кусок логики внутри бизнес-контекста).
Для маршрутизации запросов от клиентских устройств выделяется отдельный слой (приложение) API Gateway, который помимо маршрутизации запросов между сервисами выполняет набор дополнительных функций (о которых будет сказано далее).
Если к БД обращаются несколько микросервисов, то рекомендуется выделение отдельного сервиса (handler) для работы с этой БД.

Рассмотрим масштабирование приложений.
Для того, чтобы обрабатывать возросшее количество запросов можно добавить реплик (экземпляров) каждого приложения. Таким образом вырастет и количество серверов, которые объединяются в кластера (Server Cluster).
Для балансировки трафика между кластерами серверов и экземплярами сервисов используется API Gateway с его функционалом load balancing.

При росте нагрузки синхронный подход (REST API) к обмену сообщениями начнет давать все большую задержку, вызванную тем, что на время установления соединения все ресурсы (порты) сервиса будут заняты.
К тому же в случае разрыва соединения или отказа сервиса часть сообщений может быть потеряна.
Для избегания этих ситуаций переходят к асинхронному взаимодействию. Одним из самых распространенных подходов является использование брокеров сообщений (Kafka, RabbitMQ).
В случае с Kafka, сервис, передающий сообщение, записывает его в соответствующий топик (очередь сообщений), из которого это сообщение вычитывается другим сервисом.
Таким образом обеспечивается слабая связанность сервисов и гарантия доставки сообщений.

Добавляем асинхронное взаимодействие между сервисами

Для хранения неструктурированных данных (временных рядов, документов JSON или файлов) более производительным решением по сравнению с реляционными базами данных будут noSQL БД и объектные хранилища S3.

Для обеспечения наблюдаемости сервисов необходимо использовать системы мониторинга, сбора логов и метрик.
Самыми популярными решениями является использование связки ElasticSearch (БД) + Kibana (графический интерфейс) и/или PrometheusDB (БД) + Grafana (графический интерфейс).

В этой статье вы узнали об основах сетевого взаимодействия, основном протоколе и формате обмена данными в сетях, из каких частей состоят простейшие приложения и увидели пример сложного приложения в виде распределенной системы.

Для того, чтобы понять каким образом можно проектировать и создавать такие системы в следующих частях будут рассмотрены типы требований, процесс их сбора, а также способы и инструменты документирования, типы программной архитектуры и взаимодействий, а также многое другое, что поможет получить более полное представление о профессии системного аналитика.

Эту и другие статьи по системной аналитике и IT-архитектуре, вы сможете найти в моем небольшом уютном Telegram-канале: Записки системного аналитика

Комментарии (30)

OlegZH
08.09.2024 08:01
#27260728
Будут ли здесь приведены примеры конкретных систем, способов и принципов их построения?
1. nick_oldman Автор
  08.09.2024 08:01
  #27261372
  Спасибо за предложение, я обязательно запланирую выход такой статьи, с разбором какого-нибудь практического кейса.

alexhu
08.09.2024 08:01
#27261216
+2
Что то я вообще ничего не понял. Эти картинки из статьи, они имеют отношение к работе системного аналитика?

И если да, то наверное вы не стой стороны начали рассказывать об основах работы системного аналитика для "новичков в IT-индустрии".
1. Areso
  08.09.2024 08:01
  #27261326
  Эти картинки из статьи, они имеют отношение к работе системного аналитика?
  
  Да, либо к нему либо к архитектору.
  1. ssmaslov
    08.09.2024 08:01
    #27261366
    +1
    Вас же не про архитектора спрашивали :-) К работе системного аналитика точно нет (про уровни сетевых стеков которые сугубо теория и в жизни не встречается - особенно прекрасно)
    
    nick_oldman Автор
    08.09.2024 08:01
    #27261428
    Согласен с тем, что модель OSI и TCP/IP это сугубо теория, но в статье и говорится о том, что это «база», которую необходимо знать.
    
    Как минимум для того, чтобы потом не спроектировать какой-нибудь стриминговый сервис, который будет работать по TCP ;-)
    
    Areso
    08.09.2024 08:01
    #27261678
    В статье было много картинок. Те картинки, которые показывают, как что взаимодействует, вполне имеют отношение.
1. ssmaslov
  08.09.2024 08:01
  #27261370
  Я считаю, что нет. Автор считает иначе
1. nick_oldman Автор
  08.09.2024 08:01
  #27261402
  Если вы имеете в виду картинки с абстрактным примером распределённой системы, то, на мой взгляд, они имеют прямое отношение к работе системного аналитика, поскольку хороший аналитик помимо выявления и описания требований к разработке (как своей прямой задачи) может и должен уметь проектировать солюшен архитектуру или хотя бы HLD.
  
  А этими картинками я как раз и хотел продемонстрировать этот артефакт работы аналитика, поскольку предполагаю, что многих заинтересует как может выглядеть архитектура абстрактной системы.
  
  Остальные картинки просто являются иллюстрацией тех или иных теоретических выкладок.
  
  С тем, что для «новичков» это может быть сложно для восприятия я полностью согласен, но это лишь первая обзорная статья из запланированной мной серии.

RomanSeleznev
08.09.2024 08:01
#27261282
Ох уж эта "системная аналитика" :(

Системный аналитик. Краткий гайд по профессии. Часть 1 +16

Кто такой системный аналитик?

Интернет и взаимодействие в нем

Процесс работы TCP/IP

Сетевое взаимодействие. Протокол HTTP

HTTP-запрос

HTTP-ответ

Формат обмена данными. JSON

Фронтенд и бэкенд в приложениях. API

Базы данных. SQL, noSQL

Основные понятия.

Как устроены современные приложения и системы

Комментарии (30)

OlegZH

nick_oldman Автор

alexhu

Areso

ssmaslov

nick_oldman Автор

Areso

ssmaslov

nick_oldman Автор

RomanSeleznev