image

Сначала немного истории.

Web 1.0 — это сеть для доступа к контенту, который размещали на сайтах их владельцы. Статичные html-страницы, доступ к информации только для чтения, основная радость — гиперссылки, ведущие на страницы этого и других сайтов. Типичный формат сайта — информационный ресурс. Эпоха переноса в сеть offline-контента: оцифровка книг, сканирование картинок (цифровые фотоаппараты были еще редкостью).

Web 2.0 — социальная сеть, объединяющая людей. Пользователи, погруженные с головой в интернет-пространство, создают контент непосредственно на web-страницах. Интерактивные динамические сайты, тегирование контента, веб-синдикация, технология mash-up, AJAX, веб-службы. Информационные ресурсы уступают место социальным сетям, блогхостингам, wiki. Эпоха online-генерации контента.

Понятно, что термин “web 1.0” возник только после появления “web 2.0”, для обозначения прежнего интернета. И практически сразу начались разговоры о будущей версии 3.0. Вариантов видения этого будущего было несколько, и все они, конечно же, были связаны с преодолением недостатков и ограничений web 2.0.

Руководителя Netscape.com Джейсона Калаканиса прежде всего волновало низкое качество контента, создаваемого пользователями, и он предположил, что будущее интернета за “одаренными людьми”, которые начнут “создавать высококачественный контент" (Веб 3.0, «официальное» определение, 2007). Мысль вполне себе разумная, но как и где они это будут делать, на каких сайтах, он не объяснил. Ну не на Фейсбуке же.

Автор термина “web 2.0” Тим О’Рейли резонно предположил, что для размещения информации в сети не обязателен столь ненадежный посредник, как человек. Поставлять данные в интернет могут и технические устройства. И те же технические устройства могут читать данные непосредственно с веб-хранилищ. По сути, Тим О’Рейли предложил ассоциировать web 3.0 с уже привычным для нас термином “интернет вещей”.

Один же из основателей всемирной паутины Тим Бернерс-Ли увидел в будущей версии интернета реализацию своей давнишней (1998) мечты о семантическом вебе. И его трактовка термина победила — большинство произносящих “web 3.0” до последнего времени имели в виду именно семантический веб, то есть сеть, в которой контент страниц сайтов был бы осмысленным для компьютера, машиночитаемым. Где-то в районе 2010-2012 годов было много разговоров об онтологизации, пачками плодились семантические проекты, но итог известен всем — мы до сих пор пользуемся интернетом версии 2.0. Полноценно выжили, по сути, только схема семантической разметки Schema.org и графы знаний интернетовских монстров Google, Microsoft, Facebook, LinkedIn.

Скрыть провал семантического веба помогли новые мощные волны цифровых инноваций. Интерес прессы и обывателей переключился на большие данные, интернет вещей, глубокое обучение, беспилотники, дополнительную реальность и, конечно же, блокчейн. Если первые по списку это в большей степени offline-технологии, то блокчейн — сетевой проект по сути своей. На пике своей популярности в 2017-2018 годах он даже претендовал на роль нового интернета (эту мысль неоднократно высказывал один из основателей Эфириума Джозеф Любин).

Но прошло время, и слово “блокчейн” стало ассоциироваться уже не с прорывом в будущее, а скорее с неоправданными надеждами. И естественным образом возникла идея ребрендинга: а давайте мы не будет говорить о блокчейне, как о самодостаточном проекте, а включим его в стек технологий, олицетворяющих все новое и светлое. Тут же для этого “нового” нашлось название (правда, не новое) “web 3.0”. А чтобы как-то оправдать эту неновизну названия пришлось в стек “светлого” включить и семантическую сеть.

Итак, сейчас в тренде не блокчейн, а инфраструктура децентрализованного интернета web 3.0, состоящая из нескольких основных технологий: блокчейна, машинного обучения, семантической паутины и интернета вещей. Во множестве появившихся за последний год текстах, посвященных новой реинкарнации web 3.0, можно в подробностях узнать о каждой его составляющей, но, вот незадача, нет ответа на естественные вопросы: как же эти технологии объединяются в нечто целое, зачем нейронным сетям интернет вещей, а семантической паутине блокчейн? Большинство команд просто продолжают заниматься блокчейном (наверное, в надежде создать крипту, способную побороть биток, или просто отрабатывая инвестиции), но под новой вывеской “web 3.0”. Все же хоть что-то про будущее, а не про неоправданные надежды.

Но не все так печально. Сейчас я попробую коротко ответить на заданные выше вопросы.

Зачем семантической сети блокчейн? Конечно, тут надо говорить не о блокчейне как таковом (цепочке криптосцепленных блоков), а о технологии, обеспечивающей идентификацию пользователей, консенсусную валидацию и защиту контента на основе криптографических методов в одноранговой сети. Так вот, семантический граф в качестве такой сети получает надежное децентрализованное хранилище с криптографической идентификацией записей и пользователей. Это вам не семантическая разметка страничек на бесплатном хостинге.

Зачем условному блокчейну семантика? Онтология, она вообще про разнесение контента по предметным областям и уровням. А это значит, что накинутая на одноранговую сеть семантическая паутина — а если проще, организация сетевых данных в единый семантический граф, — обеспечивает естественную кластеризацию сети, то есть ее горизонтальное масштабирование. Уровневая организация графа позволяет распараллеливать обработку семантически независимых данных. Это уже архитектура данных, а не сбрасывание всего без разбора в блоки и хранение на всех узлах.

Зачем интернету вещей семантика и блокчейн? С блокчейном вроде все тривиально — он нужен как надежное хранилище со встроенной системой идентификации акторов (включая IoT-датчики) по криптографическим ключам. А семантика, с одной стороны, позволяет сегрегировать поток данных по предметным кластерам, то есть обеспечивает разгрузку нод, с другой — позволяет сделать данные, посылаемые IoT-устройствами, осмысленными, а значит независимыми от приложений. Можно будет забыть о запросе документации на API приложений.

И осталось выяснить, каков взаимный профит от скрещивания машинного обучения и семантической сети? Ну, тут все предельно просто. Где, как не в семантическом графе, можно найти такой колоссальный массив валидированных, структурированных, смыслово определенных данных в едином формате, столь необходимый для обучения нейронок? С другой стороны, а что лучше нейронной сетки проанализирует граф на наличие полезных или вредных аномалий, скажем, для выявления новых понятий, синонимов или спама?

И вот такой web 3.0 нам нужен. Джейсон Калаканис скажет: я же говорил, что это будет инструмент для создания высококачественного контента одаренными людьми. Тим Бернерс-Ли будет доволен: семантика рулит. И Тим О’Рейли тоже окажется прав: web 3.0 — это про “взаимодействие интернета с физическим миром”, про стирание грани между online и offline, когда мы позабудем слова “войди в сеть”.

Предыдущие мои подходы к теме

  1. Философия эволюции и эволюция интернета (2012)
  2. Эволюция интернета. Будущее интернета. Web 3.0 (video, 2013)
  3. WEB 3.0. От сайтоцентризма к юзероцентризму, от анархии к плюрализму (2015)
  4. WEB 3.0 или жизнь без сайтов (2019)

Комментарии (11)


  1. build_your_web
    23.09.2019 21:24
    +1

    "И вот такой web 3.0 нам нужен".
    Честно говоря, не понятно, нужен ли нам такой интернет или нет. Время покажет.


    1. boldachev Автор
      23.09.2019 21:30
      +1

      А куда оно денется? Конечно, покажет. Хотя и мы для этого должны хоть что-то ему предъявить.


    1. OneType
      24.09.2019 05:15
      +1

      Время покажет, нужны ли вы этому интернету или нет.


    1. vsantonov
      25.09.2019 00:16

      Так мнение народа известно давно: «Не нужон нам ваш интернет!»


  1. nitrosbase
    24.09.2019 05:15

    Мне это кажется жизнеспособным, правдоподным и интересным. Возможно, что-нибудь похожее когда-нибудь стихийно сложится, даже хотелось бы надеяться. Может быть, перечисляемые вами трендовые технологии будут сочетаться и какими-то другими способами.


    Но, к сожалению, не могу сходу вспомнить случаев из истории ИТ, когда объединение двух больших идей давало бы большую третью. Кажется, что обычно получается пересечение размером в пару стартапов. Впрочем, каждый стартап требует много работы… Раз у вас тут идеи для дюжины стартапов, давайте побуду в роли ментора.


    Зачем семантической сети блокчейн?

    В Semantic Web Layer Cakе есть до сих пор не испеченный коржик под названием «Trust». Блокчейн-то бы туда, быть может. И наверняка что-то написано на этот счет, но больше глядят не в сторону блокчейна.


    Что касается использования блокчейна как хранилища для RDF, а не как некоей верифицирующей обертки. Помимо «страниц на бесплатном хостинге» бывают специализированные RDF-хранилища, позволяющие делать к этому RDF нетривиальные запросы. Сделать triplestorе поверх какой-то ledger database наверняка можно, но вызывает вопросы производительность.


    Про обратное, семантизацию блокчейна, тоже какие-то статьи есть.


    Где, как не в семантическом графе, можно найти...

    Кстати, вот коллективное письмо 20+ гуглеров примерно о том же (вокруг него потом еще публицистика была). Неплохо бы, дескать, научить ML работать с графами. А то больно много «defining characteristics of human intelligence» пока что «remain out of reach for current approaches».


    С другой стороны, а что лучше нейронной сетки проанализирует граф...

    Насколько знаю, сейчас тут доминирующий подход — это graph embedding, т. е. как word embedding, но для графов. Дескать, давайте похерим всю внутреннюю структуру графа: лучший KR-формализм — линейное пространство достаточно большой размерности… Мне это ваше утверждение кажется большим авансом.


    1. boldachev Автор
      24.09.2019 21:11

      Спасибо за комментарий. Позитивный, умный, профессиональный.

      Блокчейн-то бы туда, быть может.
      Блокчейн в его блок-цепочном виде, конечно, не покатит. Но от него можно взять историю с криптографией (идентификация по ключам, подписывание ключами, хеш-сцепка в графе), валидацию с консенсусом, ну и дублирование данных на узлах, то есть по сути то, что можно поименовать словами Trusted Digital System — системы, в которых преобразование данных происходит с сохранением их достоверности.
      Сделать triplestorе поверх какой-то ledger database наверняка можно, но вызывает вопросы производительность.
      Хранилище данных поверх блоков — это нормально (пока, правда, используются стандартные БД, у нас в Apla — PG). В этом случае производительность падает только на запись (формирование блоков, консенсус, виртуальная машина), а запросы к хранилищу — как обычно (если только не запрашивать несколько узлов для валидации).

      Но поскольку речь идет именно о семантике, то есть однозначной сепарации транзакций по предметным областям и моделям, то нет необходимости сваливать их в один блок, можно обрабатывать параллельно и встраивать сразу в хранилище (в соответствующий фрагмент графа). Ну и стоит заметить, что RDF (в его стандартном виде) уже следует заслуженно похоронить (складывается такой консенсус в отрасли). Мне хочется заменить его на событийное описание. Тогда граф получится направленным и ациклическим. (Но это уже отдельная тема).

      Мне это ваше утверждение кажется большим авансом.
      Ветви событийного графа могут представлять собой потоки событий, организующих процессы и действия, а это нечто иное, чем объектные графы. Скармливать сеткам такие ветки гораздо интересней.

      Еще раз спасибо за комментарий.

      P.S. Мне очень понравилась ваша NitrosBase. Это именно то, о чем я мечтал для реализации событийной БД. Мы в ближайшем будущем возобновляем работу над прототипом и обязательно попробуем реализовать его на NitrosBase.

      P.P.S. Про событийный подход можно прочитать мою статью на хабре (если заинтересует могу предложить материалы на уровне ТЗ).


    1. boldachev Автор
      24.09.2019 23:16

      Посмотрите еще четвертую ссылку под текстом — там подход немного с другой стороны и подробнее.
      WEB 3.0 или жизнь без сайтов


  1. DreamingKitten
    24.09.2019 12:04

    Вот как-то даже обидно, что в списке ссылок нет этой


    1. boldachev Автор
      24.09.2019 14:00

      Спасибо за линк. Но обидно не должно быть, поскольку я дал ссылки только на свои же ранние тексты на эту тему. Просто для ретроспективного взгляда.


  1. VolCh
    25.09.2019 08:40
    +1

    С блокчейном, по-моему, всё не так тривиально. Если нам просто нужно доверенное хранилище данных от вещей (своих прежде всего), то классический блокчейн тут как пушка для воробьёв.


    Как по мне, то основная практическая идея блокчейна — исторические данные дорого, нет, очень дорого аккуратно изменить и относительно дёшево проверить на отсутствие грубых изменений. И только благодаря дороговизне изменений можно доверять этим данным из анонимных узлов репликации (вопрос аутентификации оригинального источника, по-моему, вне блокчейна обычно).


    С ходу в голову не приходит какие данные от вещей могут быть публично доступны, при этом критически важно должна быть гарантия неизменности их истории


    1. boldachev Автор
      25.09.2019 13:49

      Спасибо. Сначала отвечу предложением из текста: «Конечно, тут надо говорить не о блокчейне как таковом (цепочке криптосцепленных блоков), а о технологии, обеспечивающей идентификацию пользователей, консенсусную валидацию и защиту контента на основе криптографических методов в одноранговой сети». Таки да, обсуждать надо не блокчейн, а именно доверительное хранилище данных или чуть шире Trusted Digital Systems (как я это называю), то есть системы, которые поддерживают достоверность данных при их хранении и преобразованиях.

      Действительно задачу доверительных данных надо формулировать с нуля и решать по-разному на разных уровнях и в разных предметных кластерах, а не городить цепочку блоков. От блокчейна оставить хеш-связывание, даже децентрализация хранения и работа с крипто-ключами реализовывалось до и вне его.

      С ходу в голову не приходит какие данные от вещей могут быть публично доступны, при этом критически важно должна быть гарантия неизменности их истории
      А это все, что подпадает под простое понятие «юридическая значимость» — все дипломы, сертификаты, права собственности, контракты и пр. ну и данные на которые они непосредственно ссылаются. По сути, речь идет о следующем этапе работы с электронной подписью, когда все операции подписания, проверки и создания юридически значимых ссылок должны уйти в сеть и реализовываться автоматически. И конечно, исходно должна поддерживаться темпоральность (историчность) хранилилища. И городить это надо в комплексе с сетевыми и семантическими решениями. Иначе не заработает.

      P.S. Вот тут подробнее: Блокчейн и государство