NLP в японском стиле. Репортаж с поездки в Канадзаву на конференцию NLDB 2025 / forpes.ru

Главная
NLP в японском стиле. Репортаж с поездки в Канадзаву на конференцию NLDB 2025

NLP в японском стиле. Репортаж с поездки в Канадзаву на конференцию NLDB 2025 +2

07.08.2025 10:55

THunderCondOR 0 160 Источник

Всем привет! С 4 по 6 июля в японском городе Канадзава прошла небольшая, но очень ламповая конференция NLDB 2025, посвященная различным доменам в NLP. Мы, группа исследователей из AIRI, съездили на это мероприятие, других посмотреть и себя показать.

О том, что было на конференции и о красотах Канадзавы — читайте в тексте ниже.

О конференции в целом

Ежегодная международная конференция по естественному языку и информационным системам NLDB, хоть и не относится к самым топовым конфам (ранг C по CORE), довольно уважаема в NLP сообществе и имеет долгую историю. Вообще говоря, в этом году серия праздновала юбилей — 30 лет. Стартовав во Франции 1995 году, NLDB посещала разные города и страны, по большей части европейские, но на этот раз организаторы выбрали своим местом Японию, и, как нам кажется, не прогадали.

Конференция прошла в городе Канадзава, который находится на западном побережье Японии. Всё происходило в здании Торгово‑промышленной палаты Канадзавы (Kanazawa Chamber of Commerce and Industry). Похоже на то, что это некоторый государственный орган, который призван помогать местному бизнесу, однако здесь сдаются лекционные залы со всем необходимым оборудованием, где и проходило наше мероприятие.

Фото мы взяли с какого-то сайта аренды. В реальности оно показалось нам более невзрачным

Программа NLDB 2025 предлагала стандартный для нынешнего года набор тем: LLM, мультимодальные модели, вопросно‑ответные системы и многое другое. Основная часть включала в себя два параллельных трека, можно было выбрать между разными сессиями. В последний же день прошёл индустриальный трек. Труды NLDB 2025 по традиции опубликовал у себя журнал LNCS.

Научная программа

Поскольку конференция небольшая, на ней были только устные доклады: постерной секции и воркшопов не было. Пленарных докладов тоже было немного, всего два. Первый — про интерпретацию LLMками нетекстовых данных — прочитал Хироя Такамура (Hiroya Takamura) из Национального института передовых промышленных наук и технологий AIST, Токио. Во втором докладе, сделанном Хэнь Сэнь Хуаном (Hen‑Hsen Huang) из Тайваньского Института информационных наук Academia Sinica, рассказывалось о том, как его группа смогла научить языковые модели абстрактному мышлению.

Среди секционных выступлений хотелось бы выделить доклад под названием Explaining Bias in Internal Representations of Large Language Models via Concept Activation Vectors. Докладчик — он же единственный автор статьи — по имени Джаспер Кайл Катапан (Jasper Kyle Catapang) представил элегантный подход к анализу скрытых предубеждений в LLM. Используя векторы активации концептов (CAV), он смог количественно измерить, как модели «думают» о расах и связанных с ними этических вопросах при генерации текста.

Примечательно здесь то, что в исследовании использовался так называемый steering, когда прямо во время инференса модели в её активации вносятся изменения для контроля за генерируемым текстом. Это очень перспективное направление исследований в LLM. Например, полгода назад резко завирусился метод «аблитерации» моделей, когда прямо во время инференса находились активации, отвечающие за alignment модели, и эти ограничения, как оказалось, можно было очень просто обойти.

Наши статьи

От AIRI на NLDB 2025 было принято три статьи, расскажем и про них тоже.

В первый день выступил Даниил Московский, представив работу Memory Efficient LM Compression using Fisher Information from Low‑Rank Representations. Статья демонстрирует любопытный эмпирический результат: удалось существенно снизить вычислительные требования к использованию существующего метода взвешенной низкоранговой аппроксимации языковых моделей Fisher‑Weighted SVD (FWSVD). FWSVD гораздо лучше по сравнению с SVD уменьшает размер модели, опираясь на «эмпирическую» информацию Фишера для определения «важности» ее компонентов:

$I_{w} = \frac{1}{|\mathcal{D}|} \sum_{i=1}^{|\mathcal{D}|}\left(\frac{\partial}{\partial w} \mathcal{L}\left(d_i; w\right) \right)^2$

Проще говоря, это среднее значение квадратов градиентов, которое показывает, насколько чувствительна ошибка модели $\mathcal{L}$ к изменению каждого конкретного веса . Однако у метода есть существенный недостаток: собирать градиенты необходимо по всей модели целиком, что само по себе требует значительных объемов видеопамяти.

Наши авторы предложили простое, но действенное решение этой проблемы. Вместо полного дообучения они применили легковесный метод LoRA, который модифицирует лишь малую долю параметров модели. Ключевая идея здесь заключалась в том, чтобы аппроксимировать информацию Фишера, используя градиенты только от этих LoRA‑адаптеров.

Исследователи прогнали этот «трюк» на основных NLP‑задачах (NER, QA, NLU, суммаризация) и всех трех архитектурах (encoder‑only, decoder‑only, encoder‑decoder), сжимая FCN‑слои. Оказалось, что новый подход, FWSVD‑LoRA, достигает сопоставимого, а в некоторых случаях и лучшего качества сжатия, чем оригинальный FWSVD, а видеопамяти требуется значительно меньше.

Доклад Михаила Сальникова под заголовком ShortPathQA: A Dataset for Controllable Fusion of Large Language Models with Knowledge Graphs был первым докладом последнего дня конференции. Он и коллеги выпустили первый Knowledge Graph Querstion Answering (KGQA) корпус, где каждому вопросу сопоставлен уже вычисленный подграф Wikidata, что снимает необходимость дорогостоящего entity linking и поиска путей.

Новый датасет упрощает исследования на стыке LLM + KG: теперь можно больше сосредоточиться на моделировании, а не на подготовке данных. Базовые эксперименты показывают, что даже GPT-4o теряет качество, если ему «сыро» скормить граф — значит, требуются новые методы представления графовой информации.

Авторы предлагают стандартизованное сравнение методов: все исследователи работают с одними и теми же подграфами и кандидатами, а не с разными пайплайнами извлечения. Этому способствует и то, что код и данные открыты под Apache-2.0, и мы приглашаем коллег тестировать свои алгоритмы на ShortPathQA.

Их ждёт реалистический, но сложный бенчмарк: 12 526 вопросов (автоматическая часть из Mintaka + 350 вручную созданных «сложных» вопросов) и 143 061 пара «вопрос‑кандидат» охватывают 32 тысячи уникальных сущностей; средний подграф — 3-4 узла, но в ручной выборке их значительно больше.

Сразу следом за Мишей про свою работу The benefits of query‑based KGQA systems for complex and temporal questions in LLM era доложили Михаил Чайчук и Олег Сомов. Они с коллегами разработали систему для ответов на сложные вопросы с использованием KGQA на основе Wikidata, включающую методы подбора и первичной фильтрации подходящих под запрос сущностей и предикатов из базы данных и генерацию SPARQL‑запросов с применением небольших языковых моделей. Кстати, Олег и его студенты недавно написали статью на Хабр про text‑to‑SPARQL задачу, рекомендуем!

Подход, предложенный авторами, комбинирует несколько небольших моделей для разных подзадач. Он требует значительно меньших затрат ресурсов и демонстрирует высокую обобщаемость и способность к фильтрации некорректных запросов. Эксперименты показали, что система превосходит ChatGPT и существующие методы в задачах multi‑hop и ответах на временные вопросы. Код доступен в открытом репозитории.

А ещё наша коллега из AIRI Елена Тутубалина была председателем одной из секций NLDB 2025.

Канадзава и её окрестности

Канадзава — город на западном побережье острова Хонсю, столица префектуры Исикава. Это относительно небольшой (по японским меркам) город, с населением в примерно 460 тысяч человек. Тут нет небоскребов, метро и толп, дома в основном не очень высокие, построенные в прибрежном стиле.

Сразу стоит отметить, что большую часть трёх дней мы провели на конференции, поэтому на осмотр города у нас оставалось лишь немного времени по вечерам, если не считать организованную для гостей экскурсию. И всё же кое‑что мы посмотрели и пофоткали.

Добирались мы в Канадзаву через Токио, опробовав Синкансен — знаменитый японский скоростной поезд:

Первой, что встречаешь, приезжая в город — это, конечно же, вокзал — одна из визитных карточек Канадзавы. Это большое здание из стекла и стали, которое сочетает в своей архитектуре современность и традиционные японские мотивы.

Другая известная достопримечательность — Намагачи или Квартал самураев, где сохранились несколько аутентичных самурайских усадеб, внутри которых расположены музеи.

Также мы прогулялись по узким улочкам квартала Хигаси‑Тяягай или Квартала гейш, где расположены старинные чайные домики в традиционном стиле.

Посетили мы и очень популярный среди туристов (да и местных тоже) рынок Омичу. Здесь продается огромное количество самых разных товаров, и, в первую очередь, конечно, всевозможные морепродукты, которые вылавливают тут же на побережье.

На второй день мы отправились на экскурсию для участников конференции, во время которой посетили замок Канадзава и прилегающий к нему сад Кэнроку‑эн.

Кэнроку‑эн — один из трёх великих садов Японии, созданный в XVII веке как частный парк клана Маэда. Его название отсылает к «шести достоинствам» идеального ландшафта: простор, уединённость, человеческое мастерство, древность, водные источники и панорамные виды. Это по‑настоящему красивый парк, в котором каждая деталь имеет особое значение, а деревья никогда не вырубаются, а если их и приходится по каким‑то причинам убрать, на их место сажают их наследников (ростки от оригинального дерева).

Нам также удалось немного прогуляться по самому Токио и насладиться его уникальной атмосферой сочетания традиций с небоскребами и высокими технологиями.

Ну и, конечно же, мы посмотрели на знаменитую токийскую телебашню и ее ночную подсветку

Нет нужды говорить о том, что Япония — это по‑настоящему уникальная страна с самобытной культурой, архитектурой и совершенно особенными людьми, которую хочется исследовать и исследовать. Но на это стоит выделить не меньше недели, а не те три дня, которые у нас были.

Очень надеемся вернуться сюда ещё раз, по работе или нет.

Наша команда AIRI. Слева направо Михаил Чайчук, Даниил Московский, Елена Тутубалина, Александр Панченко, Михаил Сальников. Фотографирует нас Олег Сомов.

NLP в японском стиле. Репортаж с поездки в Канадзаву на конференцию NLDB 2025 +2

О конференции в целом

Научная программа

Наши статьи

Канадзава и её окрестности

Комментарии (0)