В феврале мы познакомились с Gemini 1.5 Pro и контекстным окном в 1 миллион токенов, позволяющим обрабатывать огромные объемы информации за один раз — 1 час видео, 11 часов аудио, 30 000 строк кода или более 700 000 слов.

Сегодня я бы хотела рассмотреть вопрос обработки видео, а именно просмотра часового видео (вернее сказать 58 м 19 с) и оценить, как хорошо модель будет извлекать информацию.


Начнем с вводных. Модель испытывается на способность работать с обширным контекстом через ряд искусственных и прикладных задач. В частности, в задачах искусственного характера, таких как "поиск иголки в стоге сена", которые проверяют способность модели точно выделять нужные данные на фоне избыточной информации, модель Gemini 1.5 Pro продемонстрировала исключительные результаты, превышающие 99,7% точности. Это касается и поиска при значительном увеличении объема "шума" до нескольких миллионов токенов в разнообразных модальностях, включая текст, видео и аудио.

Из отчета Gemini 1.5 Pro

На рисунке ниже проводится сравнение между Gemini 1.5 Pro и GPT-4V в задаче идентификации скрытого слова в видео разной длительности, достигающей до трех часов. Задача моделей заключается в выявлении слова, замаскированного в тексте на протяжении всего видео. Для анализа используется частота 1 кадр/с. На левой стороне изображения две сетки размерами 10 на 50 отражают эффективность работы Gemini 1.5 Pro и GPT-4V на примере первого часа документального фильма. К примеру, верхняя левая ячейка отображает результаты анализа первых 1.2 минут видео и отбор кадров из первых 10% этого временного отрезка, где было скрыто слово. Зеленый цвет ячейки символизирует успешное обнаружение слова, в то время как серый указывает на ошибку API. В то время как API GPT-4V способно анализировать видео только до трех минут, Gemini 1.5 Pro показывает возможность находить слово на протяжении полного часа видео, что подтверждается полностью зеленой сеткой. Справа расположена сетка 10 на 10, которая иллюстрирует безупречную работу Gemini 1.5 Pro в анализе трехчасового видео.

Из отчета Gemini 1.5 Pro

Поскольку мы говорим про видео, то стоит обратиться к примеру обработки немого кино Бастера Китона "Шерлок-младший", продолжительностью в 45 м. Преобразовав видео в последовательность изображений (2674 кадра) с частотой 1 кадр/с, они создали вводный контекст из 684,000 токенов для модели. Это позволило модели извлекать и обрабатывать информацию из конкретного кадра и предоставлять соответствующую временную метку. На картинке ниже по второму промту модель определяет сцену в фильме по рисунку от руки:

Из отчета Gemini 1.5 Pro

Что ж, звучит заманчиво, потому не будем медлить и проверим самостоятельно.

Потестим?

Вспомним методы коммуникации Мэтта Абрахамса и с ними пройдемся по модели, поскольку целый час времени выделить тяжело, а память освежить хочется.

Ремарка на всякий случай: доступ из России ограничен, поэтому для использования необходим иностранный IP, те еще танцы с бубном.

Качаем mp4 видео и идем в Google AI Studio. При загрузке увидела целый 1,032,500 токенов, не дурно, да? 1 токен примерно равен 0,75 слова или 4-м символам, то есть общее число слов составляет порядка 774,375 или если считать по символам - 4,130,000. (для английского)

Я прикинула пул вопросов, поэтому не будем тянуть и перейдем к каждому по порядку!

*Я не буду злоупотреблять, потому прикреплю только часть скринов, поскольку некоторые из них без явной демонстрации того, о чем говорится.

**Также промты я писала на английском, потому здесь будут представлены переводы вопросов и ответов.

Почему спонтанная речь более распространена?

Первый ответ сгенерировался примерно за 80 с (по завершении - это в принципе среднее время ответа модели в моем случае).

Спикер объясняет, что спонтанная речь встречается чаще, чем запланированная (03:43). Он приводит несколько примеров ситуаций спонтанной речи, с которыми мы сталкиваемся в нашей повседневной жизни:

  • Предисловие: Когда вас просят представить людей на ужине или мероприятии.

  • Обратная связь: Предоставление импровизированной обратной связи, когда это запрашивает начальник или коллега.

  • Тосты: Произнесение неожиданного тоста на торжестве.

  • Вопросы и ответы: Ответы на вопросы во время сессии вопросов и ответов после презентации или выступления.

Эти примеры иллюстрируют, как спонтанная речь переплетается с различными аспектами нашей личной и профессиональной жизни, делая её более частым явлением по сравнению с запланированными презентациями или речами.

Перейдем по таймкоду:

Да, это нужный таймкод, именно в этот момент лектор начинает приводить примеры спонтанной речи.

Тогда двигаемся далее.

Основные темы, освещаемые спикером

Основные темы видео:

  • Управление тревожностью при публичных выступлениях: Спикер подчеркивает важность управления тревожностью при публичных выступлениях, признавая, что это общий опыт для большинства людей (04:41). Он предлагает техники, такие как "приветствие своей тревоги" (07:00) и переосмысление ситуации выступления как беседы (09:19), чтобы помочь людям чувствовать себя более комфортно и уверенно.

  • Структура в спонтанных выступлениях: Видео подчеркивает ценность структуры в спонтанных выступлениях. Спикер представляет две структуры:

    • Проблема-Решение-Выгода: Эта структура включает в себя описание проблемы, предложение решения и выделение выгод от этого решения (40:14).

    • Что-И что из этого-Что дальше: Эта структура фокусируется на объяснении, что такое что-то, почему это важно и какие следующие шаги (41:58).

  • Ориентация на настоящее: Спикер поощряет сосредоточение внимания на настоящем моменте, а не задумываться о потенциальных будущих исходах или ошибках (12:04). Он предлагает техники, такие как обратный отсчет от 100 сложными числами или произношение скороговорок (13:22), чтобы помочь людям оставаться в настоящем и избегать переосмысления.

  • Важность слушания: Видео подчеркивает критическую роль слушания в эффективной коммуникации, особенно в спонтанных сценариях выступлений (06:18). Активно слушая аудиторию и понимая их потребности, спикеры могут адаптировать свои ответы и вступать в более значимое взаимодействие.

  • Практика и подготовка: Несмотря на то, что акцент делается на спонтанных выступлениях, спикер признает ценность практики и подготовки. Он поощряет людей репетировать, используя предложенные структуры и техники, чтобы нарастить уверенность и улучшить свою способность эффективно реагировать в непредвиденных ситуациях.

Первые четыре пункта - все хорошо, даже отлично, идеальные таймкоды, в каждый из предложенных спикер начинает погружать в тему, однако вопрос вызывает последний пункт - модель не прикрепила таймкод, в целом, это можно уточнить, но на карандаш стоит взять.

Идем дальше.

Как мы управляем тревогой при общении?

Управление тревогой при общении

Видео предлагает несколько техник управления тревогой, особенно в первые минуты перед выступлением, на основе академических исследований и опыта лектора в Высшей школе бизнеса Стэнфорда:

  • (07:20 - 07:47) Приветствуйте свою тревогу: Видео предлагает, вместо того чтобы пытаться подавить чувство нервозности, признать его и осознать, что это естественная реакция на ситуацию, воспринимаемую как важную. Принимая эти чувства, вы можете предотвратить их усиление и взятие под контроль.

  • (08:26 - 09:13) Переосмысление ситуации: Измените свою точку зрения, перестав рассматривать выступление как представление и начав видеть его как разговор. Думая о нем как о разговоре с вашей аудиторией, вы уменьшаете давление необходимости сделать все "правильно" и позволяете себе более естественное и расслабленное взаимодействие.

  • (13:34 - 13:40) Сосредоточение на настоящем моменте: Техники, такие как скороговорки или обратный отсчет с 100 по семь, могут помочь сосредоточить ваше внимание на настоящем моменте. Занимая ваш ум простой задачей, вы переключаете внимание с тревог о будущем или потенциальных негативных исходов.

  • (13:40 - 13:46) Разминка голоса: Многие нервные ораторы пренебрегают разминкой голоса, что может усугубить тревогу. Занятия вокальными упражнениями, такими как скороговорки, могут помочь подготовить ваш голос к выступлению и дополнительно способствуют сосредоточению на настоящем моменте.

В целом, все тайминги верные, разве я бы начало третьего интервала переместила с 13:34 на 13:27. Последние два пункта стоило бы поместить внутрь "переосмысления", а также внутри переосмысления должны быть "начните с вопросов" и "используйте разговорный язык". То есть либо должно быть шесть самостоятельных пунктов, либо два основных, где у последнего 4 подпункта.

Переходим к следующему вопросу.

Стоит ли использовать юмор на выступлениях?

Использование юмора в выступлениях

Видео кратко затрагивает тему юмора, выделяя риски и вознаграждения, и предлагая советы по его эффективному включению:

  • (56:14 - 56:21) Риски и вознаграждения: Хотя юмор может быть мощным инструментом для связи с аудиторией и повышения привлекательности вашей презентации, он также несет в себе риски. Шутки, которые не срабатывают или культурно неприемлемы, могут негативно повлиять на вашу достоверность и эффективность вашего сообщения.

  • (56:31 - 56:33) Проверьте ваш юмор: Чтобы снизить риски, докладчик предлагает проверять ваш юмор на других, прежде чем включать его в вашу презентацию. Получите обратную связь от разнообразной группы людей, чтобы оценить, насколько ваши шутки, скорее всего, найдут отклик у вашей целевой аудитории и избежать любых потенциальных культурных промахов.

  • (56:37 - 56:43) Имейте запасной план: Если шутка не сработает как задумано, имейте запасной план для изящного восстановления. Докладчик предлагает самоиронию как "наименее рискованный" вариант, так как это позволяет вам признать ситуацию и потенциально превратить её в юмористический момент.

  • (56:14 - 56:21): Видео подчеркивает, что "самоирония - ваш лучший выбор" при использовании юмора, так как она менее вероятно обидит и может помочь наладить контакт с аудиторией, показав вашу человеческую сторону.

Про юмор спикер начинает говорить на моменте 55:54. В 56:00 он уже говорит о том, что это рискованно и начинает перечислять причины, а в 56:10 начинает говорить о самоиронии. В принципе не критично, поскольку все основные моменты передал, но пометку сделали.

А что еще аудитория спрашивала? Сейчас узнаем!

Какие еще вопросы были заданы во время выступления?

Вопросы, заданные во время презентации

Видео включает два вопроса аудитории, связанных с конкретными ситуациями выступления:

(51:00 - 51:15): Участник аудитории, который часто участвует в удаленных презентациях с географически разбросанной аудиторией через телеконференции, попросил советов по обращению с этим типом выступлений. Докладчик признал сложности удаленных презентаций и предложил включать методы вовлечения, требующие активного участия аудитории, даже когда они физически отсутствуют.

(52:18 - 52:26): Другой участник аудитории, работающий адвокатом, осведомился о стратегиях управления враждебной средой перекрестного допроса во время судебных разбирательств. Хотя докладчик признал отсутствие личного опыта в этой конкретной области, он подчеркнул важность ранее обсуждавшихся техник, таких как управление тревогой, переосмысление ситуации и перефразирование вопросов, чтобы выиграть время и сформулировать эффективные ответы.

Как я понимаю: модель вывела диапазоны именно для заданного вопроса, то есть в какой момент кто-то из аудитории задал вопрос, поскольку по таймингам именно такой вариант подходит. Оба вопроса верно подсвечены, однако не хватает пары вопросов, например, я хотела бы увидеть вопрос про враждебное общение. Всего спикеру было задано 6 вопросов, не учитывая вопрос, когда девушка просила вернуть экран, а также опуская вопрос про юмор, которые мы осветили ранее. То есть суммарно модель проигнорировала 3 вопроса (либо 4, если учитывать вопрос-просьбу), хотя запрос изначально подразумевал все вопросы, заданные о стороны аудитории во время выступления (опуская вопрос про юмор). Думаю, это вполне решаемо уточнением промта. Запомнили и можем идти дальше.

Напиши детализированное резюме лекции

Краткое содержание лекции: Думайте быстро, говорите умно - эффективное спонтанное выступление

Этот интерактивный семинар в Высшей школе бизнеса Стэнфорда был направлен на помощь людям в становлении более эффективными и уверенными коммуникаторами в ситуациях спонтанных выступлений. Докладчик, опираясь на академические исследования и личный опыт, рассмотрел общую проблему тревоги, связанной с публичными выступлениями, и предложил несколько техник для ее управления, включая:

  • Приветствие вашей тревоги: принятие чувства нервозности как естественной реакции.

  • Переосмысление ситуации: изменение перспективы с выступления на разговор.

  • Фокус на настоящем моменте: техники, такие как скороговорки или упражнения на счет, чтобы оставаться в настоящем.

  • Разминка голоса: выполнение вокальных упражнений для подготовки голоса и снижения тревоги.

Лекция подчеркивала важность структуры для эффективной передачи сообщения. Докладчик представил две ключевые структуры:

  • Проблема-Решение-Выгода: эта структура помогает докладчику четко очертить проблему, предложить решение и подчеркнуть выгоды от принятия этого решения.

  • Что? И что из этого? Что дальше?: Эта структура помогает отвечать на вопросы, уточняя проблему, объясняя ее важность и намечая следующие шаги.

Семинар также затронул использование юмора, признавая его потенциал для связи с аудиторией, но также подчеркивая риски, связанные с тем, что шутки могут не сработать или быть культурно неприемлемыми. Докладчик рекомендовал использовать самоироничный юмор как более безопасный вариант и подчеркнул важность тестирования юмора на разнообразной группе людей перед его включением в презентацию.

Наконец, семинар рассмотрел проблемы удаленных презентаций и враждебных вопросов, предлагая техники, такие как вовлечение аудитории и перефразирование, для эффективного управления этими конкретными ситуациями.

Какие ключевые уроки были выделены?

Основные уроки из лекции:

  • Управление тревогой имеет решающее значение для эффективной коммуникации. Примите свою нервозность, переосмыслите ситуацию и сосредоточьтесь на настоящем.

  • Структурируйте свое сообщение для ясности и воздействия. Используйте рамки, такие как "Проблема-Решение-Выгода" или "Что? И что из этого? Что дальше?"

  • Используйте юмор осторожно. Самоирония часто является самым безопасным вариантом, и всегда проверяйте свои шутки заранее.

  • Активно слушайте, чтобы понять потребности и ожидания вашей аудитории. Это позволяет вам адаптировать ваше сообщение и соответствующим образом реагировать в данный момент.

  • Практика и подготовка необходимы для развития уверенности и компетентности в спонтанных выступлениях.


Итого: сегодня мы пробежались по лекции через Gemini 1.5 Pro и на мой взгляд - это очень хороший инструмент, поскольку число совпадений гораздо больше, нежели неточностей. Что неточности, что галлюцинации решаются качественным промтом в большинстве случаев. Конкретно в этом примере не сказать, что было что-то критичное, чего нельзя было бы, например, уточнить.

В общем-то на мой взгляд отлично подойдет для поиска информации из видео конференций, подкастов и лекций (но, опять же - доверяй, но проверяй).

Спасибо за внимание!

Комментарии (12)


  1. yafice
    11.05.2024 15:14
    +1

    Интересный опыт. Не пробовали тестировать на документах? Получить выжимку знаний или внятные ответы из целой библиотеки очень интересная перспектива.


    1. veseluha Автор
      11.05.2024 15:14
      +7

      Да, еще в марте, когда только открыли доступ, для теста загружала учебник по оптике на 600+ с, не вспомню сколько по токенам точно вышло, но порядка 700-800к. Вопросы в основном были «что на такой-то странице» или «перескажи такой-то параграф», в целом, очень даже, генерировала точные ответы без нареканий.


  1. aansty4U
    11.05.2024 15:14
    +4

    Отличный способ быстрее обрабатывать материал по бесячим непрофильным предметам в вузе))) Однозначно лайк за статью! ;)


    1. veseluha Автор
      11.05.2024 15:14
      +3

      Понимаю, разделяю)

      Спасибо!


  1. eugenekoiner
    11.05.2024 15:14
    +1

    1 часовое видео можно самому посмотреть на x2 с перемотками. А вот когда в тебя курс с 3 часовым видео и таких видосов штук 100, вот бы все это загрузить и вопросы задавать по всему курсу


  1. ToniDoni
    11.05.2024 15:14

    Не совсем понятно как автор тестировала.

    Мне Gemeni сказал: К сожалению, я не могу искать конкретный контент в видео на YouTube.


  1. Ailteres1
    11.05.2024 15:14

    У кого та же проблема? Gemini 1.5 pro стал полностью любой промт, где цель промта - извлечь инфу с какой-то аудиозаписи. Пишет "произошла внутренняя ошибка". Причём, если через раз он может среагировать на фразу "проанализируй [файл с аудио]", то на что-то большее - уже нет. Буквально пару дней назад промты того же характера на ура выполнял и весьма содержательно отвечал. Его вообще не смущала работа с аудио любого объёма и уровня сложности - 200к токенов край был, который я использовал, и все было норм. А сейчас на 90к сливается сразу со своей "внутренней ошибкой".

    пример простого промта, который он также не воспринимает сейчас (раньше работало):

    Проанализируй аудио внимательно, распределив информацию на частное и целое [Голос 007.m4a176,320 tokens]

    Вот промт, который раньше без проблем работал, а сейчас - нет:

    Проект: Глубинный анализ транскрибированного интервью Роль: Исследователь, проводящий качественный анализ данных Задача: Перестроить транскрибированный текст интервью из файла [ Голос 008.m4a 107296 Tokens ] в многоуровневую таблицу и дать название темы, которое охватывает все от начала и до конца. В таблице создать несколько уровней деления информации: от общих тенденций и наблюдений до уникальных индивидуальных особенностей. Пример структуры таблицы: Уровень 1: Общее – Частное Уровень 2 (внутри "Частного"): Частное_1 – Частное_2 – … Уровень 3 (внутри каждого "Частного_N"): Ещё более детальное деление информации при необходимости. Важно: Сохранить всю информацию из транскрибированного текста, не удаляя никаких данных. Формат: Многоуровневая таблица с гибкой структурой, адаптирующейся под содержание текста. Дополнительные инструкции: Анализируй текст внимательно, определяя уровень общности/частности каждого фрагмента. Гибко подходи к структуре таблицы, добавляя уровни и колонки по мере необходимости. Если фрагмент сложно классифицировать, добавляй комментарии с пояснениями. Выделяй ключевые слова или фразы, чтобы облегчить дальнейший анализ. Цель этого проекта: Провести глубокий анализ транскрибированного интервью, выявив многоуровневые аспекты информации – от общих тенденций до уникальных индивидуальных особенностей. Это позволит получить более полное и nuanced понимание исследуемой темы.

    я просто хочу сказать, что это было что-то космическое. То, что я прислал - верхушка айсберга. так что я с уверенностью могу сказать - ему провели лоботомию и не предупредили пользователей. но видимо всем пофиг. я особой реакции не заметил от других


    1. dimka11
      11.05.2024 15:14

      Видимо вычислительных ресурсов перестало хватать на всех желающих


  1. Fardeadok
    11.05.2024 15:14

    Гемини скачать можно? Какие есть аналоги для такой работы с видео?