1. Intro




— Татьяна Леонидовна, а можно, мы посмотрим это кино с субтитрами?
— Нет, малолетние дятлы, мы тренируем ваше слуховое восприятие, поэтому кино вы будете смотреть без них! С субтитрами вы будете только читать текст и не слушать.
— Татьяна Леонидовна, но без субтитров мы больше половины не понимаем!
— А вот это уже ваши проблемы.

Начало 2000-х, диалог с учителем во французской спецшколе, Санкт-Петербург.



2. В чем дело?


Сериалы и фильмы — прекрасная штука для улучшения английского. Ты уже знаешь грамматику, владеешь большим набором слов. Поддерживать свободную беседу с носителем языка еще рано, а практиковаться в тестах и упражнениях — уже скучно. Ты начинаешь смотреть кино и сериалы.

Смотришь себе и смотришь. Вроде все ясно-понятно, но тут начинается быстрый диалог двух героев, из которого ты понимаешь только предлоги. Ок, включаем сабы. И они решают проблему — ты начинаешь понимать происходящее.

Однако, посмотрев несколько видео с сабами, люди часто замечают две вещи.
  • Вместо тренировки восприятия на слух ты становишься мастером по скоростному чтению сабов на иностранном языке. Теперь ты быстро понимаешь фразу, только взглянув на нее, но слуховое восприятие прогрессирует незначительно. Отключив отображение сабов, ты снова перестаешь понимать, что же происходит в некоторых сценах на экране. Школьная учительница Татьяна Леонидовна была права, запрещая нам смотреть французские фильмы с сабами — «малолетние дятлы» и правда не прогрессировали в восприятии на слух и в языковом мышлении.
  • Некоторые участки фильма остаются абсолютно непонятными из-за того, что содержат трудные слова. «I can't jeopardize my company's success»? Что, простите? Jeopardize?. Окей, Гугл, я поставлю кино на паузу, а ты скажешь, что это значит.
    Есть ребята, которые предлагают смотреть фильмы с субтитрами сразу на двух языках — английском и русском. Что быстро делает вас уже абсолютным чемпионом в скоростном чтении сабов на двух языках, но мало способствует слуховому восприятию и выработке языкового мышления.


Без сабов бывает ничего не понятно, а с сабами тормозится прогресс в слуховом восприятии и… все равно бывает непонятно.

3. Now what?




На этом скрине из «Южного Парка» видно 7 слов. 6 из них знакомы почти всем, изучающим английский. И их вполне можно узнать и понять, даже если они произнесены быстро и с акцентом. Остается одно слово, с которым (с высокой вероятностью) будут проблемы. Слово weary — уставший, утомленный.

  • Это слово не так часто встречается. Велик шанс, что вы не распознаете его на слух.
  • Хорошо бы прямо на экране показать перевод. Иначе либо придется отвлекаться и переводить со словарем, либо просто забить и смотреть дальше.


А остальные слова можно выкинуть. Они знакомы почти всем и совершенно не нуждаются в показе на экране. Если применить эту логику к остальным сценам, мы получим сабы, в которых появляются только трудные слова, а остальное нам придется слушать и понимать.

Как оказалась, эта идея совсем не нова. Беглый гуглинг показал, что как минимум несколько блоггеров писали статьи с аналогичной идеей, но предлагали делать адаптацию субтитров вручную. А мы, гики, будем делать автоматическую адаптацию сабов программно!

4. Строим велосипед


Задача сводится к поиску сложных слов в тексте, которые нуждаются в переводе.

Основная идея в том, что можно проанализировать ооооочень много текстов на английском, посчитать статистику по использованию слов и понять, что одни слова используются намного реже, чем другие. Эти редкие слова и подпадают под понятие «сложное слово» — они редко встречаются, поэтому вы не знаете их перевода и написания.

Я уже занимался всем этим в качестве хобби после работы (кстати, вот статья о том, как все начиналось). Все это вылилось в проект Bamboo Ninja, который позволяет анализировать книги на английском, находить сложные слова в них, вставлять перевод и собирать книгу обратно. Субтитры — это тоже текст, поэтому я возьму наработки оттуда и применю их к субтитрам.

Мы открываем сабы, разбиваем их на кусочки, потом на отдельные слова и начинаем анализ. Для каждого слова нам нужно решить задачу бинарной классификации — пропустить слово через алгоритм, который вернет на выходе 1 или 0 — является ли слово простым для изучающего английский или сложным. Свое решение классификатор делает на основании статистических данных, полученных из анализа ~40 Гб текстовых данных из разных источников (вообще стоило собирать данные действительно по очень разным источникам: выпотрошить логи чатов, новости, тексты песен. А я поленился и использовал в основном тексты книг, но об этом чуть позже).

Дальше идет некоторое количество возни с базой данных, написания кода и получаются сабы, которые выглядят примерно так


5. Ездим на построенном велосипеде


Я прогнал через программу 3-4 десятка сабов, оценил значения метрик, которые выдал анализатор. Попробовал смотреть фильмы с тем, что получилось. Показывал друзьям, знакомым и посетителям сайта.

Для оценки результатов я использовал две классические метрики для задач машинного обучения:
  • Точность (precision) — способность правильно классифицировать слово
  • Полнота (recall) — способность находить все слова, требующие перевода

Выяснилось, что значения метрик имеют тенденцию прыгать от фильма к фильму. На одних фильмах полнота и точность показывали 85%-90% от желаемого, а на других — в районе 55%. Покопавшись в проблеме, я нашел причину — большую часть данных для статистического анализа я собрал из художественных книг за последние 300 лет и некоторые слова в них встречаются чаще, чем встречаются в современном английском. Например, слово bayonet (штык) в те времена встречалось гораздо чаще, чем сейчас, но наш классификатор это слово считает не таким уж редким.

Хотя Колин, мой друг из Британии, долго смеялся и сказал, что выражение «мой мясной штык» (beef bayonet) сейчас очень часто встречается среди военных, но этот случай мы рассматривать не будем.

Я решил откатиться к старой версии классификатора, который я использовал еще несколько месяцев назад. Он был построен еще летом с использованием всего лишь 500 больших книг, но книги в той выборке были более разнообразными: «Гарри Поттер», «Песнь льда и пламени», техническая документация для программистов, книги по психологии, медицине и многое другое. Классификатор с меньшим но более разнообразным количеством данных оказался на порядок лучше, чем классификатор, построенный только на английской художественной литературе. Алгоритм распознавания слов стал ошибаться намного реже.

Полученный результат в целом отвечает цели, но алгоритм все еще выдает сабы, пригодные для человека, имеющего солидный опыт в использовании английского. Нужно иметь определенный навык в распознавании речи на слух и ощутимый словарный запас в несколько тысяч базовых слов. В этом случае сабы сослужат хорошую службу в улучшении английского.

Все свои опыты я оформил в сервис и прикрутил к своему хобби-сайту и добавил туда же небольшую библиотеку сабов для желающих потестить эту штуку не отходя от кассы.

6. Outro


Превратить просмотр сериалов в учебный процесс вместо тупого чтения с экрана кажется стоящей задачей. А улучшение работы алгоритма позволит провести с пользой еще много вечеров.

Всем спасибо! Хороших фильмов и успехов в английском.

Комментарии (117)


  1. Serenevenkiy
    25.02.2016 09:15
    +2

    Я пока ещё не зарегистрировался, но попробую. Идея интересная.
    Сам вот только 2 часа назад столкнулся с проблемой «сериал + субтитры».


  1. Visphord
    25.02.2016 09:18
    +5

    Вау! Спасибо тебе добрый человек — это то, чего я хотел, но не знал об этом! Сам мучаюсь ровно с такой-же проблемой: на слух не понимаю большую часть, а стоит включить сабы — как уже не успеваю слушать (и начинаю только читать — зато все понимаю). Буду пробовать :)


    1. VerdOrr
      27.02.2016 01:16

      Я поступил проще — скорость проигрывания уменьшил на 12-15%, помогло…


  1. slevir
    25.02.2016 09:25

    Интересная идея. А не мешают такие сабы, собственно, смотреть сериал/фильм? Или они предназначены исключительно как инструмент для обучения? Складывается впечатление, что разница слышимого звука и видимого саба может сбивать мозг с толку и ухудшить слуховое восприятие по сравнению с сосредоточением на звуке.


    1. 57uff3r
      25.02.2016 09:28

      У всех разные нужны и разный стиль обучения. Если и такие сабы не подойдут вам — всегда можно использовать что-то другое ;)


  1. Lokky777
    25.02.2016 09:31

    Мне нравится реализация субтитров в Puzzle English. Русские и английские субтитры можно вкл/выкл по желанию, и если непонятно какое-то слово можно нажать на паузу навести на него мышкой и посмотреть все его значения. А так же отдельно выделяются устоявшиеся выражения.


    1. 57uff3r
      25.02.2016 09:32
      +2

      Описанный подход основан на философии zero-click interface. Это попытка угадать то, что вам нужно без каких-либо движений с вашей стороны. В перспективе за этим будущее, но реализация таких концепций довольно сложна.


  1. xHR
    25.02.2016 09:37

    Можно по нажатию хоткея выводить скрытые сабы и по наведению мышки на слово давать его перевод.


  1. hdfan2
    25.02.2016 09:44
    +2

    А у этого сервиса есть возможность обучения? В идеале индивидуально для каждого пользователя. Чтобы можно было сказать, что вот в этой фразе я не понял такие-то слова, а вот это, которое мне показали, я наоборот понял, и мне его больше показывать не надо. В идеале система должна это запоминать и постепенно (после нескольких показов) убирать слова, которые вы уже должны знать.


    1. 57uff3r
      25.02.2016 09:45

      Кое-какие зачатки уже имеются, полноценная персонализация появится позже. Описанные вами штуки, конечно же, нужны.


      1. Zzzuhell
        25.02.2016 10:37
        +6

        Вот бы еще регулятор "проще-сложнее". Тут сложно, конечно, потому что придется отранжировать все слова по "сложности". Зато потом шикарно: начинающий ставит регулятор на "2" — ему выводится перевод даже несложных слов, а продвинутый ставит на "8" — ему подсказывают только самые незнакомые. Кстати, регулятор как таковой можно не реализовывать — просто сделать 10 версий сабов для одного эпизода. Берешь .srt какой надо и подключаешь.


        1. 57uff3r
          25.02.2016 10:38

          Хорошая идея вообще, записал. Спасибо!


          1. blacslam
            25.02.2016 19:53

            либо как вариант — можно реализовать тест на знание слов, раз уж эта программа предназначена не для развлечения и просмотра (в первую очередь) а для изучения английского.


          1. yosemity
            26.02.2016 03:27

            Поддерживаю комментатора выше, посмотрел текстовый пример с Властелином Колец и понял, что несколько сложновато, стоило бы несколько поднастроить под мой порог знаний. При оптимальной настройке я бы бросил читать переводы худ. литературы вообще. И спасибо за сервис, обязательно буду пробовать.


  1. niksite
    25.02.2016 10:31

    Что то вроде словарных подсказок в киндле? Только там ещё слайдер есть, который позволяет выбрать уровень редкости слов с подсказками, подстраиваясь под свой личный словарный запас.


    1. TokminD
      25.02.2016 11:52
      +1

      А в каком киндле такое существует?


      1. niksite
        25.02.2016 12:24

        На сколько я понимаю, любом (пользовался и на paperwhite и на voyage), но нужна поддержка со стороны самой книги.

        Например, http://www.amazon.com/Martian-Andy-Weir-ebook/dp/B00FAXJHCY/
        Поддержка указана как: Word Wise: Enabled


        1. TokminD
          25.02.2016 15:41

          То есть поддерживается только в azw формате? Ну и читалка у меня постарее: Kindle 3 Keyboard


      1. Potter
        25.02.2016 13:48

        Фича называется Word Wise. В Kindle Android точно есть. Очень удобная штука.


  1. Ivan22
    25.02.2016 11:04

    Отличная придумка!!! А как ей воспользоваться? Грузить сабы в тот сервис?


    1. 57uff3r
      25.02.2016 11:04

      Да, именно так


  1. Avitale
    25.02.2016 11:05
    +2

    Удачи с реализацией! Штука действительно крайне полезная. Что-то подобное есть в специальных обучающих сериалах (например, Extra English), правда сложные слова там вводят непосредственно в сюжет и там же их объясняют, и к концу сериала ты уже окончательно все понимаешь без всяких субтитров. Но с самыми обычными сериалами и фильмами такое не прокатит, конечно же, так что идея с субтитрами — отличный выход из положения.


  1. a_batyr
    25.02.2016 11:10
    +5

    3. Now what?
    3. Строим велосипед
    3. Ездим на построенном велосипеде
    Да тут целых три третьих раздела, Карл!


    1. 57uff3r
      25.02.2016 11:12
      +8

      Хах, вот я наркоман :)


  1. mazayats
    25.02.2016 11:20

    ИМХО, идея вредная. Во-первых, самое главное, что я уяснил — не надо переводить фразу. Надо понимать ее значение. Когда начинаешь переводить в голове какую-нибудь фразу (еще и адаптировать ее под русский), мозг отвлекается на эту задачу и вдруг понимаешь, что диалог уже ушел далеко вперед и все сказанное пролетело мимо. В этом кстати главная проблема многих, изучающих иностранные языки. Мы думаем строим в уме фразу на родном языке, потом переводим ее в уме на иностранный, потом проговариваем, выслушиваем ответ, переводим его на родной язык, осмысливаем… В итоге разговор конкретно тормозит. Чувствуем это, спешим, забываем от волнения все что знали, делаем ошибки. «Понимаю английский, но не могу говорить» — как раз результат всего этого. Во-вторых, если в субтитрах вдруг выскочит одно слово из фразу, начинаешь анализировать фразу, искать в ней это слово. Мозг опять таки отвлекается и часть диалога проходит мимо. В третьих, большинство слов имеют кучу значений, которые зависят от контекста. Будет путаница, если в одном варианте Вы дадите перевод слова, например, «bring — приносить», в другом — «возбуждать (судебное дело)», а третьем вообще будет «bring (down) — сбивать». Лично я бы запутался.
    Ну, и Вы преувеличиваете, что слуховое восприятие прогрессирует незначительно при обычных субтитрах. Из моего опыта — нормально оно прогрессирует, если смотреть фильмы/сериалы на иностранном языке систематически. Я начинал смотреть фильмы на английском с русских субтитров. Примерно через полгода перешел на английские субтитры. Еще через полгода заметил, что на субтитры я просто перестал обращать внимание и вообще их отключил.


    1. daiver19
      25.02.2016 21:12

      Я вот нормально научился понимать язык по контексту, поэтому мне лениво заниматься расширением словарного запаса (например, я примерно понимаю, что значит jeopardize, но дословного перевода не дал бы). А подобная штука должна помочь именно в этом случае.


      1. frozzzen
        02.03.2016 19:22

        urbandictionary.com


  1. AlexanderShustik
    25.02.2016 11:26

    А что если не искать сложные слова, а вычитать легкие?


    1. 57uff3r
      25.02.2016 11:28
      +1

      Я сразу вычитаю из текста 3 000 совсем легких слов, а по оставшимся уже принимается решение о их сложности.


  1. dyezepchik
    25.02.2016 11:30

    Круто! Вот это полезная штуковина! =)


  1. Barafu
    25.02.2016 11:35
    +2

    А я для обучения всего лишь смотрел кино дважды — первый раз с субтитрами, второй раз через день — без. Когда помнишь уже конкретные фразы отлично их узнаёшь. Через полгода уже стал смотреть сразу без, потому что начали мешать ошибки в субтитрах.
    Тем не менее они полезны в тематическом кино, где много редких слов. Ну например про парусный флот.


  1. rboots
    25.02.2016 11:46
    +1

    Ребята, у вас адский дизайн. С главной страницы видно обложки фильмов, когда нажимаешь на одну из них — просит зарегистрироваться, когда регистрируешься — кидает в личный кабинет, где фильмы с главной нельзя найти вообще нигде. Может и можно, но у меня не получилось. При переходе на главную кидает на личный кабинет, который мне совершенно не нужен, так как там пока ничего не добавлено, а главную посмотреть нельзя. Надо что-то менять.


  1. ingumsky
    25.02.2016 11:55
    +7

    Позвольте мне тоже дать совет. Лучше уж не перевод давать, а объяснение или синонимы на языке оригинала. Как человек, который изучал самые разные языки, могу сказать, что для наилучшего результата надо с самого начала максимально ограничить использование уже знакомого (тем более — родного) языка. Пишите:

    weary — tired, exhausted

    И это будет гораздо полезнее.


    1. 57uff3r
      25.02.2016 12:57
      +6

      Одна из вещей, которую как раз решаю сейчас — хороший словарь синонимов и набор словарный статей на английском. Потихоньку готовимся как раз к тому, что вы сказали


      1. a_batyr
        25.02.2016 13:08
        +1

        хороший словарь синонимов
        Проще не придумаешь translate.google.com/#en/en/weary


        1. 57uff3r
          25.02.2016 13:10

          Вот только через официальное API все эти вещи недоступны :(


          1. DDDsa
            25.02.2016 13:48

            У WordNet есть и API и неплохие объяснения:

            weary


    1. Umed
      25.02.2016 16:30

      Я, к примеру, значения и этих слов не знаю.


      1. ingumsky
        25.02.2016 23:43

        И tired не знаете? Это слово из базового словаря. Если оно вам незнакомо, возможно, вам лучше начать с полных субтитров, откуда вы будете вычленять знакомые слова и привыкать к тому, как они используются. А там уже можно переходить на частичные субтитры и дальше.


  1. oleg_agapov
    25.02.2016 12:57

    Немного не по сабжу, но расскажу как я стал тренировать английский и подучивать болгарский.
    В прошлом году переехал в Болгарию. А так как кино на большом экране я очень-очень люблю, то еще до переезда волновался, что пропущу много фильмов из-за языкового барьера.
    Всё оказалось не так страшно. Фильмы тут 99% не дублируют, а показывают с субтитрами (болгарскими, ессно).
    Вот и приходится тренировать слух, при этом частенько почитывать сабы (глаза сами лезут). Дискомфорт пропадает через 5-10 минут фильма. Хотя Дэдпул был очень трудный, жду релиза на двд.


    1. tvrbo
      02.03.2016 12:30

      Вы не поверите, практически везде в мире (по крайней мере в Европе повсеместно) не дублируют фильмы, а показывают с субтитрами.


      1. oleg_agapov
        02.03.2016 13:08

        Не скажу за всю Европу, но вот в Германии на кристмас не удалось посмотреть ЗВ по причине отсутствия не дублированного фильма. Смотрел в двух небольших городах (Mannheim и Zweibrucken), репертуар весь дублирован на немецкий. Местные ребята тоже удивлялись, что в Болгарии не дублируют.

        Не утверждаю, что сеансов в оригинале вообще нет, просто мне не попались.


        1. tvrbo
          02.03.2016 13:24

          Я был в основном в больших городах. Возможно, в этом дело.


        1. trisch
          02.03.2016 13:54

          в мюнхене было очень много ЗВ с OV озвучкой (есть вообще не один кинотеатр, где на оригинальные дорожки кидают). когда я жила в хайдельберге, то я помню были и в манхайме (либо в вальдорфе, там тоже большой кинотеатр). может просто поискать надо лучше? не думаю, что там сильно много поменялось. Надо просто искать фильмы с OV или OVU (оригинал с субтитрами). я вот сейчас посмотрела — в манхайме синеплексе есть русский фильм какой то с оригинальной дорожкой. не думаю что ЗВ не было :)


  1. MyAlesya
    25.02.2016 12:58
    +1

    Все хорошо!) Но можете подправить дизайн?


    1. Assargin
      25.02.2016 13:23
      +1

      Добавлю по поводу вывода на странице /subs-library: как я понял, выводятся самые топовые фильмы из IMDB, но вот дела — почему-то они выводятся сверху вниз слева направо — очень странно, как по мне. Плюс — так и тянет нажать на кнопку выше фильма, так как визуально она находится в одном блоке с фильмом, а на самом деле кнопка выше — для фильма выше, а кнопка для интересующего меня фильма визуально отделена линией от него.


      1. 57uff3r
        25.02.2016 13:25

        Хороший коммент, спасибо


        1. Assargin
          25.02.2016 14:38

          Ещё субтитры малость битые: http://joxi.ru/l2ZEXPu8OEdEmJ.jpg. То-то смотрю, вообще начало сумбурное. Ближе к концу нормально: http://joxi.ru/zANGdPUlX6PPr9.jpg. Фильм и уровень: Django Unchained, elementary english


          1. MyAlesya
            25.02.2016 16:52

            Там еще верстка чуть чуть наезжает. Просто почему то картинки не вставляются( Что бы показать.


  1. MUlt1mate
    25.02.2016 13:02
    +1

    Похожий функционал есть на сайте http://wordsfromtext.com/. Только там ты сам отмечаешь слова, которые знаешь, и система переводит только незнакомые. В целом очень удобно, но субтитры с переводом можно делать только в платной версии.


    1. dm9
      02.03.2016 13:43

      Слова у нас теперь не обязательно отмечать с нуля. Мы сделали возможность перевода слов, начиная с определенной сложности.

      Насчет платности — у нас месячный триал, потом 320 ? за 3 месяца.


  1. amarao
    25.02.2016 13:08
    +3

    Вообще, просмотр без субтитров может быть травмирующим, но очень стимулирующим научиться разбираться. Дети, вон, первый язык без субтитров учат.


    1. tyomitch
      25.02.2016 13:12
      +3

      Сколько лет непрерывной прослушки текста без субтитров у них уходит на то, чтобы сносно овладеть языком?


      1. Areso
        25.02.2016 13:17
        +1

        Племяшка на слух начала понимать английский всего за год. Смотрит в день выхода серии мультика про разноцветных пони. Окружающая языковая среда вокруг — исключительно русская.


        1. el777
          02.03.2016 13:18

          В каком возрасте?
          Есть общение с другими детьми, например, во дворе, у друзей и пр?


      1. amarao
        25.02.2016 13:26
        +1

        Без какой-либо помощи, с редкими просмотрами — примерно 5-7 лет. Я так японский более-менее выучил до состояния, когда смог говорить с аборигенами.

        Если при этом заниматься — я думаю, речь идёт примерно о тысяче часов (3 часа в день — около года).


  1. Mabusius
    25.02.2016 13:38
    -2

    На днях заморочился и поставил английский язык себе в Fallout4. Поэтому слово bayonet я уже знаю :).


  1. aav
    25.02.2016 13:40

    По функционалу чтения: мне кажется, опционально было бы полезно еще транскрипцию выводить, чтобы не получилось, что начал про себя произносить неправильно и это произношение так и закрепилось.


    1. Seekeer
      25.02.2016 13:57
      +1

      Это же сабы, слово и так произносят.


      1. aav
        25.02.2016 13:58
        +1

        По функционалу чтения — это про библиотеку, а не про сабы.


  1. Areso
    25.02.2016 13:45
    +1

    Тут пример приведен с простым случаем. Конечно, более синонимы гораздо лучше weary — tired (или exhausted для intermediate). Но что делать, если у слова два-три разных значения, да еще не просто значения, а целых языковых статей? В фильме произносят какое-нибудь слово, а на экран выпадает статья в пару абзацев?


  1. Erenzil
    25.02.2016 14:10
    +1

    Идея 10/10
    К моменту когда я начал смотреть и играть на английском, я уже мог относительно неплохо говорить и прекрасно слушать/читать.
    Главное научиться понимать контекст, тогда незнакомые слова перестанут быть большой проблемой.


  1. fakir89
    25.02.2016 14:14

    Очень классная идея! Как раз начал смотреть фильм на оригинале с субтитрами. Процесс поиска незнакомых слов занимает сейчас много времени по отношению к продолжительности самого фильма. С вашими сабвордами процесс пойдет быстрее. Спасибо!


  1. SemavinA
    25.02.2016 14:34

    Очень хорошая идея) Но при попытке воспользоваться сервисом возникли проблемы, после обработки книги google play books отказывается воспринимать итоговый файл epub, при том, что исходный файл загружает. Валидатор при проверке файла выдает кучу ошибок.


    1. 57uff3r
      25.02.2016 14:35

      Угу, на лицензионных epub из сторов частенько спотыкается, еще не решил это.


  1. reji
    25.02.2016 14:45

    Где-то на хабре лет N назад некто сделал один-в-один, но с помощью VLC. Сходу статью найти не смог. 57uff3r вы никак не связаны с тем давним постом? :)


    1. 57uff3r
      25.02.2016 14:46

      Не, не видел/не слышал :) Идея не новая, да :)


    1. Feodot
      25.02.2016 16:25

      Скорее всего Вы про это:

      habrahabr.ru/post/169351


  1. Baur
    25.02.2016 15:06

    Мне кажется незнакомые слова лучше выявить до просмотра и проработать их заранее.
    У меня есть список изученных слов с сервисов типа Lingualeo — неплохо бы их тоже вычитать из незнакомых. А то что осталось можно через такие сервисы потренировать, посмотреть различные варианты использования в зависимости от контекста и приступать к просмотру.


  1. Nikopolos
    25.02.2016 15:09

    Если смотреть не для удовольствия, а для обучения, мне очень помог такой способ:
    Один раз смотрю с сабами, а потом много, очень-очень много раз без сабов. Уже со второго-третьего раза все фразы легко понятны без субтитров, а ещё через пару раз можно начинать говорить весь текст серии одновременно с персонажами. В итоге конструкции очень глубоко забираются в голову. Через несколько месяцев, при общении с носителями, фразы сами по себе строятся без всякой расстановки слов по правилам в голове. Но этот способ больше подходит для подкастов, чем для сериалов, ибо в подкастах больше текста за меньшее время, это экономней и эффективней.

    Я бы советовал выбирать не мультфильмы, а фильмы или сериалы, ибо в фильмах с реальными актёрами более естественная мимика.

    И ещё мысли по поводу идеи с переводом редких слов. А нужно ли вообще объяснять смысл слова weary? Если смотреть внимательно, то по контексту и так можно догадаться, что оно означает, а если посмотреть несколько раз, то будет и запоминание этого значения. Тем более, грубо говоря, первостепенно учить не слова, а конструкции. Ну и, если показывать перевод слова, то всё же с английского на английский, чтобы мозг не тратил время на переключение между языками.


    1. frst
      25.02.2016 16:58
      +1

      в фильмах речь очень рафинированая, диалоги написаны и переписаны группой людей
      если хочется погрузиться в актуальный разговорный язык, самая естественная речь — это самопальные ролики на ютубе, всевозможные лайфблоггеры, летсплееры, обзорщики, diy каналы, buzzfeed и подобные


      1. Sleepwalker_ua
        26.02.2016 03:24
        +1

        там нередко страдает произношение, к сожалению. Я довольно хорошо знаю английский (разговорный) и посредственно — немецкий. На ютубе на 10 роликов 2-3 наполнены невнятной речью, как будто говорящий полный рот попкорна набрал… даже человек с опытом и знанием не всегда с первого раза угадает, что подразумевалось (слово или даже целая фраза), а уж новичку…
        В этом плане подойдут скорее что-то вроде лайв-шоу и телевизионных передач — там речь богаче, приближеннее к повседневной, но дикция у говорящих не в пример лучше (хотя бы у ведущих и закадровой озвучки)


        1. Nikopolos
          26.02.2016 10:36

          Это просто недостаёт аудиорования. Носители-то их понимают легко.


          1. Sleepwalker_ua
            26.02.2016 15:55

            Хех… у меня в круге знакомых и коллег есть пара человек, которых я на родном языке (и для них, и для меня) иногда не понимаю из-за невнятной дикции. Что уж про иностранцев говорить…


    1. sophist
      04.03.2016 13:33

      А нужно ли вообще объяснять смысл слова weary? Если смотреть внимательно, то по контексту и так можно догадаться, что оно означает, а если посмотреть несколько раз, то будет и запоминание этого значения.

      Я тут недавно заметил, что некоторые люди неправильно понимают значение слова "sale", переводя его как "скидка".

      А всё потому что догадывались по контексту.
      image


      1. Nikopolos
        04.03.2016 14:32

        Во-первых, это такое слово, значения которого к просмотру фильмов с сабами уже нужно знать.

        Во-вторых, правильные значения таких слов, как "sale" или например "green" можно увидеть только в контексте


  1. Bedal
    25.02.2016 16:23

    Во-первых, нужно смотреть _хорошо_знакомые_ фильмы — без субтитров. Тогда всё в порядке с освоением слуховым.

    Во-вторых, сложные слова — не проблема, они практически всегда распознаются по контексту. А вот имена собственные, которыми англоязычные сыпят гораздо чаще русскоязычных — действительно проблема. Нужно их отлавливать и безо всякого перевода (какой перевод для имён собственных :-) перечислять, чтобы слух мог выделять эти слова в речи. Иначе фразы тупо рвутся и как раз контекст рвётся.


    1. deniskx
      26.02.2016 12:31

      «Во-первых, нужно смотреть хорошо знакомые фильмы — без субтитров. Тогда всё в порядке с освоением слуховым.»
      В таких случаях иногда ловлю себя на мысли, что понимаю фразу просто потому что помню перевод из субтитров. То есть, смотри я с нуля, далеко не факт, что «распарсил» бы. Интереснее сначала пытаться понять на слух в новом фильме/серии, а потом сверяться по субтитрам.


  1. ExConfessor
    25.02.2016 16:25
    +2

    А я всё ещё тешу себя надеждой, что кто-нибудь сделает плагин для VLC, KMPlayer или MPC, позволяющий для получения перевода кликать по словам в субтитрах прямо в плеере (как это сделано в видео на Lingualeo).


    1. Inej
      26.02.2016 12:31

      у ABBYY Lingvo есть замечательная функция — перевод субтитров. Работает с любым плеером, но для хорошего распознавания лучше использовать тот, где настраивается фон/размер субтитров. Я например использую POT-player с белыми субтитрами на черном фоне


  1. rlidwka
    25.02.2016 16:25
    +1

    Чтоб избежать «тупого чтения с экрана», проще поставить задержку субтитров в полсекунды где-то. Т.е. так, чтоб субтитры появились через полсекунды после самой фразы.

    Таким образом, большинство фраз понимаешь ещё до того, как субтитры появляются на экране. А если что-то непонятно, можно прочитать с экрана чуть позже.


    1. Areso
      25.02.2016 17:33

      У меня такой подход «ломает» восприятие, особенно в быстрых диалогах. Т.е. первый герой сказал что-то в слух, я не понял, дождался сабов, а во время появления сабов уже второй что-то отвечает.


      1. rlidwka
        25.02.2016 18:14

        Если слишком большая задержка — ломает восприятие. Если слишком маленькая — учишься читать с экрана.

        Но имхо можно подобрать оптимальную задержку, которая восприятие ещё не ломает, но уже достаточна для того, чтоб мозг отучился ждать каждый раз.


  1. kgbplus
    25.02.2016 16:25

    На счет мастера скоростного чтения сабов не совсем согласен. Буквально недавно столкнулся с такой ситуацией — проходил учебный видеокурс на английском языке, естественно смотрел с субтитрами (и со звуком). В определенный момент не было возможности посмотреть очередную часть со звуком, остались только субтитры. Понимание упало минимум наполовину! Выяснилось, что читать субтитры я не успеваю совсем. Хотя без них тоже многое не понятно. Сабы дают возможность «подглядеть» слово, которое не распознал на слух, но основной поток информации приходит именно по слуховому каналу.
    И второй момент — сериалы на мой взгляд плохи для изучения языка тем, что в них действительно встречаются чрезвычайно сложные фразы, сленг и т.п. Смотреть нужно что то простое с однообразным текстом, типа тех же самых онлайн курсов на знакомую тематику. Потом, когда понимание на слух достигнет определенных высот, можно переходить к сериалам и художественным фильмам. Опять же, не стоит забывать, что некоторые герои сериалов говорят плохо или неправильно, в силу специфики своих ролей (хороший пример Теория Большого Взрыва — Раджеш говорит с акцентом, а Шелдон говорит очень быстро из-за особенностей своей психики).


    1. fundorin
      26.02.2016 01:07

      Я ежедневно смотрю летсплееров, всяких токарей/резчиков по дереву, обзоры техники, уроки музыки на ютубе. Замечательно помогает понимать английский именно на слух, безо всяких субтитров.


  1. HellMaster_HaiL
    25.02.2016 17:48

    Скажите, а планируется в Вашем сервисе поддержка других языков? Как и в части перевода книг, так и в части перевода субтитров.

    Хотел смастерить что-то подобное (хотя больше интересует именно текст) для себя (изучаю немецкий), но ой-как-лень =)
    Думаю пропустить анализатор через базу книг/статей любого другого языка не составит труда.

    Данную методику нам преподавала еще учительница в школе. Правда тогда приходилось вклеивать газетные статьи в тетрадку, выписывать незнакомые слова ручками в таблицу и переводить эти выписки со словарем. На начальном уровне эта методика давала довольно ощутимые плоды и словарный запас рос довольно быстро.
    Позже, когда учился уже в языковых иностранных школах, начиная с уровня А2-В1 преподаватели строго-на-строго запрещали пользоваться русскими словарями, выдавая на занятия толстенные словари синонимов. И эта методика, как ни странно, давала тоже не менее ощутимые плоды, хотя порой и заставляла испытать всю боль рекурсивных поисков.
    Это я к чему, к тому что было бы здорово реализовать два типа «подсказок»: с переводом и синонимами. А уже в этих двух группах реализовать свое ранжирование по уровням сложности.
    Но это так, имхо.


  1. madmurdok
    25.02.2016 17:48

    Спасибо!
    Идея отличная, буду пробовать.


  1. Hydropericard
    25.02.2016 18:41

    Идея классная. Реализовать бы набор известных слов для каждого пользователя. К примеру даются несколько разных текстов. Из 3000 уникальных слов, я узнал и не отметил 2000, 1000 добавляется в мой словарь для переводов + запилить бы отдельный просмотр этих слов, для отдельного заучивания… Ну это если онлайн с сайта читать или приложение какое на телефон ) По началу было бы много мороки, но чем дальше, тем бы встречались неизвестные слова только тебе. А сейчас, выбрал книгу, уровень средний- знаю большенство слов из школьной программы, помойму это elementary или где-то рядом. Ваш продвинутый(Я знаю большинство слов из школьной программы и некоторые слова за ее пределами.) по описанию с трудом дотягивает до pre-intermediate. Хотя могу ошибаться :) Но за сайтик спасибо, книги однозначно буду читать ) Хотя уже минут 20 не может 1 перевести :(


  1. kaasnake
    25.02.2016 22:17

    Идея хорошая, но лично я для себя открыл другой способ работы с сабами

    1. Вытащить незнакомые слова из титров.
    2. Залить их в анки
    3. Выучить.
    4. Profit.

    Все это есть в wordsfromtext.com ( спасибо ребятам за хороший сервис)


    1. Hydropericard
      26.02.2016 10:12

      Я сейчас работаю почти также. ЛингваЛео + Анки. Если говорить про сабы, то использую сервис Hamatata.com. Там сразу можно смотреть перевод(с выбором словаря) + все слова что тыкал, добавляются, после всего просмота можно уже добавлять. Но проблема всего этого, что приходится использовать кучу сервисов. Было б здорово иметь что-то универсальное :)


  1. hzs
    25.02.2016 23:48

    А я для себя такую технологию придумал — ставишь задержку субтитров около секунды, этого достаточно, чтобы услышать слова, но ещё не видеть перевод, мозг успевает перевести, а что не понятно, появляется через секунду сабами, происходит автоматическая склейка того, что перевёл сам и увиденных субтитров.
    На днях посмотрел какой-то психодел, не помню как называется, там все диалоги были короткими и складывались из очень простых слов, а субтитры были просто шикарны, я переводил чуть не слово-в-слово.


  1. hoarywolf
    26.02.2016 00:27

    Расскажите как ваш метод отнесется к фразе "Let's go to a luxurious restaurant and put on the dog", а точнее ко второй ее части? Посчитает часто употребляемыми словами или все-таки переведет смысл идиомы, которую не все знают?
    Тот же самый вопрос про phrasal verbs


    1. Hydropericard
      26.02.2016 10:15

      На Ваш вопрос отвечу примерами перевода. cow-boy {корова мальчик}, were-wolf {были волк}. Это на первой странице что бросилось в глаза, дальше не смотрел :(


  1. interstate
    26.02.2016 01:05

    Когда-то запилил подобную фигню — https://geektimes.ru/post/244490/


  1. polym0rph
    26.02.2016 04:54

    — Татьяна Леонидовна, но без субтитров мы больше половины не понимаем!
    — А вот это уже ваши проблемы.
    Начало 2000-х, диалог с учителем во французской спецшколе, Санкт-Петербург.

    171 гимназия? Эх, тесен мир)


    1. 57uff3r
      26.02.2016 06:54

      Даже не возникло мысли, что это может быть "другая Татьяна Леонидовна" :)
      Все верно, да :)


  1. Shatodor
    26.02.2016 06:53

    Было бы неплохо добавить выбор кодировки сабов, а то KMPlayer некорректно отображает русский текст.


  1. Oqtavus
    26.02.2016 06:53

    Мне кажется логичней было бы выводить не только перевод или синонимы, но и фразу (или хотя бы часть фразы) целиком. Если слово редкое, то желательно знать контекст, в котором оно употребляется.


  1. ZakharS
    26.02.2016 11:05

    А каким переводчиком пользуетесь в сервисе? Я пока остановился на Яндексе, он достаточно большие объемы позволяет переводить бесплатно в API.


    1. 57uff3r
      26.02.2016 11:09

      Сперва слово ищется в базе с выкачанными словарями. Если перевода нет — переводится Яндексом. Если и это не помогло — Гугл.


  1. tendium
    26.02.2016 14:53

    У меня диссонанс возникает, когда я иду в Чехии в кинотеатр, звуковая дорожка на английском, а сабы на чешском. Т.к. я знаю оба языка, но оба для меня неродные, (английский вроде бы лучше, но чешский использую чаще), то я разрываюсь между сабами и картинкой. Мозг при этом начинает требовать повышенного охлаждения ;) Интересные, я вам скажу, ощущения.


  1. barsuksergey
    27.02.2016 00:32

    В процессе изучения английского какое-то время пользовался Оксфордским словарём и Википедией на упрощённом английском. С той целью, чтобы определения новых слов складывались из уже известных старых, но английских.
    В субтитрах тоже здорово было бы добавить такие галочки. Одна — для просмотра синонимов из того, что уже знаешь (придётся иметь базу изученных слов), вторая — толкующая слово на упрощённом английском.


  1. dhtml
    27.02.2016 15:21

    очень интересный проект. СПАСИБО


  1. degs
    27.02.2016 19:51

    Опробовал, работает великолепно. Даже жаль что мне уже поздно таким пользоваться.
    Кстати, 99% людей которые учатся понимать язык на слух в англоговорящей среде делают это с помощью телевизора и кино. Разница как между велотренажером и велосипедом — на тренажере нагрузка такая же но скучно.
    Я вот попал в 1%, кино смотрю очень редко и отставание в аудировании было очень заметно.


  1. ValdikSS
    27.02.2016 23:04

    Для того, чтобы скачать субтитры, нужно зарегистрироваться. Вы .srt генерируете? Если да, то стоит перейти на .ass, и редкие слова вставлять куда-нибудь наверх видео, а не там, где остальные субтитры.


    1. degs
      28.02.2016 00:08

      Да нет, как раз смысл в том что субтитров по большей части нет на экране, только иногда выскакивает редкое слово с переводом. По моим впечатлениям работает адекватно, единственно что перевод нужен скорее не для редких слов а для идиом или там где произносится слитно или неразборчиво, но это наверное только ручной доводкой можно исправить.


      1. ValdikSS
        28.02.2016 00:08

        А, понял, как-то упустил этот момент.


  1. Anakros
    28.02.2016 16:50

    Похоже технической документации в анализе было мало. Что-то мне это не очень нравится.

    Скриншот
    image


    1. 57uff3r
      28.02.2016 17:51

      Качество перевода и качество поиска трудных слов — разные вещи. Я использовал разные тексты для того, чтобы построить статистику сложности слова. А вот чтобы потом хорошо перевести документацию — нужно классифицировать документ как технический и применять при переводе слов те варианты русских значений, которые наиболее подходят к техническим докам. Иначе да, получается такой себе Гугл транслейт :)


  1. AccessGranted
    28.02.2016 23:09

    Есть еще такой ресурс: http://english-with-fun.com — популярные сериалы и фильмы на английском с английскими субтитрами. Сериалов там мало, но периодически что-то новое появляется.


    1. VerdOrr
      28.02.2016 23:32

      Есть еще такой ресурс: http://rutracker.org/ — популярные сериалы и фильмы на, практически, любых языках и большинство с субтитрами на языке оригинала. Сериалов там полно, и постоянно что-то новое появляется.


  1. UncleAndy
    02.03.2016 11:50

    Шикарная идея! Если будете продавать сабы к фильмам — куплю с удовольствием.


    1. yosemity
      02.03.2016 12:12

      Так вы свои сабы загружаете на сервер и получаете на выходе адаптированный вариант. Продавать-то что?


      1. UncleAndy
        02.03.2016 12:24

        Продавать сервис. :)


  1. alexeibs
    02.03.2016 12:59

    Думаю, "Песнь льда и пламени" — не очень удачный выбор для получения статистики слов в современном языке


  1. Game_Rate_Com
    02.03.2016 18:19

    Хорошая идея и хороший сайт.
    Загрузил туда одну книгу и наткнулся на проблему — она переводит некоторые слова неверно, что неудивительно, ибо в книге встречаются достаточно извращенные и неоднозначные слова которые автоматический перевод без учета контекста не может осилить — но нет возможности подкорректировать перевод или хотя бы кнопочкой пометить, что он неверен =(


  1. Game_Rate_Com
    02.03.2016 18:47

    И еще один нюанс который лично для меня был бы очень полезен.
    Функция отображения незнакомых слов из книги — весьма полезна, но обычно меня интересует не столько перевод слова, сколько его толкование ибо редкие слова могут иметь разные значения в зависимости от контекста — было бы здорово видеть не только перевод на русский (не всегда корректный) но и толкование слова на том же английском языке.