Парсинг YouTube, включая подгружаемые данные, без YouTube API / forpes.ru

Главная
Парсинг YouTube, включая подгружаемые данные, без YouTube API

Парсинг YouTube, включая подгружаемые данные, без YouTube API +17

08.06.2020 14:46

0r030n0 15 4300 Источник

Вступление

Чтобы подгрузить данные контента на ютубе, обычно используют либо Selenium, либо YouTube API. Однако везде есть свои минусы.

Selenium слишком медленный для парсинга. Представьте себе парсинг плейлиста из ~1000 роликов селениумом.
YouTube API, конечно, наилучший вариант, если у вас какое-то свое приложение или проект, но там требуется зарегистрировать приложение и т.д. В «пробной» версии вам нужно постоянно авторизовываться для использования апи, еще там присутствует быстро заканчиваемая квота.
В нашем методе, я бы сказал, очень сложные структуры данных, выдаваемыми ютубом. Особенно нестабильно работает парсинг поиска ютуб.

Как подгружать данные на ютубе?

Для этого есть токен, который можно найти в html коде страницы. Потом в дальнейшем его используем, как параметр для запроса к ютубу, выдающему нам новый контент. Сам ютуб прогружает контент с помощью запроса, где как раз используется этот токен.

Там есть дополнительные исходящие параметры, которые нам будут нужны в следующем шаге.

Получение токена через скрипт

Составляем параметр headers для запроса к ютубу. Помимо user-agent вставляем два дополнительных, которые вы видите ниже.

headers = {
    'User-Agent': 'Вы можете взять свой или сгенерировать онлайн, но возможно он не будет работать',
    'x-youtube-client-name': '1',
    'x-youtube-client-version': '2.20200529.02.01'
}

Делаем запрос с помощью библиотеки requests. Ставляете ссылку на страницу, которую нужно прогрузить, а также добавляете headers.

token_page = requests.get(url, headers=headers)

Токен невозможно найти парсерами, т.к он спрятан в тэге script. Чтобы сохранить его в переменную, я прописываю такой некрасивый код:

nextDataToken = token_page.text.split('"nextContinuationData":{"continuation":"')[1].split('","')[0]

Обычно это токен длиной 80 символов.

Делаем запрос на получение контента

service = 'https://www.youtube.com/browse_ajax'
params = {
"ctoken": nextDataToken,
"continuation": nextDataToken
}
r = requests.post(service, params=params, headers=headers)

Разные типы подгружаемых данных имеют разные service ссылки. Наша подойдет для плейлистов и видео с каналов.

Данные Ютуб присылает в json формате. Поэтому пишем r.json(), но вам прилетит список, нам нужен второй элемент списка, поэтому r.json()[1]. Далее у нас уже имеются данные. Остается парсить.

Парсинг json ответа

Можно увидеть длинные цепочки словарей, но мы их сократим, чтобы было более менее понятно.

r_jsonResponse = r_json['response']
dataContainer = r_jsonResponse["continuationContents"]["playlistVideoListContinuation"]
nextDataToken = dataContainer["continuations"][0]["nextContinuationData"]["continuation"]

Здесь мы получаем новый токен для дальнейшего запроса. Если подгружаемые данные закончились, то токена вы не увидите.

for content in dataContainer["contents"]:
	videoId = content['playlistVideoRenderer']['videoId']

Вот так можно извлечь id видеоролика, дописав шаблонную часть, вы получите ссылку на видеоролик.

Чтобы получить следующие данные, вы должны проделать тоже самое — запрос токеном, парсинг и потом снова.

Полностью рабочий код выглядит вот так:

import requests, json

url = input('url: ')
headers = {
		"User-Agent": "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.122 Safari/537.36",
		'x-youtube-client-name': '1',
		'x-youtube-client-version': '2.20200429.03.00',
		}
token_page = requests.get(url, headers=headers)
nextDataToken = token_page.text.split('"nextContinuationData":{"continuation":"')[1].split('","')[0]
sleep = False #Цикл будет завершен, когда не будет токенов
ids = []
while not sleep:
	service = 'https://www.youtube.com/browse_ajax'
	params = {
	"ctoken": nextDataToken,
	"continuation": nextDataToken
	}
	r = requests.post(service, params=params, headers=headers)
	r_json = r.json()[1]
	r_jsonResponse = r_json['response']
	dataContainer = r_jsonResponse["continuationContents"]["playlistVideoListContinuation"]
	try: #пробуем найти токен
		nextDataToken = dataContainer["continuations"][0]["nextContinuationData"]["continuation"]
	except:
                #токен не найден. Значит, далее запроса не будет. Остается собрать оставшийся контент
		sleep = True
	for content in dataContainer["contents"]:
		videoId = content['playlistVideoRenderer']['videoId']
		ids.append(videoId)
print(len(ids))

Вы можете посмотреть мои парсеры каналов, плейлистов, видеороликов Ютуба на GitHub.

Комментарии (15)

ivantgam
08.06.2020 19:00
#21714866
-1
Спасибо за способ, пригодится.

adsensei
09.06.2020 07:49
#21716438
А где-нибудь это используете? Можете показать? Сам тоже занимаюсь сбором данных по Ютьюбу, есть пара сайтов. Вот ytch.ru сейчас делаю. И ещё есть канал на Ютьюбе Автобот Паймуллина, где бот сам создает и загружает видео о забаненных каналах.
1. adsensei
  09.06.2020 07:55
  #21716456
  del
1. 0r030n0 Автор
  09.06.2020 11:34
  #21717376
  У меня первоначально была идея сделать скачивание музыки из плейлистов, однако если использовать ссылки на аудиодорожки гугла, то там надо будет скачанный webm конвертировать в mp3 с помощью ffmpeg. На моем слабом пк процесс для одного ролика занимал 40сек. Поэтому есть второй вариант — конвертировать сторонними сервисами на сайтах с помощью селениум, а потом извлекать ссылки на файл и скачивать. Далее этот файл с названием песни попадает в папку с названием плейлиста. Однако процесс по-прежнему долгий, а еще я перестал сохранять музыку на yt music, поэтому уже не надобно
  1. adsensei
    09.06.2020 18:07
    #21719790
    Понятно. У Ютьюб-роликов уже имеется формат mp3 и даже в двух вариантах и не надо ничего конвертировать.
    
    Я тоже делал вытаскивание файлов с помощью Селениума для «бесплатного фонового прослушивания Ютьюба» — ytch.ru/fon.php, тут как раз выдает mp3 дорожку + mp4.
    
    И еще субтитры так же вытаскиваю Селениумом (ytext.ru, но уже перестал им заниматься).
    
    Раньше для этих дел годился более легкий CasperJs, сейчас он уже не поддерживается.
    
    0r030n0 Автор
    10.06.2020 08:06
    #21721628
    Если это так, то это очень круто, потому что это повысит скорость исполнения скрипта. Возможно я его доделаю и начну делать gui.

w0den
09.06.2020 09:51
#21716802
Позвольте прояснить пару моментов насчёт YouTube API:

YouTube API, конечно, наилучший вариант, если у вас какое-то свое приложение или проект, но там требуется зарегистрировать приложение и т.д.
Если имеется аккаунт Google, всё можно получить бесплатно за считаные секунды, а именно: создать проект и активировать YouTube API.

В «пробной» версии вам нужно постоянно авторизовываться для использования апи
Есть и другой путь: создать ключ API и использовать его в строке запроса (то есть, &key=YOUR_KEY).

еще там присутствует быстро заканчиваемая квота
Бесплатная ежедневная квота это 10000 кредитов, а один кредит может вернуть до 50 результатов. Правда, многое зависит от того, каких данных нужно получить (например, получение статистики для одного видеоролика стоит 3 кредитов). Поэтому важно внимательно читать документацию и выбрать только те данные, которые вам необходимы. Также, не забывайте, что некоторые запросы позволяют получать данные для 50 видеороликов одновременно (то есть, это выгоднее чем получить данные для каждого ролика по отдельности). Если 10000 кредитов не хватают, можно испытать удачу и запросить увеличения квоты.
1. 0r030n0 Автор
  09.06.2020 11:26
  #21717344
  Под 'зарегистрировать приложение' я имел в виду заполнить анкету гуглу и отправить на модерацию. При регистрации от вас требуют защищенный сайт с пользовательским соглашением.
  
  Спасибо, не знал.
  
  Да, я знаю о параметре кол-ва получаемых данных, я их выкручивал на максимум. Все же квоты не хватит для массового использования. Пользователю, конечно, хватит, если он будет пользоваться своим личным.
  
  К тому же, может кто-то без гугла живет.
  1. sanmon1985
    09.06.2020 13:26
    #21718124
    +1
    1. Нет, не обязательно. Недавно расширял свою квоту путем регистрирования новых аккаунтов — приложение создается без проблем и без модерации
    
    0r030n0 Автор
    09.06.2020 14:16
    #21718402
    Думаю, тут некий оффтоп, ибо статья не обсуждает возможности YouTube API. Если вам нравится YouTube API, то используйте. Статья лишь описывает парсинг ютуба стандартными библиотеками.
    
    sanmon1985
    09.06.2020 17:21
    #21719502
    Да, но в качестве аргументов условно против API высказывались эти аргументы, которые не совсем корректны, не мог не опровергнуть, дабы у сообщества не было слегка превратного представления о нем.
    Ничего не имею против альтернатив, благодарю за исследование
    
    0r030n0 Автор
    09.06.2020 18:07
    #21719798
    Я даже поддерживаю YouTube API для проектов, удобен, прост в использовании. Просто когда я юзал, у меня были именно такие заморочки с авторизацией, квотой
1. adsensei
  09.06.2020 17:59
  #21719728
  А раньше квота была больше. Около 60000 кредитов. Потом они сами снижают лимиты у старых аккаунтов.

roller
09.06.2020 12:13
#21717588
Полезно, спасибо!
Если не секрет, сколько проксей / разных ip используете? На какие нибудь лимиты натыкались?
1. 0r030n0 Автор
  09.06.2020 12:28
  #21717672
  Ни на что не натыкался, прокси не использовал, но потом в репозиторий добавлю такую возможность

Парсинг YouTube, включая подгружаемые данные, без YouTube API +17

Вступление

Как подгружать данные на ютубе?

Получение токена через скрипт

Делаем запрос на получение контента

Парсинг json ответа

Комментарии (15)

0r030n0 Автор

0r030n0 Автор

0r030n0 Автор

0r030n0 Автор

0r030n0 Автор

0r030n0 Автор