Облегчаем себе жизнь с помощью BeautifulSoup4 / forpes.ru

Главная
Облегчаем себе жизнь с помощью BeautifulSoup4

Облегчаем себе жизнь с помощью BeautifulSoup4 -1

01.03.2021 13:11

tobbymarshall815 6 1900 Источник

Приветствую всех. В этой статье мы сделаем жизнь чуточку легче, написав легкий парсер сайта на python, разберемся с возникшими проблемами и узнаем ~~все муки пайтона~~ что-то новое.

Статья ориентирована на новичков, таких же как и я.

Начало

Для начала разберем задачу. Взял я малоизвестный сайт новостей об Израиле, так как сам проживаю в этой стране, и хочется читать новости без рекламы и не интересных новостей. И так, имеется сайт, на котором постятся новости: есть новости помеченные красным, а есть обычные. Те что обычные — не представляют собой ничего интересного, а отмеченные красным являются самым соком. Рассмотрим наш сайт.

Как видно сайт достаточно большой и есть много ненужной информации, а ведь нам нужно использовать лишь контейнер новостей. Давайте использовать мобильную версию сайта,
чтобы сэкономить себе же время и силы.

Как видите, сервер отдал нам красивый контейнер новостей (которых, кстати, больше чем на основном сайте, что нам на руку) без рекламы и мусора.

Давайте рассмотрим исходный код, чтобы понять с чем мы имеем дело.

Как видим каждая новость лежит по-отдельности в тэге 'a' и имеет класс 'lenta'. Если мы откроем тэг 'a', то заметим, что внутри есть тэг 'span', в котором находится класс 'time2', либо 'time2 time3', а также время публикации и после закрытия тэга мы наблюдаем сам текст новости.

Что отличает важную новость от неважной? Тот самый класс 'time2' или 'time2 time3'. Новости помеченые 'time2 time3' и являются нашими красными новостями. Раз уж суть задачи понятна, перейдем к практике.

Практика

Для работы с парсерами умные люди придумали библиотеку «BeautifulSoup4», в которой есть еще очень много крутых и полезных функций, но об этом в следующий раз. Нам также понадобиться библиотека Requests позволяющая отправлять различные http-запросы. Идем их скачивать.

(убедитесь, что стоит последняя версия pip)

pip install beautifulsoup4

pip install requests

Переходим в редактор кода и импортируем наши библиотеки:

from bs4 import BeautifulSoup
import requests

Для начала сохраним наш URL в переменную:

url = 'http://mignews.com/mobile'

Теперь отправим GET()-запрос на сайт и сохраним полученное в переменную 'page':

page = requests.get(url)

Проверим подключение:

print(page.status_code)

Код вернул нам статус код '200', значит это, что мы успешно подключены и все в полном порядке.

Теперь создадим два списка (позже я объясню для чего они нужны):


filteredNews = []
allNews = []

Самое время воспользоваться BeautifulSoup4 и скормить ему наш page, указав в кавычках как он нам поможет 'html.parcer':

soup = BeautifulSoup(page.text, "html.parser")

Если попросить его показать, что он там сохранил:

print(soup)

Нам вылезет весь html-код нашей страницы.

Теперь воспользуемся функцией поиска в BeautifulSoup4:

allNews = soup.findAll('a', class_='lenta')

Давайте разберём поподробнее, что мы тут написали.

В ранее созданный список 'news' (к которому я обещал вернуться), сохраняем все с тэгом 'а' и классом 'news'. Если попросим вывести в консоль все, что он нашел, он покажет нам все новости, что были на странице:

Как видите, вместе с текстом новостей вывелись теги 'a', 'span', классы 'lenta' и 'time2', а также 'time2 time3', в общем все, что он нашел по нашим пожеланиям.

Продолжим:

for data in allNews:
    if data.find('span', class_='time2 time3') is not None:
        filteredNews.append(data.text)

Тут мы в цикле for перебираем весь наш список новостей. Если в новости мы находим тэг 'span' и класc 'time2 time3', то сохраняем текст из этой новости в новый список 'filteredNews'.

Обратите внимание, что мы используем '.text', чтобы переформатировать строки в нашем списке из 'bs4.element.ResultSet', который использует BeautifulSoup для своих поисков, в обычный текст.

Однажды я застрял на этой проблеме надолго в силу недопонимания работы форматов данных и неумения использовать debug, будьте осторожны. Таким образом теперь мы можем сохранять эти данные в новый список и использовать все методы списков, ведь теперь это обычный текст и, в общем, делать с ним, что нам захочется.

Выведем наши данные:


for data in filteredNews:
    print(data)

Вот что мы получаем:

Мы получаем время публикации и лишь интересные новости.

Дальше можно построить бот в Телеге и выгружать туда эти новости, либо создать виджет на рабочий стол с актуальными новостями. В общем, можно придумать удобный для себя способ узнавать о новостях.

Надеюсь эта статья поможет новичкам понять, что можно делать с помощью парсеров и поможет им немного продвинуться вперед с обучением.

Спасибо за внимание, был рад поделиться опытом.

Комментарии (6)

yakimka8
01.03.2021 17:01
#22750482
+1
В общем, можно придумать удобный для себя способ узнавать о новостях.

Это можно было сделать гораздо проще с помощью RSS — практически любой новостной сайт отдает свою ленту в RSS.

Вот так
```
for i in range(len(news)):
    if news[i].find('span', class_='time2 time3') is not None:
        new_news.append(news[i].text)
```
никто не пишет, в пайтоне это делают так:
```
for news_item in news:
    if news_item.find('span', class_='time2 time3') is not None:
        new_news.append(news_item.text)
```
А если кроме самого элемента нужно иметь и доступ к индексу, то пользуются enumerate:
```
for i, news_item in enumerate(news):
    print(i, news_item)
```
1. tobbymarshall815 Автор
  01.03.2021 17:06
  #22750510
  Спасибо, возьму на заметку.
  Rss у них, к сожалению, отдает не фильтрованные новости, по этому не мог им пользоваться.
  1. yakimka8
    01.03.2021 17:38
    #22750712
    Всмысле нефильтрованные? В RSS те же новости что и в блоке «Лента новостей».
    RSS разбирать гораздо проще и надежнее чем парсить html
    
    tobbymarshall815 Автор
    01.03.2021 17:55
    #22750798
    Да, проблема лишь в том что отличить важные новости, от не важных невозможно.
    Использовал парсинг html, ибо там можно отличить такие новости — по красному бекграунду времени поста и легко найти по специфическому классу элемента.

JQuery567
02.03.2021 02:32
#22752374
Вся Ваша программа с учетом замечаний располагается ниже этого текста, и она не выполняет поставленную цель — найти только «красные», т.е. с class_=«time3», результат ее работы не будет выдавать всё с классом «time3». На хабре, как я погляжу, есть проверяющие качество комментариев, а вот проверяющих качество самих статей нет. В который раз верю, что то, что описано в статье (код) заработает, а оно не работает. «А включаешь — не работает» (с) Жванецкий.
Пора вводить новую профессию — ~~Храбрый~~ Хабрый unit-tester статей Хабра
```
from bs4 import BeautifulSoup
import requests
url = 'http://mignews.com/mobile'
page = requests.get(url)
#Проверим подключение:
print(page.status_code)

new_news = []
news = []

#Самое время воспользоваться BeautifulSoup4 и скормить ему наш page, 
#указав в кавычках как он нам поможет 'html.parcer':
soup = BeautifulSoup(page.text, "html.parser")
#Если попросить его показать, что он там сохранил:
#print(soup)

#Теперь воспользуемся функцией поиска в BeautifulSoup4:
news = soup.findAll('a', class_='lenta')

for news_item in news:
    if news_item.find('span', class_='time2 time3') is not None:
        new_news.append(news_item.text)

print(f"{news_item =}")
```
получил одну строку невырезанного текста:
```
200
news_item =<a class="lenta" href="/mobile/article.html?id=280221_143704_38808"><span class="time2">14:37</span> Сотни граждан идут в Иерусалим пешком</a>
```
1. tobbymarshall815 Автор
  03.03.2021 00:15
  #22756898
  Не совсем понял как можно достучатся к news_item снаружи цикла…
  Но при переборе, при наличии двух классов, мы добавляем в массив new_news…
  Распечатав именно new_news:
  for data in new_news: print(data)
  я получил нужный результат:
  
  21:10 COVID-19: самое низкое число тяжелобольных с 30 декабря 20:56 Ганц: под прицелом МУС могут оказаться сотни бойцов ЦАХАЛа 20:27 США ввели санкции против РФ из-за Навального: полный список 17:55 Решение кабинета коронавируса по предвыборным мероприятиям 17:25 В Израиле выявлено три случая заражения нью-йоркским штаммом 16:30 Иран: мы следим за поведением Израиля в регионе 15:01 Либерман: Пресечь террор против фермеров на Юге 12:23 Австрия: в сфере вакцин вместо ЕС будем работать с Израилем 10:39 Врачи Израиля против дискриминации 09:01 Ответ Ирану: Конфликт главы Моссада и начальника Генштаба 08:02 Коронавирус стал причиной повышенной смертности в Израиле 07:12 Правительство приняло решение об ослаблении ограничений 21:45 Реакция политиков на решение БАГАЦ 19:58 Мири Регев представит план открытия Бен-Гурион 7 марта 19:45 Историческое решение БАГАЦ о гиюрах 15:57 Николя Саркози осудили на три года
  
  Писал статью 2 года назад, тогда еще были проблемы с наименованием переменных, возможно и вас запутал… исправлю сейчас.

Облегчаем себе жизнь с помощью BeautifulSoup4 -1

Начало

Практика

Комментарии (6)

yakimka8

tobbymarshall815 Автор

yakimka8

tobbymarshall815 Автор

JQuery567

tobbymarshall815 Автор