Делаем домашнюю библиотеку с Notion и Python / forpes.ru

Главная
Делаем домашнюю библиотеку с Notion и Python

Делаем домашнюю библиотеку с Notion и Python +10

18.09.2019 16:54

mixeden 13 4700 Источник

Мне всегда было интересно, как бы получше распределить книги у себя в электронной библиотеке. В итоге пришел к такому варианту с автоматическим подсчетом количества страниц и прочими плюшками. Всех заинтересованных прошу под кат.

Часть 1. Dropbox

Все книжки у меня лежат на дропбоксе. Существуют 4 категории, на которые я все поделил: Учебник, Справочник, Художественное, Нехудожественное. Но справочники я в табличку не добавляю.

Большая часть из книг — .epub, остальные — .pdf. То есть конечное решение должно как-то покрывать оба варианта.

Пути до книг у меня примерно такие:

/Книги/Нехудожественное/Новое/Дизайн/Юрий Гордон/Книга про буквы от А до Я.epub

Если книга художественная, то категория (то есть "Дизайн" в случае выше) убирается.

Я решил не заморачиваться с API дропбокса, благо у меня стоит их приложение, которое синхронизирует папку. То есть план такой: берем книги из папки, каждую книгу прогоняем через счетчик слов, добавляем в Notion.

Часть 2. Добавляем строку

Сама таблица должна выглядеть приблизительно следующим образом. ВНИМАНИЕ: названия столбцов лучше делать латиницей.

Использовать будем неофициальное API Notion'а, потому что официальное еще не завезли.

Идем в Notion, жмякаем Ctrl + Shift + J, идем в Application -> Cookies, копируем token_v2 и называем его TOKEN. Потом идем на нужную нам страницу с табличкой библиотеки и копируем ссылку. Называем NOTION.

Потом пишем код на подключение к Notion'у.

database = client.get_collection_view(NOTION)
current_rows = database.default_query().execute()

Далее напишем-ка функцию на добавление строки в табличку.

def add_row(path, file, words_count, pages_count, hours):
    row = database.collection.add_row()
    row.title = file

    tags = path.split("/")

    if len(tags) >= 1:
        row.what = tags[0]

    if len(tags) >= 2:
        row.state = tags[1]

    if len(tags) >= 3:
        if tags[0] == "Художественное":
            row.author = tags[2]

        elif tags[0] == "Нехудожественное":
            row.tags = tags[2]

        elif tags[0] == "Учебники":
            row.tags = tags[2]

    if len(tags) >= 4:
        row.author = tags[3]

    row.hours = hours
    row.pages = pages_count
    row.words = words_count

Что тут происходит. Мы берем и добавляем новую строку к таблице в первой строке. Далее сплитим наш путь по "/" и получаем теги. Теги — в плане "Художественное", "Дизайн", кто автор и так далее. Потом задаем все необходимые поля таблички.

Часть 3. Считаем слова, часы и прочие прелести

Это уже задачка посложнее. Как мы помним, у нас есть два формата: епаб и пдф. Если с епабом все понятно — слова там, вероятно, точно есть, то вот насчет пдф все не так однозначно: оно может состоять просто из склеенных изображений.

Так что функция для подсчета слов в пдф у нас будет выглядеть следующим образом: мы берем количество страниц и домножаем на определенную константу (среднее число слов на странице).

Вот она:

def get_words_count(pages_number):
    return pages_number * WORDS_PER_PAGE

Это самое WORDS_PER_PAGE для страницы A4 примерно равно 300.

Теперь давайте напишем функцию для подсчета страничек. Будем юзать PyPDF2.

def get_pdf_pages_number(path, filename):
    pdf = PdfFileReader(open(os.path.join(path, filename), 'rb'))
    return pdf.getNumPages()

Далее напишем штучку для подсчета страниц в епабе. Используем epub_converter. Тут мы берем книжку, конвертируем в строки, и для каждой строки считаем слова.

def get_epub_pages_number(path, filename):
    book = open_book(os.path.join(path, filename))
    lines = convert_epub_to_lines(book)
    words_count = 0

    for line in lines:
        words_count += len(line.split(" "))

    return round(words_count / WORDS_PER_PAGE)

Теперь сделаем подсчет времени. Берем наше любимое количество слов и делим на вашу скорость чтения.

def get_reading_time(words_count):
    return round(((words_count / WORDS_PER_MINUTE) / 60) * 10) / 10

Часть 4. Соединяем все части

Нам нужно обойти все возможные пути в нашей папке с книгами. Проверить, есть ли уже книга в Notion: если есть — строку создавать нам уже не надо.
Потом нам нужно определить тип файла, в зависимости от этого подсчитать количество слов. В конце добавить книгу.

Вот такой код у нас получается:

for root, subdirs, files in os.walk(BOOKS_DIR):
    if len(files) > 0 and check_for_excusion(root):
        for file in files:
            array = file.split(".")
            filetype = file.split(".")[len(array) - 1]
            filename = file.replace("." + filetype, "")
            local_root = root.replace(BOOKS_DIR, "")

            print("Dir: {}, file: {}".format(local_root, file))

            if not check_for_existence(filename):
                print("Dir: {}, file: {}".format(local_root, file))

                if filetype == "pdf":
                    count = get_pdf_pages_number(root, file)

                else:
                    count = get_epub_pages_number(root, file)

                words_count = get_words_count(count)
                hours = get_reading_time(words_count)
                print("Pages: {}, Words: {}, Hours: {}".format(count, words_count, hours))
                add_row(local_root, filename, words_count, count, hours)

А функция для проверки, добавлена ли книга, выглядит так:

def check_for_existence(filename):
    for row in current_rows:
        if row.title in filename:
            return True

        elif filename in row.title:
            return True

    return False

Заключение

Спасибо всем, кто прочитал эту статью. Надеюсь, она вам поможет читать больше :)

Комментарии (13)

ukt
18.09.2019 20:47
#20638971
Что то подобное пилю, только без дропбокса, но с п2п.

eumorozov
18.09.2019 21:25
#20639103
+2
Я понимаю, что это одноразовый скрипт, но код на Python очень далек от совершенства. Например:
```
            array = file.split(".")
            filetype = file.split(".")[len(array) - 1]
```
В Python можно использовать отрицательные индексы: file.split('.')[-1]. Получится намного проще и понятнее. Еще, в стандартной библиотеке есть модули os.path и pathlib, которые значительно облегчают работу с путями и именами файлов.
1. mixeden Автор
  18.09.2019 22:00
  #20639265
  Я и не спорю, что далек (конечно, насчет «очень» я по вашему исправлению кода не могу диагностировать, ну да ладно).
  Я Android разработчик, пописываю на JS и на питончике по мере надобности. То есть я, так скажем Fullstack и на знание всех фишек языка не претендовал и не претендую (возможно, когда-нибудь буду).
  1. eumorozov
    18.09.2019 22:07
    #20639303
    Возможно, я резковато выразился. Но отрицательные индексы — это прямо самые-самые основы языка. С хорошим знанием основ будет проще писать. Например, в моем примере мало того, что две строки удалось заменить одной, так еще она и намного понятнее для любого, знакомого с языком. Да и интуитивно тоже. Ну и быстрее, хотя это не имеет значения в данном случае.
    
    Потом, это не единственное неоптимальное место. Я зануда, наверное, но я почти каждую строку при желании здесь раскритиковать могу.
    
    Например, check_for_existence не приведен, но скорее всего проще было сразу написать:
    if os.path.exists(filename):.
    
    Этот кусок:
    
    if tags[0] == "Художественное": row.author = tags[2] elif tags[0] == "Нехудожественное": row.tags = tags[2] elif tags[0] == "Учебники": row.tags = tags[2]
    
    на
    
    if tags[0] in ('Худ', 'Нехуд', 'Учебники'):
    
    mixeden Автор
    18.09.2019 22:10
    #20639311
    Не, с check_for_existence ошиблись, он приведен в конце статьи, прямо под тем блоком, где смотрели. И нет, его нельзя заменить на os.path.exists, так как проверяется, существует ли книга в списке (то есть есть ли в таблице).
    
    Насчет if tags[0] — да, хрень написал, признаю, тоже кажется некрасивым.
    
    eumorozov
    18.09.2019 22:12
    #20639317
    Да, я просто сегодня с 6 утра в код смотрю, глаз замылился уже. Пора спать. :)
    
    mixeden Автор
    19.09.2019 06:44
    #20640067
    Я конструктивную критику очень люблю и ценю, если будет вдруг желание — можете хоть построчно пройтись на других публикациях :)
    
    eumorozov
    19.09.2019 07:26
    #20640131
    +1
    Я не могу прокомментировать ту публикацию (она старше 10 дней).
    Пройдусь здесь.
    
    Опять незнание основных конструкций: range(0, len(current_rows)) никогда никто в Python не пишет, т.к. если range вызывается с одним аргументом, то подразумевается отсчет с 0. Хотя это не ошибка, но это совершенно не-pythonic way.
    
    Здесь же: мне кажется было бы проще и понятнее и эффективнее использовать модуль csv из стандартной библиотеки и сразу итерировать по строкам. А не вытаскивать сначала каждый столбец в массив, и затем обращаться по индексу.
    
    if request.method == "POST": thread = Thread(target=run_notion_import)
    
    Django — не thread-safe framework. Этот код легко может поломаться, ваше приложение просто недостаточно нагружено, чтобы это проявилось. Такие вещи обычно делаются при помощи очередей, таких как celery или django-rq.
    
    checkEmptiness — во-первых, мне почему-то кажется гораздо более красивым и очевидным название isEmpty или даже is_empty. Согласно соглашениям python, в названиях свободных функций обычно используются подчерки, а не CamelCase. Во-вторых, код не приведен, но полагаю, что проще было бы вмето checkEmptiness просто написать bool, который вернет False для пустых строк, массивов и None.
    
    mixeden Автор
    19.09.2019 07:54
    #20640195
    1. Да, вероятно, мне чето стоит почитать.
    3. О, прикольно, таких штук я не знал совсем.
    4. Про snake_case я знаю, но не заметил: я быстро переключался между проектами — в итоге вышло вот так :)
1. mixeden Автор
  18.09.2019 22:02
  #20639283
  Алсо вот тот говнокусок про file.split(".") два раза не заметил.

lair
18.09.2019 22:31
#20639411
+2
Мне всегда было интересно, как бы получше распределить книги у себя в электронной библиотеке.
… просто начать пользоваться Goodreads?
1. Ryav
  19.09.2019 17:07
  #20642925
  Есть кому-нибудь что сказать в защиту LiveLib?
  1. Sevensenn
    20.09.2019 08:23
    #20645143
    Неа, Goodreads наше все.

Делаем домашнюю библиотеку с Notion и Python +10

Часть 1. Dropbox

Часть 2. Добавляем строку

Часть 3. Считаем слова, часы и прочие прелести

Часть 4. Соединяем все части

Заключение

Комментарии (13)

mixeden Автор

mixeden Автор

mixeden Автор

mixeden Автор

mixeden Автор