Собираем базу аудиокниг для удобной фильтрации

в 18:40, , рубрики: phantomjs, pymorphy2, python, selenium, sphinx, аудиокниги, Программирование, Разработка веб-сайтов

Всем привет! Наверняка многим из вас знакома проблема уставших глаз из-за длительной работой за компьютером. К сожалению, из-за этого приходится ограничивать себя в других занятиях. Одним из них есть чтение книг. В связи с этим, я уже более 5 лет почти каждый день слушаю аудиокниги. За это время научился параллельно заниматься чем-то и вникать в суть озвучки. Сейчас я даже в спортзале слушаю книги! Представьте как это удобно: час дороги пешком туда и обратно + полтора часа упражнений. Средняя книга в районе 10-15 часов записи.

Со временем все чаще и чаще появлялась проблема выбора материала. Ведь довольно большую роль играет чтец, жанр книги. Часто возникает ситуация, когда кто-то советует книгу (или в той же статье на хабре в читальном зале), а аудио-версии банально нет еще. Все эти проблемы я попытался решить отдельным сайтом. Сейчас есть парочка довольно больших и раскрученных по аудиокнигам, где вы можете прямо онлайн слушать их. Такие сайты обладают достаточно слабым фильтром по книгам. И, по сути, являются чисто каталогом.

Собираем базу аудиокниг для удобной фильтрации - 1

Источник информации

За все время я заметил, что рутрекер является одним из самых масштабных хранилищ аудиокниг. Если книга существует в таком формате, то почти наверняка она есть в раздачах. Многие чтецы даже вручную делают релизы торрентов. Первым заданием было полной синхронизацией всех доступных аудиокниг с рутрекера.

Выбор книги

Следующей целью было создание широкого фильтра для подбора книги. Удобные фильтры помогут сменить подход к выбору книги. Если раньше вы просто находили себе вариант, а потом искали его аудиокнигу (которой могло не оказаться), то теперь вы исключаете первый пункт и ищете в базе максимально всех существующих книг. Конкретно сейчас у меня получилось сделать следующий набор фильтров:

  • Семантический глобальный поиск по всей базе по всем текстовым полям
  • Сортировка (asc/desc) по дате создания торрента, количеству просмотров (на сайте), рейтингу (из внешних источников), количество загрузок (по данным рутрекера), ну и наугад
  • Фильтр по автору произведения, автору озвучки, жанрам, и возможность исключить книги, которые вы отметили как «прочитанное»
  • Возможность подписки на авторов книг или озвучки. Да-да! Вы можете выбрать понравившегося исполнителя и подписаться на все его обновления. Я, например, мониторю все книги Игоря Князева

База рутрекера

Итак, первый пункт это анализ публикаций рутрекера и формирование базы. Для хранилища выбрал MongoDB. Во-первых, идеально для кучи не особо связанных данных, во-вторых, идеально показала себя в плане производительности. Да и вообще разрабатывать сайт с простым «пробрасыванием» json с UI на базу очень просто и занимает минимальное время. Кстати, в MongoDB 3.2 добавили left outer join.
Основной сложностью было унифицирование информации. Рутрекер хоть и заставляет оформлять раздачи (за что им спасибо), но все равно за 10 лет (именно столько времени прошло с момента публикации первой аудиокниги) оформление отличается. Пришлось открывать наугад разные разделы и собирать возможные варианты.

Скрипт парсера написан на питоне, для эмуляции браузера библиотека mechanize, для работы с DOM — BeautifulSoup.
Метод, который возвращает объект максимально эмулирующий поведение обычного браузера. Второй метод получает объект браузера, авторизируется на рутрекере и возвращает этот самый объект, внутри которого уже хранятся cookies авторизации.

 def getBrowser():
    br = mechanize.Browser()
    cj = cookielib.LWPCookieJar()
    br.set_cookiejar(cj)
    br.set_handle_equiv(True)
    br.set_handle_gzip(True)
    br.set_handle_redirect(True)
    br.set_handle_referer(True)
    br.set_handle_robots(False)

    br.set_handle_refresh(mechanize._http.HTTPRefreshProcessor(), max_time=1)

    br.addheaders = [
        ('User-agent', 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/43.0.2327.5 Safari/537.36'),
        ('Accept', 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8'),
        ('Accept-Encoding', 'gzip, deflate, sdch'),
        ('Accept-Language', 'ru,en;q=0.8'),
    ]

    return br

def rutrackerAuth():
    params = {u'login_username': '...', u'login_password': '...', u'login' : ''}
    data = urllib.urlencode(params)

    url = 'http://rutracker.org/forum/login.php'
    browser = getBrowser()
    browser.open(url, data)
    
    return browser

Сам по себе сбор данных выглядит как набор регулярных выражений в разных вариациях:

yearRegex = r'Год .*(d{4}?)'
result['year'] = int(re.search(yearRegex, descContent, re.IGNORECASE).group(1))

# Пример разбора даты создания торрента, где дата указана в русской локали
timeData = soupHandle.find('div', {'id' : 'tor-reged'}).find('span').encode_contents()
import locale
locale.setlocale(locale.LC_ALL, 'ru_RU.UTF-8')
result['creationTime'] = datetime.datetime.strptime(timeData, u'[ %d-%b-%y  %H:%M ]')

Очень важно использовать BULK-запросы в mongo, чтобы парсер не нагружал единичными вставками базу. К счастью, все это делается очень просто:

BULK = tableHandle.initialize_unordered_bulk_op()

# Цикл...
    BULK.find({'_id' : book['_id']}).upsert().update({'$set' : result})

BULK.execute()

Поле slug генерируется пакетом slugify (pip install slugify).

Вот список всех полей для каждой из книг, которые я в итоге собрал:
Собираем базу аудиокниг для удобной фильтрации - 2

Сразу же не забываем создать индекс для всех полей, по которым будет идти сортировка или фильтрация:

Собираем базу аудиокниг для удобной фильтрации - 3

Это замедлит время вставки, но очень ускорит выборку. Синхронизация базы происходит раз в день, поэтому второй вариант для сайта предпочтительней.

Загрузка данных происходит по всем подфорумам аудиокниг:

forums = [
    {'id' : '1036'},  {'id' : '400'},   {'id' : '574'},
    {'id' : '2387'}, {'id' : '2388'},  {'id' : '695'},
    {'id' : '399'}, {'id' : '402'},  {'id' : '490'},
    {'id' : '499'}, {'id' : '2325'},  {'id' : '2342'},
    {'id' : '530'}, {'id' : '2152'},  {'id' : '403'},
    {'id' : '716'}, {'id' : '2165'}
]

for i in xrange(pagesCount):
    url = 'http://rutracker.org/forum/viewforum.php?f='+forum['id']+'&start=' + str(i*50) + '&sort=2&order=1'

Нормализация базы

Данные мы скачали, но есть проблема: нет точности в указанных данных. Кто-то напишет «В. Герасимов», кто-то «Вячеслав Герасимов». В одном месте укажут полное или альтернативное название произведение. Также появился вопрос в получении независимой оценки произведения. Погуглил пару заголовков книг и посмотрел на выдачу первых сайтов. Одним из них оказался fantlab.ru, который строит оценку по голосам пользователей, имеет довольно внушительную базу книг, содержит полное описание жанра и поджанров книг, точное имя автора и произведения.
Собираем базу аудиокниг для удобной фильтрации - 4

Имя автора, название книги

Абсолютно вся информация из скриншота парсится и вносится в базу. Все поля вручную проверяются членами сообщества fantlab. Все идеально, но есть одна проблема: как связать раздачу с рутрекера и определенную запись с fantlab? В раздачах не указывают отдельно названия произведения. Иногда даже автора неверно пишут (или не указывают). По сути, полным источником информации есть заголовок. Всю боль можно увидеть в следующем скриншоте раздач:
Собираем базу аудиокниг для удобной фильтрации - 5

Стоит ли говорить, что даже исключив весь текст в угловых скобках встроенный поиск на fantlab не справляется и не находит ничего. Выход я нашел, хоть и не совсем изящный: phantomjs(selenium) + google.

У меня довольно много проектов используют эту связку, поэтому настроенный headless-браузер и базовые скрипты для selenium готовы были для использования. По сути, я брал заголовок с рутрекера, добавлял к нему приставку " fantlab" и гуглил. Первый результат, который по шаблону подходил по адресу произведения парсился. Оставлю пару замечаний по поводу phantomjs: очень сильно течет память. Я давно уже сделал для себя пару «костылей», которые позволяют процессу жить месяцами на сервере и не падать по причине нехватки памяти:

    def resourceRequestedLogic(self):
        driver.execute('executePhantomScript', {'script': '''
            var page = this;
            page.onResourceRequested = function(request, networkRequest) {
                if (/.(jpg|jpeg|png|gif|tif|tiff|mov|css)/i.test(request.url))
                {
                    //console.log('Final with css! Suppressing image: ' + request.url);
                    networkRequest.abort();
                    return;
                }
            }
        ''', 'args': []})

Эта функция выполняется в момент запроса какого-то ресурса и проверяет его по маске медиа-файлов. Все картинки и видео исключаются. Т.е. они даже не загружаются в память. Вторая функция принудительно сбрасывает кеш. Вызывать нужно по таймеру раз в ~час:

    def clearDriverCache(self):
        driver.execute('executePhantomScript', {'script': '''
            var page = this;
            page.clearMemoryCache();
        ''', 'args': []})

Открываем гугл и вбиваем ему в поле поиска любой текст, чтобы сменить UI (получить результат выдачи). Все дальнейшие запросы будут происходить на этой же странице.

driver.get('http://google.ru')
driver.find_element_by_css_selector('input[type="text"]').send_keys(u"Имя книги fantlab")
driver.find_element_by_css_selector('button').click()

Так как запросы все аяксовые, нам нужно вручную проверять факт загрузки. В selenium для этого есть некоторые методы, которые ожидают пока определенный элемент не появится на странице.

count = 0
while True:
    count += 1
    time.sleep(0.25)
    if count >= 3:
        break

    try:
        link = driver.find_element_by_css_selector('a[href*="fantlab.ru/work"]')
        if link:
            return link.get_attribute('href')
    except:
        continue

Жанры

Следующий шаг: приведение к одному виду всех имен авторов и всех жанров. В некоторых раздачах писали «ужас», в других «ужасы». Здесь на помощь пришла библиотека pymorphy2: позволяет получить начальную форму слова.

# Убираем все спец символы из строки жанров   
fullGenre = fullGenre.replace('/', ',').replace(';', ',').replace('--', '-').replace(u'ё', u'е')
fullGenre = re.sub(r'[.|"«»]', '',fullGenre)
fullGenre = re.sub(r'[.*?]', '',fullGenre)

# Разбиваем жанры по запятой, убираем пустые поля и начальные/конечные пробелы
allGenres = filter(None, fullGenre.split(','))
allGenres = [item.strip() for item in allGenres]

# Делаем список уникальным (убираем дубликаты)
allGenres = list(set(allGenres))

insertGenresList = []

for genre in allGenres:
    # Проходим по каждому жанру, получаем его начальную форму
    morphology = morph.parse(genre)[0]
    genre = morphology.normal_form

    insertGenresList.append(genre)

Имена авторов

С авторами можно было бы тоже что-то придумать с библиотекой pymorphy2: разбивать на слова, проверять вхождения слов и их совпадение. Но тут я вспомнил пункт про глобальный поиск всего по всем полям. Это и будет решением. Для полнотекстового поиска взял sphinx. Он напрямую не дружит с mongodb, поэтому нужно написать скрипт, который будет выбрасывать xml с данными по указанной схеме.

docset = ET.Element("sphinx:docset")
schema = ET.SubElement(docset, "sphinx:schema")

# Храним ID записи в базе, чтобы потом вытаскивать информацию
idAttribute = ET.SubElement(schema, "sphinx:attr")
idAttribute.set("name", "mongoid")
idAttribute.set("type", "int")

# Дальше перечисляем все поля, которые должны индексироваться
text = ET.SubElement(schema, "sphinx:field")
text.set("name", "audioauthor")

text = ET.SubElement(schema, "sphinx:field")
text.set("name", "bookauthor")

text = ET.SubElement(schema, "sphinx:field")
text.set("name", "title")

text = ET.SubElement(schema, "sphinx:field")
text.set("name", "publisher")

text = ET.SubElement(schema, "sphinx:field")
text.set("name", "description")

# Мы должны вручную генерировать индекс для каждой записи книги и это обязательно должен быть атрибут с имением id
globalIterator = 0
all = bookTable.find()

# Убираем то, что может сломать xml разметку
def safeText(data):
    data = re.sub('<[^<]+?>', ' ', data)
    data = "".join([c for c in data if c.isalpha() or c.isdigit() or c==' ']).rstrip()

    return data

for card in all:
    document = ET.SubElement(docset, "sphinx:document")
    globalIterator += 1

    # Этот самый обязательный id
    document.set("id", str(globalIterator))

    mongoid = ET.SubElement(document, "mongoid")
    mongoid.text = str(card["_id"])

    title = ET.SubElement(document, "audioauthor")
    title.text = safeText(card["audioAuthor"])

    # И далее все то же для всех полей...

Параметры в sphinx.conf:

source src_bookaudio
{
   type = xmlpipe2
   xmlpipe_command = python /path/to/sphinx.py

   sql_attr_uint = mongoid
}

index bookaudio
{
   morphology              = stem_enru
   charset_type            = utf-8
   source                  = src_bookaudio
   path                    = /var/lib/sphinxsearch/data/bookaudio.main
}

И команда: indexer bookaudio --rotate

Как же использовать поиск для унификации полей? Берем список всех авторов книг, и складываем одинаковые вхождения. Получится что-то типа:

Вячеслав Герасимов — 1324
Игорь Князев — 432
...

authors = {}
for book in allBooks:
    author = book['audioAuthor']
    if author in authors:
        authors[author] += 1
    else:
        authors[author] = 1

То, что используется максимально часто наверняка есть наиболее правильной формой. Берем топовые вхождения и делаем глобальный поиск по всем авторам.


import sphinxapi
client = sphinxapi.SphinxClient()
client.SetServer('localhost', 9312)
client.SetMatchMode(sphinxapi.SPH_MATCH_ALL)
client.SetLimits(0, 10000, 10000)

import operator
sorted_x = reversed(sorted(authors.items(), key=operator.itemgetter(1)))
counter = 0
for i in sorted_x:
    print i[0].encode('utf-8'),
    print ' - ' + str(i[1])

    searchData = client.Query(i[0], 'bookaudio')
    for match in searchData['matches']:
        mongoId = int(match['attrs']['mongoid'])
        BULK.find({'_id' : mongoId}).upsert().update({'$set' : {'audioAuthor' : i[0]}})

Все похожие вхождения (в том числе «В. Герасимов», например) будут заменены на наиболее используемые формы.

Интерфейс

Написание веб-интерфейса для всего этого не несет никакой технической сложности. По сути, это надстройка для доступа к базе. Вот что у меня получилось. Список самых скачиваемых аудиокниг за всю историю трекера:

Собираем базу аудиокниг для удобной фильтрации - 6

И работа с фильтрами:

Собираем базу аудиокниг для удобной фильтрации - 7

Как видите, я захотел посмотреть все книги, озвученные Игорем Князевым по жанру «российская фантастика», отсортированные по количеству загрузок на рутрекере (вверху самые скачиваемые).

Пробелом или нажатием на карточки внизу раскрывается информация о книге. Благодаря mongodb все фильтры отрабатывают мгновенно по базе в 30к книг.

Завершение

Не все идеально: база не везде точная, интерфейс можно улучшить. Фильтр по жанрам нужно перевести в древовидную структуру. Все это работа за 3 дня и для личного пользования и выбора книг мне хватает. Вы бы пользовались таким сервисом?

Автор: Ockonal

Источник

* - обязательные к заполнению поля


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js