У меня есть сайт со статьями схожей тематики. На сайте было две проблемы: спамерские сообщения и дубликаты статей, причём дубликаты часто являлись не точными копиями.
Данный пост повествует о том, как я решил эти проблемы.
Дано:
- общее количество статей 140 000;
- количество спама: примерно 5%;
- количество не чётких дубликатов: примерно 75%;
Задача: избавиться от спама и дубликатов, а так же не допустить их дальнейшего появления.