Правообладатели готовят новый законопроект для борьбы с пиратством в Рунете, пишет «Коммерсантъ». Главное нововведение — они предлагают удалять из поисковой выдачи не просто отдельные страницы, где размещены пиратские ссылки, а целые сайты (в случае многократных нарушений). Под раздачу могут попасть многие нормальные сайты — хостинги с UGC, хотя для социальных сетей и видеохостингов в проекте предусмотрен «иммунитет», если они присоединятся к реестру, как это сделали «ВКонтакте», «Одноклассники» и Rutube.
Читать полностью »
Рубрика «поисковые технологии» - 11
Правообладатели предложили удалять из поисковой выдачи не только страницы, но и целые домены с пиратскими ссылками
2019-06-19 в 9:19, admin, рубрики: Законодательство в IT, копирайт, пиратские сайты, поисковая выдача, поисковая оптимизация, поисковые технологии, ПравообладателиКраткое введение в цепи Маркова
2019-06-14 в 4:49, admin, рубрики: pagerank, марковское свойство, математика, Научно-популярное, поисковые системы, поисковые технологии, ранжирование поиска, стохастические процессы, цепи марковаВ 1998 году Лоуренс Пейдж, Сергей Брин, Раджив Мотвани и Терри Виноград опубликовали статью «The PageRank Citation Ranking: Bringing Order to the Web», в которой описали знаменитый теперь алгоритм PageRank, ставший фундаментом Google. Спустя чуть менее два десятка лет Google стал гигантом, и даже несмотря на то, что его алгоритм сильно эволюционировал, PageRank по-прежнему является «символом» алгоритмов ранжирования Google (хотя только немногие люди могут действительно сказать, какой вес он сегодня занимает в алгоритме).
С теоретической точки зрения интересно заметить, что одна из стандартных интерпретаций алгоритма PageRank основывается на простом, но фундаментальном понятии цепей Маркова. Из статьи мы увидим, что цепи Маркова — это мощные инструменты стохастического моделирования, которые могут быть полезны любому эксперту по аналитическим данным (data scientist). В частности, мы ответим на такие базовые вопросы: что такое цепи Маркова, какими хорошими свойствами они обладают, и что с их помощью можно делать?
Читать полностью »
Оптимизация поиска в ширину: как обработать граф с 10 миллиардами состояний
2019-06-11 в 6:27, admin, рубрики: breadth-first search, Алгоритмы, алгоритмы поиска, головоломки, графы, Игры и игровые приставки, оптимизация кода, поиск в ширину, поисковые технологии, ПрограммированиеПару месяцев назад мне наконец пришлось признать, что я недостаточно умён, чтобы пройти некоторые уровни головоломки Snakebird. Единственным способом вернуть себе часть самоуважения было написание солвера. Так я мог бы притвориться, что создать программу для решения головоломки — это почти то же самое, что и решить её самому. Код получившейся программы на C++ выложен на Github. Основная часть рассматриваемого в статье кода реализована в search.h и compress.h. В этом посте я в основном буду рассказывать об оптимизации поиска в ширину, который бы потребовал 50-100 ГБ памяти, чтобы он уместился в 4 ГБ.
Позже я напишу ещё один пост, в котором будет описана специфика игры. В этом посте вам нужно знать, что мне не удалось найти никаких хороших альтернатив грубому перебору (brute force), потому что ни один из привычных трюков не сработал. В игре множество состояний, потому что есть куча подвижных или толкаемых объектов, при этом важна форма некоторых из них, которая может меняться со временем. Не было никакой пригодной консервативной эвристики для алгоритмов наподобие A*, позволяющих сузить пространство поиска. Граф поиска был ориентированным и заданным неявно, поэтому одновременный поиск в прямом и обратном направлении оказался невозможным. Единственный ход мог изменить состояние множеством несвязанных друг с другом способов, поэтому не могло пригодиться ничего наподобие хеширования Зобриста.
Приблизительные подсчёты показали, что в самой большой головоломке после устранения всех симметричных положений будет порядка 10 миллиардов состояний. Даже после упаковки описания состояний с максимальной плотностью размер состояния составлял 8-10 байт. При 100 ГБ памяти задача оказалась бы тривиальной, но не для моей домашней машины с 16 ГБ памяти. А поскольку Chrome нужно из них 12 ГБ, мой настоящий запас памяти ближе к 4 ГБ. Всё, что будет превышать этот объём, придётся сохранять на диск (старый и ржавый винчестер).
Читать полностью »
SphinxSearch-meetup SuperJob
2019-05-24 в 14:27, admin, рубрики: golang, meetup, mysql, search, sphinx, SuperJob, Блог компании Superjob.ru, поисковые технологии28 февраля мы провели SphinxSearch-meetup SuperJob. Рассказываем, что обсуждали участники, делимся видео и презентациями.
Книга «Elasticsearch, Kibana, Logstash и поисковые системы нового поколения»
2019-05-14 в 9:46, admin, рубрики: big data, java, Блог компании Издательский дом «Питер», книга, поисковые технологии, Профессиональная литератураПривет, Хаброжители! Мы издали книгу по Elastic Stack, предназначенную для специалистов, работающих с большими объемами данных и желающих надежно извлекать их из любого источника в любом формате, а также искать, анализировать и визуализировать данные в режиме реального времени. Эта книга для вас, если вам необходимо фундаментальное понимание работы Elastic Stack в сферах распределенных вычислений и обработки данных в реальном времени.
Ниже будет предоставлена структура книги о приведен отрывок про агрегации.
Читать полностью »
Чат на сайте и в выдаче Яндекс
2019-04-13 в 0:15, admin, рубрики: интерфейсы, поиск, поисковая оптимизация, поисковые технологии, Разработка веб-сайтов, сайты, чаты, яндекс, Яндекс API
В этом тексте речь пойдёт о чатах для бизнеса от Яндекс. 3 апреля 2019 г. Яндекс объявил о том, что он запустил собственную чат-платформу. Надо сказать, что появление чатов на страницах поисковой выдачи Яндекса произошло несколько ранее, но теперь Яндекс берётся и обрабатывать обмен данными между пользователями, и обеспечивать их графическими интерфейсами. Здесь мы рассмотрим как создавать и использовать такие чаты.
Читать полностью »
Свой велосипед для синхронизации MariaDB и Sphinx
2019-04-11 в 9:12, admin, рубрики: Go, golang, mariadb, sphinx, sphinxsearch, Блог компании Superjob.ru, поисковые технологии
28 февраля я выступал с докладом на SphinxSearch-meetup, который проходил в нашем офисе. Рассказывал о том, как мы пришли от регулярного перестроения индексов для полнотекстового поиска и отправки обновлений в коде «по месту» к рейлтайм-индексам и автоматической синхронизации состояния индекса и базы данных MariaDB. По ссылке доступна видеозапись моего доклада, а для тех, кто предпочитает чтение просмотру видео, я написал эту статью.
MCDM-Project. Часть 1. Концепция
2019-04-07 в 19:16, admin, рубрики: api, агрегатор, альфа-версия, будущее здесь, веб-сервис, демонстрация прототипа, искусственный интеллект, каталог, многокритериальный поиск, многофакторная сортировка, поисковые технологии, Разработка веб-сайтов, экспертная оценка
Предисловие
Все-таки в душе я фантазер и мечтатель, на деле (в мире программирования) максимум «парень из гаража», но после «раскручивания гаек» не мог не удержаться от идеи явить Хабражителям на справедливый суд концепцию проекта MCDM-Project в целом и игрушечную тестовую версию в частности (несколько опасаюсь Хабраэффекта, если будут проблемы — прощения просим). Ссылка на сайт проекта ждет читателя в конце публикации (вместе с опросом), для ознакомления рекомендуется пройти предлагаемый на сайте тур, а в идеале — предварительно ознакомиться с основными идеями под катом. Читать полностью »
Таблица Менделеева на школьной информатике
2019-04-06 в 8:45, admin, рубрики: Delphi, Pascal, Алгоритмы, базы данных, Википедия, графическое программирование, Занимательные задачки, Икусственный интеллект, интернет, информатика в школе, комплексный метод обучения, машинное обучение, Настольные компьютеры, образование, периодическая таблица элементов, поисковые технологии, Программирование, Софт, стиль программирования, СУБД, Управляющие карты, Учебный процесс в IT, физика, химия, хранение данных, читабельность кода(Управляющие карты)
(Посвящается Международному году Периодической таблицы химических элементов)
Помнится, мы проходили утку. Это были сразу три урока: география, естествознание и русский. На уроке естествознания утка изучалась как утка какие у нее крылышки, какие лапки, как она плавает и так далее. На уроке географии та же утка изучалась как житель земного шара: нужно было на карте показать, где она живет и где ее нет. На русском Серафима Петровна учила нас писать «у-т-к-а» и читала что-нибудь об утках из Брема. Мимоходом она сообщала нам, что по-немецки утка так-то, а по-французски так-то. Кажется, это называлось тогда «комплексным методом». В общем, все выходило «мимоходом».
Вениамин Каверин, Два капитана
В приведенной цитате Вениамин Каверин мастерски показал недостатки комплексного метода обучения, однако в некоторых (может быть, довольно редких) случаях элементы этого метода бывают оправданы. Один из таких случаев — это Периодическая таблица Д.И.Менделеева на уроках школьной информатики. Задача программной автоматизации типовых действий с таблицей Менделеева наглядна для школьников, начавших изучать химию, и разбивается на многие типовые химические задачи. В то же время в рамках информатики эта задача позволяет в простой форме продемонстрировать способ управляющих карт, который можно отнести к графическому программированию, понимаемому в широком смысле слова как программирование с помощью графических элементов.
Читать полностью »
Обязанности поисковиков: как можно “редактировать” поиск в России
2019-03-29 в 7:02, admin, рубрики: авторское право, антипиратское законодательство, Блог компании Digital Rights Center, Законодательство в IT, интернет-маркетинг, копирайт, поисковик, поисковые технологии, право на забвение, фильтрация
Долгое время поиск информации в интернете напрямую законами не регулировался и никто не мог заставить поисковик показывать или скрывать определённую информацию в результатах поиска. Но с 2015 года российский законодатель успел предоставить право “редактировать” результаты поиска пользователям (физическим лицам), правообладателям и государству. У операторов поисковых систем в свою очередь появились обязанности, связанные с формированием результатов поиска не только в соответствии с собственными алгоритмами и запросами пользователей, но и с учётом новых нормативных правил.
Право на забвение
“Право на забвение” — это юридический продукт 21-го века, который был придуман не так давно в Европе как инструмент защиты частной жизни человека. Начало было положено, когда в 2014 году Суд справедливости Евросоюза (CJEU — Court of Justice of the European Union) в решении по делу Google Spain против AEPD и М.К. Гонсалеса решил, что люди имеют право на удаление информации о них из результатов поиска (делистинг, de-listing), если такая информация является “некорректной, нерелевантной или излишней” (inadequate, irrelevant or excessive). Это дело рассматривалось в контексте регулирования обработки персональных данных, которое в общем позволяет человеку управлять тем, как и зачем обрабатываются его персональные данные, в том числе требовать удаления или корректировки данных. Синьору Гонсалесу не понравилось, что, когда его гуглили, первым делом в поиске выскакивала статья 20-летней давности о продаже его имущества с торгов из-за долгов, и это производило плохое впечатление и мешало ему вести бизнес.