Рубрика «Семантика» - 3

image

Мысль о неизбежности перехода глобальной сети от сайтоцентристской структуры к юзероцентристской я высказал еще 2012 году (Философия эволюции и эволюция интернета или в сокращенном виде WEB 3.0. От сайтоцентризма к юзероцентризму). В этом году я попытался развить тему нового интернета в тексте WEB 3.0 — второй подход к снаряду. Сейчас же выкладываю вторую часть статьи WEB 3.0 или жизнь без сайтов (советую просмотреть перед чтением этой страниц).

Итак, что же получается? Интернет в версии web 3.0 есть, а сайтов нет? А что же тогда есть?
Читать полностью »

Применение сиамских нейросетей в поиске - 1

Всем привет! В этом посте я расскажу, какие подходы мы в Поиске Mail.ru используем для сравнения текстов. Для чего это нужно? Как только мы научимся хорошо сравнивать разные тексты друг с другом, поисковая система сможет лучше понимать запросы пользователя.

Что нам для этого нужно? Для начала строго поставить задачу. Нужно определить для себя, какие тексты мы считаем похожими, а какие не считаем и затем сформулировать стратегию автоматического определения схожести. В нашем случае будут сравниваться тексты пользовательских запросов с текстами документов.
Читать полностью »

image

Привет!

Заметил, что многие не знают, как работать с трендами в интернете.

И тем более, не знают о существовании бесплатного сервиса, решающего эту проблему- Google Trends

Сервис поможет узнать, что волнует ваших клиентов сегодня, интересен ли ваш товар рынку, какая у него сезонность, в каком регионе наибольший интерес к товару и вашему конкуренту?

Статья будет полезна специалистам, ранее не работавшим с сервисом.
Читать полностью »

Здравствуйте, меня зовут… Человек. Число рук равно 2. Число ног равно 2. Группа крови равна 1. Резус равен истине.

Вам может показаться, что лишь по этой информации, без имени, фамилии и даже никнейма меня сложно отличить от множества других авторов статей. И будете правы. Однако, во фронтенде я часто вижу, как имя элемента заменяется его описанием. И это никого не волнует.

Три мужика и девочка

Присаживайтесь поудобнее, впереди вас ждёт увлекательное путешествие по серьёзным проблемам серьёзных проектов, которые, тем не менее, зачастую недооценивают.

Читать полностью »

Все мы участвовали в опросах, онлайн или в реальной жизни. А когда начинаем новый проект, то без опросов не обойтись. Но иногда есть результаты опросов, с которыми непонятно что делать, кроме как улыбнуться, ниже, на картинке, результат опроса Всероссийского центра изучения общественного мнения (ВЦИОМ).
Как сравнить: «изумительный авто» и «уродливый барак», в маркетинговом опросе и в больших данных - 1
Полюбопытствовал как сейчас используют вопросы с качественными оценками и обнаружил, что ВЦИОМ, ФОМ, Левада-Центр используют, в основном, трехдиапазонную шкалу (плохо/норма/хорошо). В случаях более детальных вопросов, шкала увеличивается до 5-6 единиц, но редко.
Как сравнить: «изумительный авто» и «уродливый барак», в маркетинговом опросе и в больших данных - 2
Тогда, на сегодняшний день, складывается ситуация, в которой социологи уходят от многоуровневой шкалы качественных оценок и стараются использовать трехуровневую. И если социология умеет из этого выворачиваться, то при анализе приличных объемов данных, необходимость использования качественных оценок становится усложняющим фактором и снижает надежность результатов. Так как разграничить, например, понятия: «прекрасная квартира» и «отличное жилье» практически невозможно, а с учетом ответа, одного из персонажей «Двенадцати стульев»: «Кому и кобыла невеста», многопересекаемость качеств выходит за разумные пределы.
Читать полностью »

В последние годы все чаще говорят о Trello, как о прекрасном инструменте для организации и планирования. В нашей компании мы вот уже 3 года используем Trello для планирования многих процессов, начиная с отпусков, командировок и согласования договоров и заканчивая управлением проектами.

К сожалению, не все так прекрасно в Trello. На нем нельзя сделать кастомный workflow. То есть нам нужно занять одного сотрудника, который будет в различных досках перетаскивать карточки руками. Как же сделать так, чтобы этого сотрудника можно было перевести на другую, более интересную и творческую работу?

Конечно, скажете вы, можно написать скрипт, который будет делать все это за нас. Но тут возникает проблема. Скрипт может написать только программист или человек, который понимает, как это делать. Поддерживать скрипт придется ему же. Мы нашли более простое и логичное решение — это семантическое моделирование.

Семантическое моделирование позволяет всю логику работы доски в Trello записать на естественном языке.
Читать полностью »

Semantic Web и Linked Data подобны ближнему космосу: жизни там нет. Чтобы отправиться туда на более-менее длительный срок… ну, не знаю, что говорили вам в детстве в ответ на «хочу стать космонавтом». Но понаблюдать за происходящим можно и находясь на Земле; стать астрономом-любителем или даже профессионалом гораздо проще.

В статье речь пойдет о свежих, не старее нескольких месяцев, трендах из мира RDF-хранилищ. Метафора в первом абзаце была навеяна эпических размеров рекламной картинкой под катом.

Читать полностью »

image

Многие люди не знают, как работать с трендами в интернете, где их искать. Перед тем, как начинать бизнес не знают, где посмотреть будет ли этот бизнес вообще популярен и нужен ли он. Поэтому напишу полный туториал, чтобы закрыть все вопросы по этой тематике.

Работать мы будем со специальным сервисом по сбору поисковых запросов пользователей Яндекса Вордстатом, интерфейс которого довольно прост и понятен:

image

В начале, по традиции, поставлю цели:

  • Понять весь функционал и научиться работать с Вордстатом;
  • Как правильно собирать семантику с максимальной релевантностью и CTR >50%;
  • Так как мы на Хабре, поработаем с API Wordstat напрямую.

Читать полностью »

Наши правила жизни: начинать название статей с буквы «Т» и искать текстовые заимствования быстро, точно и, самое главное, красиво. Уже больше года мы успешно находим переводные заимствования и рерайт с помощью нейросетей. Но иногда нужно намеренно «стрелять себе в ногу» и, прихрамывая, идти другой дорожкой, т.е. не проверять ни на парафраз, ни на плагиат, а просто оставить кусочек текста в покое. Парадоксально, больно, но надо. Скажем сразу: трогать не будем библиографию. Как отыскать её в тексте? Почему это легко сказать, но сделать гораздо сложнее, чем кажется? Всё это в продолжении корпоративного блога компании Антиплагиат, единственного блога, где не любят зачёркнутый текст.

Так сложно найти, легко пропустить и невозможно оформить - 1

Источник изображения:Fandom.com

Читать полностью »

Открытая семантика русского языка, об истории создания которой вы можете прочитать здесь и здесь, получила большое обновление. Мы собрали достаточное количество данных, чтобы применить поверх собранной разметки машинное обучение и построить семантическую модель языка. Что из этого получилось смотрите под катом.

Новогодний датасет 2018: открытая семантика русского языка - 1
Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js