Рубрика «Поисковые машины и технологии» - 15

Этой весной в Москве пройдёт ECIR — одна из самых значимых в мире научных конференций по информационному поиску. Её организаторами выступают Яндекс и Высшая школа экономики. Этот ECIR будет уже 35-м по счёту, но в России конференция пройдёт впервые.

ECIR 2013

С 24 по 27 марта о своих исследованиях расскажут учёные из Беркли, Лондонского университета королевы Марии, Университета китайской Академии Наук, Школы компьютерных наук Университета Глазго и других ведущих научных школ Европы, США, Южной Америки и Азии. В нашем офисе и в Digital October проведут воркшопы и прочитают доклады исследователи из таких компаний и индустриальных лабораторий, как Twitter, Yahoo! Labs, Microsoft Research, Ebay, IBM Research.
Читать полностью »

GSA: Препарируем Google Search Appliance в виртуальной машине
Последние годы, с интересом почитывая о персональных поисковых системах в веселых желтых коробках имени Google, я периодически гуглил по словам GSA, Google Search Appliance, reverse engineering и, чего греха таить, hack, DIY, disk dump и т.п. Но ничего, кроме официальных пресс-релизов и переписки счастливых (?) обладателей с группой поддержки, я не встречал.

Иногда звучали на форумах робкие вопросы вроде «а как бы рута мне получить» или «попасть в GSA по ssh», но на все подобные вопросы ответ был один — только группа поддержки Google знает пароли. И никому не скажет. Удивительно, но я не встречал в интернете никаких попыток собрать «хакинтош» на движке Гугла, или по живому коду разобраться в алгоритме ранжирования страниц.

Ситуация слегка изменилась в 2008 году, когда на волне эйфории от виртуализации, Google выкатил VGSA – бесплатную виртуальную машину для Vmware с ограниченной до 50 тысяч документов лицензией. Впрочем, особого энтузиазма это в интернете не вызвало, в 2009 году проект был свернут и большинство ссылок в Гугле на VGSA стали возвращать 404 (заметьте – самим же Гуглом). Ссылку на релиз от 2008 года можно найти довольно легко. Ссылка на версию 2009 сохранилась лишь на паре китайских сайтов.

О том, как я поставил vgsa_20090210 на ESX 5.1, зашел рутом, снял ограничение на размер индекса и увидел много чего интересного с точки зрения СЕО, можно Читать полностью »

Обработка естественных языков: недостающий инструмент

Положим, хотите Вы создать веб-приложение. В современном мире создано неисчислимое множество ПО, призванного облегчить Вам жизнь. Можете воспользоваться каким-нибудь всеобъемлющим фреймворком, или подключить пару библиотек, которые решат за Вас типичные задачи вроде шаблонизации, управление базами данных, обеспечения интерактивности и тому подобное. Эти библиотеки предоставляют Вам единообразный интерфейс к решению как общих, так и исключительных задач, с которыми Вы, возможно, не были бы в состоянии сходу справиться.

Но среди этого обилия инструментов зияет значительный пробел: библиотека для работы с естественными языками.

Читать полностью »

Помните известную шутку о том, что если Билл Гейтс увидит на земле 100 долларов, то ему невыгодно нагибаться за бумажкой, потому что он в секунду зарабатывает больше, чем сотню? Этот анекдот приходит в голову, когда смотришь на статистику по забытым ценностям в Калифорнии. Более 17 миллионов граждан забыли/потеряли/оставили ценностей на 6,1 миллиарда долларов! Стоимость забытых вещей можно сравнить с годовым ВВП небольшой страны.

Среди потерянного — деньги, ценные бумаги, чеки, банковские ячейки, драгоценности и проч.

Понятно, что некоторые из владельцев умерли или переехали. Но некоторые просто не могут заехать за деньгами, потому что потраченное время обойдётся им дороже.

На сайте есть форма поиска по имени и фамилии владельцев потерянных и забытых вещей. Среди них много знаменитостей.
Читать полностью »

База данных потерянных вещей с поиском по фамилии

Помните известную шутку о том, что если Билл Гейтс увидит на земле 100 долларов, то ему невыгодно нагибаться за бумажкой, потому что он в секунду зарабатывает больше? Этот анекдот приходит в голову, когда смотришь на базу данных по забытым ценностям в Калифорнии. Более 17 миллионов граждан забыли/потеряли/оставили ценностей на 6,1 миллиарда долларов. Среди потерянного — деньги, ценные бумаги, чеки, банковские ячейки, драгоценности и проч. Понятно, что некоторые из владельцев умерли или переехали. Но некоторые просто не могут заехать за деньгами, потому что потраченное время обойдётся дороже.

На сайте есть форма поиска по имени и фамилии владельцев потерянных и забытых вещей. Среди них много знаменитостей.
Читать полностью »

Приветствую! Надеюсь, эта статья будет кому-нибудь полезна.

Многие знают о возможностях адресной строки Chrome, запоминающей поисковые системы различных сайтов. Однако эффективно ее использовать, думаю, умеют далеко не все.
Я сижу в интернете исключительно через этот браузер (дело вкуса и привычки, конечно) и использую кастомизированный поиск в Chrome по несколько десятков раз в день. Большое количество действий, ежедневно выполняемых через браузер, можно оптимизировать, добавив в список определенные поисковые системы.

Итак, кончаю муть, перехожу к «технической» и практической стороне дела.
Читать полностью »

Google заплатит Apple 1 миллиард долларов в 2014 за право быть поисковиком по умолчанию в iOS

В мире корпораций порой сложно разобрать, кто кому враг, друг или партнер. Чаще всего все это комбинируется. Все сказанное актуально и для корпораций Google и Apple. Компании одновременно и партнеры, и противники друг друга в ряде судебных процессов. Тем не менее, деловые отношения между компаниями сохраняются и даже укрепляются, причем взаимовыгодно. Так, Google заплатит в 2014 году около 1 миллиарда долларов США корпорации Apple за то, чтобы поисковый сервис «корпорации добра» оставался поисковиком по умолчанию в iOS. Стоит отметить, что в 2009 году Google заплатил за такое же право всего 82 миллиона долларов.

Читать полностью »

image

Прототип алгоритма определения происхождения информационного всплеска.

Читать полностью »

Яндекс обогнал Microsoft в мировом поиске

Microsoft уступил Яндексу четвертое место в мировом поиске по числу поисковых запросов. По статистике ComScore, Microsoft переместился на пятое место, пропустив вперед поисковик из России. В Microsoft речь идет не только о поисковике Bing. В статистику входят также и другие сайты и сервисы, такие как microsoft.com, Windows Live и др. В Яндексе же учитывался не только поиск, но и другие сервисы, такие как карты, пробки, авто и др. Первая тройка выглядит без изменений. Это Google, Baidu и Yahoo!Читать полностью »

Этот пост о боли ученых и простых людей, которым нужно найти «сложную» информацию. Так уж сложилось, что лишь немногие умеют правильно формулировать вопросы к поисковикам. Очень громкое заявление, которое захотят оспорить тысячи Знающих, но я и сам понимаю, что оно может выглядеть неправильным. Не от того, что мысль неправильна, скорее я не совсем точно сформулировал ее. Так лучше:

«С ростом сложности предмета поиска возрастает трудность формулировки запроса» — это утверждение верно для каждого человека, независимо от его способностей.

Начинаете понимать? Вы, как программисты, с легкостью формулируете простые запросы вроде «рязань москва экспресс расписание », поэтому есть стереотип, что упрощать процесс поиска не нужно. Но что происходит, когда нам нужно узнать, может ли redis не только сохранять значения с TTL, но и автоматически удалять самые старые, чтобы не свопиться на диск? Возможно и эта проблема некоторым покажется легкой для рисерча, тогда обратите внимание на одну из моих:Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js