Рубрика «big data» - 143

После пельменей, пива и финансов Тиньков решил заняться информационными технологиями.
Вчера в его жж появилось такое короткое объявление:

Ищем людей на вакансии, указанные по ссылке:
www.tinkoffdigital.ru/index.php#
ЗАРПЛАТЫ ОТ МИЛЛИОНА РУБЛЕЙ В МЕСЯЦ.

По ссылке открывается довольно кривой сайт Tinkoff Digital, который сообщает о себе, что «это инновационная компания, созданная для запуска проектов в интернете и мобильной среде. Основные области интересов компании — рекламные технологии, интернет-проекты и мобильные приложения.»

Также на сайте размещён список вакансий, из которого можно получить некоторое представление о планируемых к использованию технологиях:Читать полностью »

После пельменей, пива и финансов Тиньков решил заняться информационными технологиями.
Вчера в его жж появилось такое короткое объявление:

Ищем людей на вакансии, указанные по ссылке:
www.tinkoffdigital.ru/index.php#
ЗАРПЛАТЫ ОТ МИЛЛИОНА РУБЛЕЙ В МЕСЯЦ.

По ссылке открывается довольно кривой сайт Tinkoff Digital, который сообщает о себе, что «это инновационная компания, созданная для запуска проектов в интернете и мобильной среде. Основные области интересов компании — рекламные технологии, интернет-проекты и мобильные приложения.»

Также на сайте размещён список вакансий, из которого можно получить некоторое представление о планируемых к использованию технологиях:Читать полностью »

Двадцать шестой выпуск подкаста — Сливки IT R&D.
Проблемы с iPhone 5, Shazam сделал новую фичу, Надым и ты туда же, Цукерберг против и многое другое.

Читать полностью »

Так случилось, что первый посмотренный мною фильм с упоминанием слова «суперкомпьютер» был Терминатор. Но, как ни странно, моя (тогда еще) не сформировавшаяся психика не посчитала скайнет мировым злом, списав агрессивное поведение первого в мире ИИ на недостаточное покрытие юнит тестами.

На тот момент у меня был ZX Spectrum (чьих 128 Kb явно не хватало на запуск чего-то похожего на ИИ) и много (думаю лет 10) свободного времени. Благодаря последнему факту, я благополучно дождался эры виртуализации. Можно было снять хоть 10K VPS, установить между ними канал связи и начинать создавать ИИ. Но мне хотелось заниматься программированием, а не администрированием/конфигурацией grid-системы, и я разумно начал ждать, когда вычислительные ресурсы начнут предоставляться как сервис.

Моей радости не было конца, когда появились облачные сервисы. Но радость длилась недолго: стало понятно, что пока прямые коммуникации между отдельными вычислительными инстансами – это фантастика код, который нужно писать самому (то есть с большой вероятностью он работать не будет). Попереживав пару лет по этому поводу, я (мы все) дождался Hadoop, сначала «on-premises», а потом и эластичного «on-demand». Но и там, как оказалось, не всё так эластично гладкоЧитать полностью »

Стоит ли платить за Apache Hadoop?

В 2010 году Apache Hadoop, MapReduce и ассоциированные с ними технологии привели к распространению нового явления в сфере информационных технологий, названного «большими данными» или «Big Data». Понимание того, что из себя представляет платформа Apache Hadoop, зачем она нужна и для чего её можно использовать потихоньку проникает в умы специалистов по всему миру. Зарожденный, как идея одного человека, и быстро выросший до промышленных масштабов, Apache Hadoop стал одной из самых широко обсуждаемых платформ для распределенных вычислений, а также платформой для хранения неструктурированной или слабо структурированной информации. В этой статье я хотел бы подробнее остановиться на самой платформе Apache Hadoop и рассмотреть коммерческие реализации, предоставляемые сторонними компаниями, и их отличия от свободно распространяемой версии Apache Hadoop.Читать полностью »

Электронный словарь сегодня стал одним из основных инструментов переводчика, наряду с браузером, оцифрованными справочниками и базами соответствий (последнее важно в основном лишь для переводчиков нехудожественных текстов).

Среди электронных словарей ABBY Lingvo отличается одной ключевой особенностью: полнотекстовым поиском с индексацией. Что-то похожее можно реализовать при помощи индексов в Adobe Acrobat, но удобство интерфейсов именно в словарной области не подлежит сравнению.

ABBY Lingvo давно уже превратился из обычного словаря в универсальный агрегатор источников. Вдобавок к титанической работе фирмы-создателя, энтузиастами оцифрованы в формат Lingvo сотни пособий, в том числе и основные двуязычные, и огромные многотомные толковые словари серий Cambridge, Collins, Longman, Merriam-Webster, Oxford, и энциклопедические словари вроде Британики. Созданы локальные копии сетевых гигантов (Википедий, Викисловарей, Urban Dictionary и так далее). И при обычном использовании это предоставляло бы исключительные возможности. Но при полнотекстовом поиске всё это богатство превращается ещё и в языковые корпусы и базы соответствий. Значение такого поиска при переводах сложных терминов, устойчивых словосочетаний, фразеологизмов трудно переоценить.

С каждым выпуском ABBY расширяет допустимые границы компилируемых словарей и поисковых индексов. Уже сейчас можно скомпилировать словарь размером почти в 2 гигабайта исходного текста. Однако при подключении большого количества словарей индекс разрастается. И сами словари на диске, и поисковый пользовательский индекс также могут достигать гигабайтных размеров. При этом полнотекстовый поиск замедляется, на него начинает влиять скорость работы винчестеров. Эпоха развития SSD может помочь в решении этой проблемы, но пока эти механизмы ещё не используются повсеместно из-за большей цены и меньшей износоустойчивости. К счастью, есть способ, по приросту скорости выигрывающий даже у SSD. Читать полностью »

В современном мире часто приходится сталкиваться с проблемой рекомендации товаров или услуг пользователям какой-либо информационной системы. В старые времена для формирования рекомендаций обходились сводкой наиболее популярных продуктов: это можно наблюдать и сейчас, открыв тот же Google Play. Но со временем такие рекомендации стали вытесняться таргетированными (целевыми) предложениями: пользователям рекомендуются не просто популярные продукты, а те продукты, которые наверняка понравятся именно им. Не так давно компания Netflix проводила конкурс с призовым фондом в 1 миллион долларов, задачей которого стояло улучшение алгоритма рекомендации фильмов (подробнее). Как же работают подобные алгоритмы?

В данной статье рассматривается алгоритм коллаборативной фильтрации по схожести пользователей, определяемой с использованием косинусной меры, а также его реализация на python.
Коллаборативная фильтрация

Читать полностью »

Интерес к технологиям Big Data постоянно растет, а сам термин приобретает все большую популярность, многие люди хотят поговорить об этом, обсудить перспективы и возможности в этой области. Однако немногие конкретизируют — какие компании представлены на этом рынке, не описывают решения этих компаний, а также не рассказывают про методы, лежащие в основе решений Big Data. Область информационных технологий, относящихся к хранению и обработке данных, претерпела существенные изменения к настоящему моменту и представляет собой стремительно растущий рынок, а значит лакомый кусок для многих всемирно известных и небольших, только начинающих, компаний в этой сфере. У типичной крупной компании имеется несколько десятков оперативных баз данных, хранящих данные об оперативной деятельности компании (о сделках, запасах, остатках и т.п.), которые необходимы аналитикам для бизнес-анализа. Так как сложные, непредвиденные запросы могут привести к непредсказуемой нагрузке на оперативные базы данных, то запросы аналитиков к таким базам данных стараются ограничить. Кроме того, аналитикам необходимы исторические данные, а также данные из нескольких источников. Для того чтобы обеспечить аналитикам доступ к данным, компании создают и поддерживают так называемые хранилища данных, представляющие собой информационные корпоративные базы данных, предназначенные для подготовки отчетов, анализа бизнес-процессов и поддержки системы принятия решений. Хранилища данных служат также источником для оценки эффективности маркетинговых кампаний, прогнозированию, поиску новых возможных рынков и аудиторий для продажи, всевозможному анализу предыдущих периодов деятельности компаний. Как правило, хранилище данных – это предметно-ориентированная БД, строящаяся на временной основе, т.е. все изменения данных отслеживаются и регистрируются по времени, что позволяет проследить динамику событий. Также хранилища данных хранят долговременные данные — это означает, что они никогда не удаляются и не переписываются – вносятся только новые данные, это необходимо для изучения динамики изменения данных во времени. И последнее, хранилища данных, в большинстве случае, консолидированы с несколькими источниками, т.е. данные попадают в хранилище данных из нескольких источников, причем, прежде чем попасть в хранилище данных, эти данные проходят проверку на непротиворечивость и достоверность.
Читать полностью »

Бизнес анализ в социальной сети Одноклассники

Этот пост о системах статистики в Одноклассниках. В нем будет рассказано о том, для чего нам нужна статистика, и какие у нас есть системы для работы с ней. В следующих постах детально опишем:

• архитектуру систем;
• основные компоненты систем и алгоритмы;
• нетривиальные проблемы и способы их решенияЧитать полностью »

Мифология Data Science

The future belongs to the companies and people that turn data into products

Человечество никогда не стояло на месте – суровый закон выживания постоянно заставлял его двигаться вперед. В истории развитии человечества революции происходили всегда – одно общество сменялось другим, а устаревшие технологии заменялись более прогрессивными. Последняя информационная революция связана с появлением персональных компьютеров в 80-е годы ХХ века. В результате появления новых технологий, позволяющих накапливать информацию в новом виде – цифровом, начало формироваться информационное общество, приходящее на смену индустриальному. Информационное общество – общество, в котором большинство занято производством, хранением, переработкой и реализацией информации. По сравнению с индустриальном обществом, где все силы направлены на производство и потребление товаров, в информационном обществе потребляются интеллект и знания, что приводит к увеличению доли умственного труда. Развитие информационных технологий планомерно меняет структуру общества, а также влияют на метод принятия решений. На первый план в информационном обществе выходят люди, обеспечивающие производство, передачу и обработку информации, т.е. специалисты в информационно-коммуникационных технологиях. Решения в информационном обществе, касающиеся большого количества людей, принимаются большинством, на основе голосования. Время реакции на какое-либо событие составляет считанные минуты, а само событие становится известным практически сразу. Несмотря на это, некоторые правительства, не понимающие эволюционных процессов, происходящих в современном обществе, пытаются ограничить доступ к самому ценному предмету потребления в новом обществе – информации. Люди, выросшие в обществе, где темы для обсуждения искусственно ограничены, а некоторые из них являются запретными, не будут полноценными по сравнению с людьми, выросшими в обществе со свободным доступом к любой информации. Необходимую цензуру будет проводить само общество – и чем выше будет уровень развитие такого общества, тем выше будет уровень самоцензуры. Хорошо, если полный переход на информационную модель общества будет плавным, без потрясений и революций. Совсем плохо, если нам придётся пережить смутные времена. Что ж, у нас будет возможность проследить за развитием событий в дальнейшем. Однако я хотел поговорить не об этом.
Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js