Архив за 14 июля 2018 - 6

Предисловие

На просторах интернета имеется множество туториалов объясняющих принцип работы LDA(Latent Dirichlet Allocation — Латентное размещение Дирихле) и то, как применять его на практике. Примеры обучения LDA часто демонстрируются на "образцовых" датасетах, например "20 newsgroups dataset", который есть в sklearn.

Особенностью обучения на примере "образцовых" датасетов является то, что данные там всегда в порядке и удобно сложены в одном месте. При обучении продакшн моделей, на данных, полученных прямиком из реальных источников все обычно наоборот:

  • Много выбросов.
  • Неправильная разметка(если она есть).
  • Очень сильные дисбалансы классов и 'некрасивые' распределения каких-либо параметров датасета.
  • Для текстов, это: грамматические ошибки, огромное кол-во редких и уникальных слов, многоязычность.
  • Неудобный способ харнения данных(разные или редкие форматы, необходимость парсинга)

Исторически, я стараюсь учиться на примерах, максимально приближенных к реалиям продакшн-действительности потому, что именно таким образом можно наиболее полно прочувстовать проблемные места конкретного типа задач. Так было и с LDA и в этой статье я хочу поделиться своим опытом — как запускать LDA с нуля, на совершенно сырых данных. Некоторая часть статьи будет посвящена получению этих самых данных, для того, чтобы пример обрел вид полноценного 'инженерного кейса'.

Читать полностью »

В базе данных Евразийской экономической комиссии (Eurasian Economic Union, EAEU) появились еще две модели планшетных компьютеров Apple iPad, которые не были представлены производителем.

Речь идет о планшетах, которые проходят под модельными номерами A1895 и A1980. Предположительно, это обновление для линейки производительных планшетов iPad Pro.

Источники считают, что новинки получат дисплей диагональю 11 дюймов с тонкими рамками, а также лишится кнопки Home со сканером отпечатков пальцев Touch ID.

Читать полностью »

В Uber уволили 100 участников проекта по тестированию робомобилей

Вслед за ДТП со смертельным исходом в начале этого года с участием одного из автономных транспортных средств Uber компания недавно уволила около 100 сотрудников, участвовавших в её программе по внедрению технологий автономного вождения. Информация об этом поступила из местного информационного агентства WTA.

Читать полностью »

Для тех, кто еще не читал новости о том, как Burger King в своем мобильном приложении интегрировал нежелательное программное обеспечение AppSee, публикую краткую информацию:

  • AppSee — это, malware-сервис, который можно интегрировать в мобильное приложение и получить видеозапись экрана для какой-то там аналитики
  • Как видно из перехваченного видео — данные передаются без какой-либо обработки, а уже в самом AppSee видео обрабатывается и данные держателей карт (ДДК) закрашиваются черными квадратами, как они утверждают
  • Представители Burger King заняли позицию, что они ничего не нарушают, так как данные от AppSee им уже приходят после обработки и они не видят в них ДДК, как они утверждают

Даже если поверить, что оба утверждения верные, то все равно Burger King своими действиями нарушает стандарт безопасности отправку видео файла на AppSee: нельзя передавать с номером карты (PAN) дату истечения и имя владельца. Про телефон я вообще молчу. Это прямое нарушение PCI DSS в частности и здравого смысла вообще. Обычный MITM в публичном WiFi организовать утечку ДДК, а номер телефона — вообще легчайший способ получить дубликат sim карты в любом отделении с помощью имени владельца и базовых навыков графического редактора.

Сама компания Burger King прошла проверку стандартам, а значит попадает под все карательные меры, а именно:
Читать полностью »

Мы уже видели изображения фронтальной и задней панелей смартфона Xiaomi Mi A2, который должен быть представлен в конце этого месяца.

Фотогалерея дня: смартфон Xiaomi Mi A2

Однако теперь источники впервые показали, как будет выглядеть смартфон со всех сторон.

Читать полностью »

Первые мобильные компьютеры категории Always Connected PC на платформе ARM, работающие под управлением Windows 10, которые появились в этом году, пока не смогли завоевать признание потребителей. Примером такого компьютера является Lenovo Miix 630.

Читать полностью »

Oppo готовит наступление на европейский рынок смартфонов

Oppo намерена значительно укрепить свои позиции на европейском рынке смартфонов: как сообщают сетевые источники, компания готовит к выпуску большое количество новых аппаратов.

Читать полностью »

Китайская телекоммуникационная компания ZTE завершила эту рабочую неделю сообщением, что первое полугодие для нее оказалось убыточным.

Хотя полный отчет еще не опубликован, производитель ожидает чистый убыток в размере 1,05-1,34 млрд долларов. Для сравнения: первое полугодие прошлого года принесло ZTE 0,34 млрд долларов чистой прибыли.

Читать полностью »

«Яндекс» готовит собственный смартфон

Информация, появившаяся на сайте Евразийской экономической комиссии (ЕЭК), говорит о том, что компания «Яндекс» в скором времени может представить ещё одно устройство собственной разработки — смартфон.

Фотографии «Яндекса»

Читать полностью »

Huawei выпустит смартфон Nova 3i с новым процессором Kirin 710

На этой неделе Huawei представила мощный фаблет Nova 3, оснащённый 6,3-дюймовым дисплеем Full HD+ с разрешением 2340 × 1080 точек и вырезом в верхней части, двумя сдвоенными камерами и процессором Kirin 970. И вот теперь сообщается, что у этого аппарата появится менее дорогой собрат — смартфон Nova 3i.

Известно, что, как и старшая модификация, модель Nova 3i будет оборудована экраном с вырезом. Характеристики этой панели аппарат унаследует у версии Nova 3.

Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js