Архив за 07 февраля 2020 - 8

Веб-скрапинг — это метод сбора данных с веб-сайтов. Этот термин обычно используется в применении к автоматизированному сбору данных. Сегодня мы поговорим о том, как собирать данные с сайтов анонимно. Причина, по которой некто может захотеть анонимности в деле веб-скрапинга, заключается в том, что многие веб-серверы применяют определённые правила к подключениям с IP-адресов, с которых за некий отрезок времени выполнено какое-то количество запросов. Здесь мы будем пользоваться следующими инструментами:

  • Puppeteer — для доступа к веб-страницам.
  • Cheerio — для парсинга HTML-кода.
  • Tor — для выполнения каждого запроса с различного IP-адреса.

Надо отметить, что правовые аспекты веб-скрапинга — вопрос непростой и часто неясный. Поэтому уважайте «Условия использования» тех страниц, данные которых вы собираете. Вот хороший материал на эту тему.

Node.js, Tor, Puppeteer и Cheerio: анонимный веб-скрапинг - 1
Читать полностью »

image

IBM PC Model 5150 и атака клонов

Единственным примечательным фактом о продукте, совершившем революцию в бизнесе персональных компьютеров, стало то, что его создала IBM. Если бы любая другая компания той эпохи создала и вывела на рынок IBM Personal Computer Model 5150, то в дальнейшем на него бы оглядывались с уважением, но не как на продукт, изменивший лицо отрасли.

Положение IBM гарантировало, что PC инициирует процесс стандартизации, необходимый для широкомасштабного распространения технологии. То же самое положение гарантировало, что конкуренты получат свободный доступ к техническим спецификациям Model 5150, ведь IBM обязана была раскрывать подобную информацию в соответствии с мировым соглашением Министерства юстиции США 1956 года, условия которого компания соблюдала из-за того, что ранее использовала монополистические приёмы ведения бизнеса.

Третьим фактором важности наследия Model 5150 стали поставки компонентов от независимых изготовителей оборудования. Бизнес IBM был построен на внутренних проектировании и разработке практически всего оборудования и ПО, что максимизировало доходы. Расплатой за это было снижение гибкости на рынке: корпоративные конфликты и конкуренция между подразделениями внутри такой монолитной компании повышали инерцию процессов принятия решений.
Читать полностью »

Индийский инсайдер Ишан Агарвал (Ishan Agarwal), который регулярно снабжает СМИ оперативной инсайдерской информацией, выложил первые официальные рекламные постеры Samsung Galaxy S20 Ultra 5G и Samsung Galaxy Z Flip.

Компания Raijintek представила водоблок Raijintek Samos AD5700 RBW. Он предназначен для видеокарт AMD Radeon RX 5700 XT и RX 5700 референсного дизайна.

Представлен водоблок Raijintek Samos AD5700 RBW

Читать полностью »

Визуализация науки: иллюстрации и инфографика - 1

Где проходит граница между иллюстратором и специалистом по инфографике? Как визуализировать данные? Что говорит наука о различных дизайнерских решениях?

Прежде чем углубиться в рассуждения, я хочу рассказать о контексте. Описанные ниже идеи лежат в основу моего собственного опыта. Отчасти это мои наблюдения за 20 лет работы арт-директором. Это не исчерпывающий обзор литературных источников, не строгий взгляд на сферу научной визуализации. Это размышления, связанные с моей работой, начавшейся в издательской сфере, а также отсылки к некоторым полезным или провокационным источникам и сообществам. В чём-то я наверняка ошибусь, ведь я не специалист во всех поддисциплинах, о которых буду говорить. Но я работаю на пересечении этих поддисциплин, и со временем разработал ряд ресурсов, которые вас могут заинтересовать.
Читать полностью »

Известный техноблогер Зак Нильсон, который ведет на YouTube канал под названием JerryRigEverything, добрался до смартфона Huawei Mate 30 Pro, разобрав его по запчастям.

Мы знаем, что Huawei Mate 30 Pro является одним из самых лучших камерофонов современности. Но сам Зак называет Huawei Mate 30 Pro «лучшим смартфоном, который нельзя купить в США» из-за накаленных отношений между США и Китаем.

Playwright — драматургия от Microsoft и новый инструмент для тестирования - 1

Я десять лет тестирую и пишу код, а последние четыре года — тестирую доклады в программном комитете конференции Heisenbug. Сегодня расскажу о сквозных тестах, кросс-браузерности и ощущениях от использования Playwright версии 0.10.0.

Из конца в конец

Зачем нужны сквозные (end-to-end) тесты? Они управляют браузером и имитируют действия пользователя. Например, я описал пользовательские сценарии и хочу, чтобы они были проверены с каждой версией продукта. Проверять все сценарии для всех версий вручную — дороже и дольше, чем автоматикой.

Есть разные инструменты: Selenium, Puppeteer, Selenoid, Cypress и другие. Две недели назад вышел новый инструмент — Playwright, над которым работал Андрей Лушников, разработчик Puppeteer. Эта библиотека полностью решает проблему написания кросс-браузерных тестов.

Читать полностью »

Неприкосновенность личной жизни? Нет, не слышали - 1

В китайском городском округе Сучжоу (провинция Аньхой) уличные видеокамеры использовались для идентификации людей, носивших «неправильную» одежду. Используя софт для распознавания лиц, чиновники идентифицировали нарушителей и публично стыдили их, выкладывая фотографии и персональные данные в интернете. В департаменте городского управления считали, что таким образом удастся искоренить «нецивилизованные» привычки жителей города. Cloud4Y рассказывает, как всё происходило.Читать полностью »

Статья является кратким обзором о сертификации по программе IBM Data Science Professional Certificate.

Будучи новичком в Python, мне пришлось столкнуться с реализацией задач:

  • Загрузка и парсинг HTML таблиц
  • Очистка загруженных данных
  • Поиск географических координат по адресу объекта
  • Загрузка и обработка GEOJSON
  • Построение интерактивных тепловых карт (heat map)
  • Построение интерактивных фоновых картограмм (choropleth map)
  • Преобразование географических координат между сферической WGS84 и картезианский системой координат UTM
  • Представление пространственных географических объектов в виде гексагональная сетки окружностей
  • Поиск географических объектов, расположенных на определенном расстоянии от точки
  • Привязка географических объектов к полигонам сложной формы на поверхности
  • Описательные статистический анализ
  • Анализ категорийных переменных и визуализация результатов
  • Корреляционный анализ и визуализация результатов
  • Сегментация с использованием k-Mean кластеризации и elbow метода
  • Анализ и визуализация кластеров

Читать полностью »

Несколько дней назад были подтверждены спецификации флэш-памяти UFS 3.1, которая превосходит предыдущую версию по производительности и при этом является более энергоэффективной.

Теперь же было объявлено о том, что первым смартфоном, в котором будет использоваться энергонезависимая память UFS 3.1, окажется iQOO 3 5G. Кроме того, устройство оснащено флагманской платформой Qualcomm Snapdragon 865 и сверхбыстрой оперативной памятью LPDDR5. То есть, по сути, это самый быстрый флагман начала 2020 года.


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js