Архив октября 2023 - 47

Минцифрова гора, суверенная мышь и 0,0037%-ное импортозамещение - 1

Процесс обилечивания российских сайтов суверенными TLS-сертификатами идет в лучших традициях плановой экономики: бодрые рапорты с дутыми цифрами.
Читать полностью »

Извлечение текста из файлов PDF при помощи Python - 1

▍ Введение

В эпоху больших языковых моделей (Large Language Model, LLM) и постоянно расширяющейся сферы их применений непрерывно растёт и важность текстовых данных.

Существует множество типов документов, содержащих подобные виды неструктурированной информации, от веб-статей и постов в блогах до рукописных писем и стихов. Однако существенная часть этих данных хранится и передаётся в формате PDF. В частности, выяснилось, что за каждый год в Outlook открывают более двух миллиардов PDF, а в Google Drive и электронной почте ежедневно сохраняют 73 миллионов новых файлов PDF (2).

Поэтому разработка более систематического способа обработки этих документов и извлечения из них информации позволит нам автоматизировать процесс и лучше понять этот обширный объём текстовых данных. И в выполнении этой задачи, разумеется, нашим лучшим другом будет Python.
Читать полностью »

Испытания 5 отечественных автомобильных аккумуляторов в корпусе D23. Часть 1: лечим разбалансировку - 1


Привет! Вы думали, что в новых аккумуляторных батареях не бывает разбалансировки? — Бывает, причем у большинства. И это не признак брака или подделки, а особенность технологии, которую необходимо учитывать.
Читать полностью »

в 7:30, , рубрики: Без рубрики

Работаю я в бюрократизированной конторе с плохими процессами. Текучка тут достаточно большая. Люди приходят и уходят. Менеджмент на уровне дна. В какой-то момент в команду докинули нового разработчика (с неясными целями и задачами). Ну вроде парень умный, вроде что-то делает, вроде не просто так.

Читать полностью »

в 7:05, , рубрики: Без рубрики

в 6:50, , рубрики: Без рубрики
Случилось вот что: вышел большой отчёт про возможности GPT-4V. Внезапно оказалось, что LLM могут обращаться с картинками так же, как с текстовыми промптами, и никакой особой разницы нет. Что та фигня, что эта фигня, главное — научиться распознавать, дальше те же логические связки. Это давно ожидалось, потому что люди в основном смотрят, и большая часть информации приходит через глаза. Но мало кто ждал, что это так круто получится вот уже сейчас и с LLM.

Отчёт вот. Теперь давайте смотреть, а не читать.

Чат GPT-4V, который видит — что он умеет - 1
Хорошие мультимодальные способности, чётко считывает указатели, хорошее общее понимание ситуации

Если вы пьяны, он пересчитает пиво и сверит с чеком:

Чат GPT-4V, который видит — что он умеет - 2

Собственно, важное:

  • Хорошо понимает что за сцена изображена и какие взаимосвязи между объектами на ней.
  • Читает текст, ориентируется на местности, опознаёт конкретных людей
  • Умеет в абстракции и обратно
  • Отлично ищет то, чего не должно быть (отклонения от базовой идеи) — дефекты на деталях, дефекты в людях (в особенности на рентгене) и так далее.
  • Плохо считает.

Давайте к деталям.
Читать полностью »

Есть много причин почему доступ научным статьям и книгам должен быть свободным:

  • Это прекрасно.

  • Знания меняют реальность в лучшую сторону. Вы хотите лечиться у врачей, которые в курсе последних достижений медицины? Летать на безопасных самолетах? Жить в стране, чье сельское хозяйство продуктивно и способно накормить голодные рты? Знать, как воспитывать следующее поколение так, чтобы не было мучительно больно смотреть новости?

  • Читать полностью »

Дипфейк Тома Хэнкса использовали для рекламы стоматологических услуг без разрешения актера, о чем пишет Engadget. В воскресенье Хэнкс поделился сообщением в социальных сетях , предупредив своих подписчиков о видео, созданном ИИ, к которому, по его словам, он «не имеет никакого отношения». При этом реклама показала значительно более молодого Хэнкса.

Вместе со смартфоном Galaxy S23 FE компания Samsung сегодня представила и пару «фанатских» планшетов – Galaxy Tab S9 Fan Edition и Galaxy Tab S9 Fan Edition Plus. Оба устройства предлагаются как в версии с Wi-Fi, так и со встроенным модемом 5G. Также из общего: SoC Exynos 1380, наличие защиты IP68 и поддержка фирменного стилуса S Pen, защищенного от пыли и воды.


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js