Рубрика «комментарии»

image

У нас есть система регистрации простоев оборудования. В ней рабочему нужно ввести комментарий о причине простоя вручную. А нам потом надо собирать статистику по этим данным для анализа, как работал цех и что приводило к простоям.

Рабочие вводят причины простоя разными словами, от души. «Шланг порвался», «они не успевают дать продукцию», «безобразно обрезана кромка» — это ещё цветочки. Одно только слово «железнодорожный» можно написать десятками способов — жд, Жд, ЖД, ж/д, жд, ж /д, ж д, Ж д, ЖД!!! — и так далее. С вывернутыми слешами, двойными пробелами и другими творческими формулировками.

В базе 13 миллионов записей, из них 700 тысяч уникальных, из которых остаётся примерно 500 тысяч после нормализации по регистру, слешам, пробелам и т. п. А нам нужно как-то разобраться, что не так и с кем.

Если вы сейчас думаете про ML, LLM и прочие модные слова, я вас огорчу. Оказалось, что есть простой кондовый способ, если применить немного ТРИЗа. В итоге получилось, что мы умудрились и рабочим сделать намного удобнее (что вообще-то редкость в реалиях производства), и дико помочь аналитикам. Читать полностью »

Не статья, а позорище какое-то! Sentiment-анализ комментариев из блога Selectel на Хабре - 1

Каждый месяц в блоге Selectel на Хабре появляется 35-40 публикаций. Сбор статистики по ним мы давно автоматизировали, но до последнего времени не охватывали sentiment-анализ, то есть оценку тональности комментариев средствами машинного обучения.

У нас есть своя ML-платформа, серверное железо и опыт в развертывании IT-инфраструктуры. Вполне логично, что в какой-то момент возник вопрос: что, если проанализировать эмоциональный окрас комментариев в блоге на Хабре с помощью LLM?

Под катом рассказываем, что из этого получилось.Читать полностью »

Привет. Я здесь писал еще не очень много, но успел попробовать несколько форматов статей. Здесь были интервью с некоторыми IT специалистами из компании в которой я работаю, переводы, гайды… Что-то зашло, что-то нет. И вот, сегодня я решил попробовать новый для себя формат.

Лучшие комменты в исходном коде - 1

Читать полностью »

Тысячи забытых TODO в коде Kubernetes - 1
Фото Yancy Min на Unsplash

Kubernetes — большой проект. Не только потому, что очень востребован, но и с точки зрения исходного кода. На момент написания этой статьи насчитывалось более 86 000 коммитов, более 2000 участников, более 2000 открытых тикетов, более 1000 открытых пул-реквестов и 62 800 звёзд в репозитории на GitHub.

Утилита scc насчитала более 4,3 млн строк кода на Go (всего более 5,2 млн строк), из них более 3 млн строк реального кода и более 700 тыс. строк с комментариями, в общей сложности более 16 000 файлов, включая директорию vendor/.
Читать полностью »

На «Пикабу» появилась новая функция: посты-ответы — фича для тех, кому «постом навеяло» написать собственную статью. Это отличная функция, важность которой выходит далеко за пределы «Пикабу» и касается состояния всего современного интернета.

Пост-ответ — это цифровая реинкарнация жанра публицистической дискуссии. Традиционно этот жанр считался «газетным», но, на самом деле, он гораздо старше как масс-медиа (переписка Ивана Грозного и Андрея Курбского), так и печати как таковой.

В печатной прессе этот жанр расцвёл: ярчайшие примеры подобных публичных дискуссий внесли в историю публицистики вклад не меньший, чем лучшие соло-публикации — если не больший. Люди до сих пор помнят о полемике Герцена с Чернышевским — даже если не читали ни одной из их публикаций. Наверное, потому, что любая яркая статья была обречена перерасти в дискуссию. Тогда как статьи, не способные вызвать обсуждение, оказались забыты.

С диджитализацией коммуникации печатная пресса начала угасать — а с ней сходить на нет и формат публицистической дискуссии.

При этом в онлайне возник другой, совершенно новый, ранее не существовавший жанр: жанр комментария. Ответить на публикацию разными способами можно было и раньше. Но никогда — таким образом, чтобы вся её аудитория имела возможность увидеть этот ответ в том же месте.
Читать полностью »

Привет!

Часто ли вы видите токсичные комментарии в соцсетях? Наверное, это зависит от контента, за которым наблюдаешь. Предлагаю немного поэкспериментировать на эту тему и научить нейросеть определять хейтерские комментарии.

Итак, наша глобальная цель — определить является ли комментарий агрессивным, то есть имеем дело с бинарной классификацией. Мы напишем простую нейросеть, обучим ее на датасете комментариев из разных соцсетей, а потом сделаем простой анализ с визуализацией.

Для работы я буду использовать Google Colab. Этот сервис позволяет запускать Jupyter Notebook'и, имея доступ к GPU (NVidia Tesla K80) бесплатно, что ускорит обучение. Мне понадобится backend TensorFlow, дефолтная версия в Colab 1.15.0, поэтому просто обновим до 2.0.0.

Импортируем модуль и обновляем.

Читать полностью »

4 ноября ВКонтакте советует отказаться от оскорблений в комментариях - 1

Социальная сеть ВКонтакте объявила, что проведет в День народного единства 4 ноября 2019 года эксперимент по снижению агрессивности пользователей в комментариях.

Данный проект уже запущен, специальная система, используя определенные алгоритмы, автоматически определяет, есть ли в тексте комментария признаки оскорблений. При их наличии пользователю дается совет не тратить время на агрессию и отказаться от обидной реплики. Эксперимент продлится один день — по его результатам команда VK оценит, насколько эффективно подобная механика снижает количество негатива в комментариях.
Читать полностью »

Замена Disqus на Commento снизила размер страниц в 10 раз

Почему я отказался от Disqus и вам тоже пора - 1

Когда я завёл блог, то установил Disqus для комментариев. Это был естественный выбор: сайты по всему интернету ставили Disqus, его легко настроить, и есть бесплатный вариант использования. Я спокойно интегрировал движок комментариев и двинулся дальше.

Но вот в чём дело: я всегда знал, что Disqus немного раздувает страницы. Я ведь писал о веб-производительности и обычно старался оптимизировать страницы. Но я просто предположил, что Disqus прибавляет немного лишних килобайт. Логика: если он сильно раздувает страницы, все бы уже давно отказались от него. Очевидно, Disqus старается не увеличивать трафик, верно?

Я ошибался.Читать полностью »

YouTube закрывает комментарии на видео с маленькими детьми - 1

YouTube объявил о введении новых правил, по которым у видеозаписей с маленькими детьми автоматически отключается раздел комментариев. Это делается «для лучшей защиты детей и семей».

YouTube и раньше отключал комментарии у видеороликов, которые привлекали извращенцев, но теперь это будет делается по умолчанию для всех каналов. Изменения вступят в силу в течение нескольких месяцев, но авторы некоторых каналов жалуются, что у них комментарии уже принудительно отключили, хотя педофилы там ни разу не появлялись. Ведущие говорят, что если вручную включат комментарии обратно, то YouTube может вообще удалить их каналы.
Читать полностью »

Знакомство с телеграм-ботами вышло сумбурно — на работе нужно было опередить команду коллег, и, неплохо зная внутренний API, был написан бот за несколько дней (впоследствии доработанный и получивший ru telegram verify badge)

По итогам было написано два бота (основной и рассылочный), на чем руководство успокоилось, а я занялся самиздатом.

В очередной раз поигравшись в прототип, я хотел придумать, что ещё интересного можно быстро написать в телеграм-стеке. Выбор пал на комментарии.

Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js