Решила повторить исследование, сделанное в 2017 году и посмотреть, что изменилось за 5 лет. Ссылка на предыдущую статью Анализ статей Хабрахабр и Geektimes. Дизайн сайта изменился, поэтому делала все в jupyter python, а не wolfram mathematica. Далеко не все графики удалось воспроизвести заново. Получился анализ более чем 260000 статей.
Рубрика «поиск закономерностей»
Анализ статей Хабрахабр
2021-10-09 в 15:53, admin, рубрики: Алгоритмы, визуализация, визуализация данных, обработка данных, парсинг, поиск закономерностей, Программирование, статистика, хабрахабрКакой следующий член…? — Ищем формулу для n-го члена последовательности, производящие функции и Z-преобразование
2019-11-13 в 15:51, admin, рубрики: Z-преобразование, Алгоритмы, Блог компании Wolfram Research, Занимательные задачки, математика, поиск закономерностей, последовательность, Программирование, производящая функция, разностные уравнения, рекуррентные уравнения, числовая последовательностьСкачать файл с кодом и данные можно в оригинале поста в моем блоге
В языке Wolfram Language есть четыре совершенно потрясающие функции: FindSequenceFunction
, RSolve
, DifferenceRootReduce
и FindFormula
. В этой статье мы обсудим их возможности и поговорим о функциях, тесно с ними связанных — для поиска параметров линейной рекурсии FindLinearRecurrence
(коэффициентов линейного рекуррентного уравнения), производящих функциях GeneratingFunction
и Z-преобразовании ZTransform
.
Первая функция — FindSequenceFunction — по последовательности чисел ищет выражение для её n-го члена не требуя вообще ничего более.
Hold @ FindSequenceFunction[{1, 1, 2, 3, 5, 8, 13}, n]
FindSequenceFunction[
{-2, 4Sqrt[Pi],
-16, 16Sqrt[Pi],
-128/3, 32Sqrt[Pi],
-1024/15, 128Sqrt[Pi]/3,
-8192/105, 128Sqrt[Pi]/3},
n]
Треугольник Паскаля vs цепочек типа «000…-111…» в бинарных рядах и нейронных сетях
2019-09-09 в 13:23, admin, рубрики: ata analysis, big data, binary Lyndon words, binomial coefficient, Binomial Theorem, boolean, data mining, machine learning, neural network, Pascal's Triangle, rules-based, tests of randomness, Алгоритмы, анализ данных, белый шум, бинарная последовательность, биномиальный коэффициент, вероятность ошибки, ГСПЧ, кластеризация данных, марковский процесс, математика, нейрон, нейронная сеть, открытые данные, ошибки первого и второго рода, Перцептрон, поиск закономерностей, последовательность, проверка гипотезы, распределение вероятностей, синапс, слова Линдона, случайный процесс, статистика, теорема Эрдёша-Реньи, треугольник Паскаля, фрактальные свойства, экспертные системыСерия «Белый шум рисует черный квадрат»
История цикла этих публикаций начинается с того, что в книге Г.Секей «Парадоксы в теории вероятностей и математической статистике» (стр.43), было обнаружено следующее утверждение:
Рис. 1.
По анализу комментарий к первым публикациям (часть 1, часть 2) и последующими рассуждениями созрела идея представить эту теорему в более наглядном виде.
Большинству из участников сообщества знаком треугольник Паскаля, как следствие биноминального распределения вероятностей и многие сопутствующие законы. Для понимания механизма образования треугольника Паскаля развернем его детальнее, с развертыванием потоков его образования. В треугольнике Паскаля узлы формируются по соотношению 0 и 1, рисунок ниже.
Рис. 2.
Для понимания теоремы Эрдёша-Реньи составим аналогичную модель, но узлы будут формироваться из значений, в которых присутствуют наибольшие цепочки, состоящие последовательно из одинаковых значений. Кластеризации будет проводиться по следующему правилу: цепочки 01/10, к кластеру «1»; цепочки 00/11, к кластеру «2»; цепочки 000/111, к кластеру «3» и т.д. При этом разобьём пирамиду на две симметричные составляющие рисунок 3.
Рис. 3.
Первое что бросается в глаза это то, что все перемещения происходят из более низкого кластера в более высокий и наоборот быть не может. Это естественно, так как если цепочка размера j сложилась, то она уже не может исчезнуть.
Читать полностью »
Фундаментальные ограничения машинного обучения
2017-09-07 в 9:38, admin, рубрики: глубинное обучение, искусственный интеллект, машинное обучение, мозг, нейросети, обучение, поиск закономерностей
Недавно моя тётя разослала своим коллегам емейлы с темой «задачка по математике! Какой правильный ответ?» В письме была обманчиво простая головоломка:
1 + 4 = 5
2 + 5 = 12
3 + 6 = 21
8 + 11 =?
Для неё решение был очевидным. Но её коллеги решили, что правильным было их решение – не совпавшее с её решением. Проблема была с одним из их ответов, или с самой головоломкой?
Моя тётя и её коллеги наткнулись на фундаментальную проблему машинного обучения, дисциплины, изучающей обучающиеся компьютеры. Практически всё обучение, которое мы ждём от компьютеров – и которым занимаемся сами – состоит в сокращении информации до основных закономерностей, на основании которых можно делать выводы о чём-то неизвестном. И её загадка была такой же.
Читать полностью »
Анализ статей Хабрахабр и Geektimes
2017-02-05 в 19:18, admin, рубрики: wolfram language, wolfram mathematica, Алгоритмы, визуализация, визуализация данных, обработка данных, парсинг, поиск закономерностей, Программирование, статистика, хабрахабр
Сначала была идея собрать частотный словарь слов Хабрахабр и Geektimes, но потом нашла прекрасное: Детальный анализ Хабрахабра с помощью языка Wolfram Language (Mathematica) (перед просмотром данной статьи рекомендую пройти по ссылке), увидела разницу в результатах и решила сделать подобное для статей с Хабрахабр и Geektimes. В обзор не попали статьи с подкастами и нестандартным оформлением (habrahabr.ru/article). Получился анализ 170000 статей. Все изображения кликабельны. Код Wolfram Notebook на github. Датасет на Яндекс.Диске.
Читать полностью »