Логика сознания. Часть 11. Естественное кодирование зрительной и звуковой информации

2017-02-06 в 13:36, admin, рубрики: Алгоритмы, биология, искусственный интеллект, математика, машинное обучение, нейрон, нейронные сети, параллельное программирование, Программирование, смысл, сознание

Логика сознания. Часть 11. Естественное кодирование зрительной и звуковой информации - 1 В предыдущей части были сформулированы требования к процедуре универсального обобщения. Одно из требований гласило, что результат обобщения должен не просто содержать набор понятий, кроме этого полученные понятия обязаны формировать некое пространство, в котором сохраняются представление о том, как полученные понятия соотносятся между собой.

Если рассматривать понятия как «точечные» объекты, то такую структуру можно отчасти описать матрицей взаимных расстояний и представить в виде взвешенного графа, где вершины — это понятия, а каждому ребру сопоставлено число, соответствующее расстоянию между понятиями, которые это ребро соединяет.

Ситуация несколько усложняется, когда понятия имеют природу множеств (рисунок ниже). Тогда возможны формулировки типа: «понятие C содержит понятия A и B», «понятия A и B различны», «понятия A и B имеют нечто общее». Если положить, что близость определяется в интервале от 0 до 1, то про рисунок слева можно сказать: «близость A и C равна 1, близость B и C равна 1, близость A и B равна 0).

Логика сознания. Часть 11. Естественное кодирование зрительной и звуковой информации - 2

Примеры соотнесения понятий

Систему с более сложной формой отношений можно записать в виде семантического графа, то есть направленного графа, где вершины соответствуют понятиям, а ребра – отношениям между ними.

Вопрос обобщения, связанный с соотнесением понятий, звучит так: можно ли каким-либо естественным образом получить систему соотнесения понятий, которая сохранит основные свойства, например, присущие семантическому графу, и при этом будет удобна в генерации и последующем использовании? Оказывается, в биологии человека есть примеры того, когда подобные задачи решаются достаточно простым и изящным способом. Этот способ еще не является обобщением, но он показывает возможность простого построения пространства, в котором естественным образом возникает структура близости понятий.

Загадка емкости зрительного нерва

Кодирование зрительной информации можно разбить на множество этапов. От первичной картинки, получаемой на сетчатке, до сложного описания зрительных сцен с пониманием того, что и где изображено. В этой части нас будет интересовать первичное кодирование, то есть то, в каком виде информация передается из глаза в мозг.

Логика сознания. Часть 11. Естественное кодирование зрительной и звуковой информации - 3

Глаз и сетчатка (Дэвид Хьюбел «Глаз, мозг, зрение»)

Все начинается с того, что свет фокусируется хрусталиком на внутренней поверхности глаза, образуя там перевернутое изображение. Пройдя через довольно прозрачный слой нейронов и нервных волокон, изображение достигает клеток, реагирующих на свет: палочек и колбочек. Палочки более многочисленны, чем колбочки. Палочки отвечают за чувствительность при слабом освещении. Колбочки не реагируют на слабый свет, они отвечают за восприятие мелких деталей и цветовое зрение при хорошем освещении.

Колбочки и палочки пребывают в постоянной импульсной активности, характер которой зависит от количества попадающего на них света. Эта активность не создает спайков, как у нейронов. Она называется градуальной и проявляется в изменении мембранного потенциала клеток. Сама зависимость несколько парадоксальна – активность ослабевает при увеличении освещенности.

Логика сознания. Часть 11. Естественное кодирование зрительной и звуковой информации - 4

Строение сетчатки (Дэвид Хьюбел «Глаз, мозг, зрение»)

Колбочки и палочки посылают сигналы на горизонтальные и биполярные клетки. Горизонтальные, биполярные и амакриновые клетки подготавливают сигналы таким образом, что ганглиозные клетки начинают реагировать на определенную картину, возникающую на маленьком участке сетчатки, в центре которого они находятся. Активность ганглиозных клеток – это спайки. Аксоны ганглиозных клеток образуют выход глаза, то есть зрительный нерв.

У каждой ганглиозной клетки есть рецептивное поле, которое определяет ее активность. Рецептивное поле имеет форму круга. В нем выделяется центральная область и периферия (рисунок выше).

Наиболее распространенная реакция ганглиозных клеток – это реакция на разницу освещения центра и периферии их рецептивных полей. Исходя из этого принято говорить, что многие ганглиозные клетки реагируют на границы объектов, присутствующих на изображении. При этом выход глаза упрощенно представляют как результат выделения контуров из исходной картинки (рисунок ниже).

Логика сознания. Часть 11. Естественное кодирование зрительной и звуковой информации - 5

Выделение границ на изображении

Сложности начинаются, когда возникает желание понять, как же все-таки зрительный нерв передает зрительную информацию.

В сетчатке взрослого человека насчитывается 6 — 7 миллионов колбочек и порядка 120 миллионов палочек. Потенциально можно было бы говорить о разрешающей способности глаза в сто мегапикселей. Но зрительный нерв одного глаза содержит всего около одного миллиона волокон. То есть, получается, что всего один миллион волокон передает всю ту «красивую» картинку, что мы видим.

Если трактовать сигналы волокон зрительного нерва как информацию об отдельных точках изображения, например, контурного, то получается, что разрешение глаза не превышает один мегапиксель. Причем так как сигналы – это спайки, то есть импульсы одинаковой амплитуды, то эта мегапиксельная картинка оказывается еще и лишенной информации о каких-либо уровнях яркости.

Чуть подробнее про уровни. Вообще-то принято считать, что частота спайков может кодировать аналоговые уровни. Но с этим есть большая сложность. Частота импульсов ганглиозных клеток относительно невелика, в среднем порядка 10 – 30 Гц. Но глаз способен полностью проанализировать изображение за 13 миллисекунд (Potter, M.C., Wyble, B., Hagmann, C.E. et al. Atten Percept Psychophys (2014)). Таким образом получается, что навряд ли на «один кадр» анализируемого глазом изображения приходится более одного импульса. А значит ни о каком кодировании яркости частотой сигналов речи не идет.

Кроме информации о контуре мозг получает информацию и о цвете, и о переходах освещенности, и о тонких линиях на изображении. Соответственно, возникает вопрос – как в одном миллионе волокон, не используя частотное кодирование, удается закодировать все детали зрительной информации? Не остается ничего другого кроме как предположить, что механизм кодирования далек от того, чтобы сигнал одного волокна зрительного нерва описывал состояние одной точки изображения.

Зрительное кодирование

Рецептивные поля соседних ганглиозных клеток сильно перекрываются. При этом центральные области рецептивных полей пересекаются лишь незначительно.

Логика сознания. Часть 11. Естественное кодирование зрительной и звуковой информации - 6

Перекрытие рецептивных полей ганглиозных клеток сетчатки (Дэвид Хьюбел «Глаз, мозг, зрение»)

Ганглиозные клетки остро реагируют на небольшие световые пятна или затемнения, приходящиеся на центр их рецептивного поля (Kuffler, S.W. 1953. /. Neurophysiol. 16: 37-68.). По типу реакции они делятся на два типа: клетки с on-центром и клетки с off-центром. Клетки с on-центром сильнее всего реагируют на световое пятно, совпадающее с центром рецептивного поля, при условии затемнения периферии. Клетки с off-центром реагируют точно также, но только их стимул противоположен стимулу клеток с on-центром, то есть на центр должно приходиться темное пятно, а периферия должна быть освещена.

Оба типа клеток реагируют и на противоположный для себя стимул. Реагируют тем, что сначала на время действия стимула подавляют свою спонтанную активность, а затем при прекращении действия противоположного стимула на некоторое время появляется вызванная активность, которая постепенно доходит до уровня спонтанной активности.

Различают два типа ганглиозных клеток: Мелкоклеточные (parvocellular. Ρ) и крупноклеточные (magnocellular, M) клетки. Более мелкие Ρ клетки чувствительны к мелким деталям и способны различать цвета. Большие по размеру M клетки чувствительны к подвижным объектам и хорошо реагируют на изменение контрастности (Kaplan, E., and Shapley, R. M. 1989. Proc. Natl. Acad. Sci. USA 83: 2755-2757.). Такое деление относится не ко всем, например, у кошек, которые не имеют цветового зрения, принято говорить о другой классификации (Enroth-Cugell, C, and Robson, J. G. 1966. /. Physiol. 187: 517-552.).

Ответ ганглиозных клеток не является статичным. Клетки не просто реагируют на разницу освещения центра и периферии. Их реакция возникает только в тот момент, когда возникает эта разница освещенности. После чего ответ клетки начинает достаточно быстро затухать.

Логика сознания. Часть 11. Естественное кодирование зрительной и звуковой информации - 7

Реакция ганглиозных клеток на различные стимулы. Слева – реакция клетки с on-центром, справа – с off-центром. Продолжительность развертки 2.5 секунды, импульсам соответствуют вертикальные линии. (Дэвид Хьюбел «Глаз, мозг, зрение»)

Такая реакция приводит к тому, что для того, чтобы изображение оставалось видимым, оно должно всегда быть подвижным. Экспериментально показано, что если зафиксировать глаз неподвижно относительно изображения, а для этого достаточно прикрепить источник света прямо на глаз, то достаточно быстро изображение исчезает и становится невидимым (Riggs, L. A., and Ratliff, F. (1952), 'Effects of Counteracting the Normal Movements of the Eye', J. Opt. Soc. Amer., 42, 872-873.) ( Involuntary eye movements during fixation, R. W. Ditchburn and B. L. Ginsborg, J Physiolv.119(1); 1953 Jan 28PMC1393034).

Глаз постоянно находится в движении (рисунок ниже). Движения глаза можно поделить на несколько типов. Минимальное по амплитуде движение – тремор, на изображении он виден как мелкая гребенка. Амплитуда тремора составляет приблизительно половину от расстояния между соседними колбочками. Можно предположить, что в случае резкой границы, присутствующей на изображении, тремор обеспечивает пересечение этой границей чувствительной области колбочек, а значит, делает эту границу видимой для них. Это может быть существенно, если изображение предъявляется кратковременно и эту функцию не успевает выполнить глазной дрейф.

Логика сознания. Часть 11. Естественное кодирование зрительной и звуковой информации - 8

Движения глаза. Размер ячеек соответствует расстоянию между колбочками. Для центральной ямки это соответствует размеру центра рецептивного поля ганглиозной клетки

Быстрые движения глаз – саккады, осуществляют перевод взгляда с одной области изображения на другую. Между большими саккадами скачки глаз продолжаются, но имеют небольшую амплитуду. Такие небольшие скачки называются микросаккадами, на картинке выше они видны как прямые линии. Ранее мы говорили о том, что саккады и микросаккады необходимы для того, чтобы обучить кору инвариантности к смещениям и создать соответствующее пространство контекстов. В интервалах между микросаккадами глаз не остается неподвижен, он совершает плавные дугообразные движения, называемые дрейфом. Именно на дрейф и накладывается тремор, образуя характерную гребенку.

Роль дрейфа очень интересна. Если взять границу объекта или тонкую линию, то дрейф обеспечит ее смещение. В том числе в направлении перпендикулярном этой границе. За счет волнообразной траектории дрейф гарантирует ненулевую составляющую смещения в перпендикулярном направлении для линий и границ любой ориентации. То есть, когда прямая на изображении дрейфует по дуге, на малом масштабе это равносильно возвратно-поступательному движению этой линии в направлении, перпендикулярном ее ориентации. Чтобы было нагляднее я сделал короткое видео.

При таком смещении граница или линия пересекает несколько центров рецептивных полей ганглиозных клеток.

На рисунке ниже показано одно из возможных положений границы по отношению к рецептивному полю ганглиозной клетки. Возникновение такого положения обеспечивает реакцию клетки с on-центром, поскольку ее центр оказывается освещен сильнее чем периферия в среднем. Если границу сместить вправо так, чтобы она пересекла центр поля, то возникнет картина, необходимая для активации клетки с off-центром, средняя освещенность периферии будет выше освещенности центра.

Логика сознания. Часть 11. Естественное кодирование зрительной и звуковой информации - 9

Возможное положение границы на изображении по отношению к рецептивному полю ганглиозной клетки и центру этого поля

Соответственно, смещение границы во время дрейфа создает потенциальные условия для активации тех ганглиозных on и off клеток, рецептивные поля которых она пересекает во время своего смещения.

Однако активироваться могут не все ганглиозные клетки, рецептивные поля которых затрагиваются дрейфом. Некоторые ганглиозные клетки имеют дирекционную чувствительность (direction-selective ganglion cells — DSGC). Для срабатывания таких ганглиозных клеток необходимо, чтобы граница не просто появилась в рецептивном поле клетки, а, чтобы она пришла с определенной стороны, которая является для этой клетки предпочтительной (Barlow HB, Hill RM (1963) Selective sensitivity to direction of motion in ganglion cells of the rabbit’s retina. Science 139: 412-414).

Дирекционная избирательность ганглиозных клеток оказывается очень широкой (Organization and development of direction-selective circuits in the retina, Wei Wei, Marla B. Felleremail, Trends in Neurosciences Volume 34, Issue 12, p638–645, December 2011). Чувствительная к направлению клетка может давать ответ в диапазоне 180 градусов, то есть для половины всех возможных ориентаций границы (рисунок ниже).

Логика сознания. Часть 11. Естественное кодирование зрительной и звуковой информации - 10

Пример диапазона направлений, вызывающих ответ, у дирекционно чувствительной ганглиозной клетки (Organization and development of direction-selective circuits in the retina, Wei Wei, Marla B. Felleremail, Trends in Neurosciences Volume 34, Issue 12, p638–645, December 2011).

Дирекционная чувствительность в сочетании с дрейфом превращают соответствующие ганглиозные клетки в детекторы ориентации границ. Дрейф перемещает по волнообразной траектории границу. Это равносильно поступательному движению границы в направлении, перпендикулярном этой границе. Клетка, для которой это направление попадает в ее рабочий диапазон, создает ответный сигнал.

Мы рассмотрим сейчас несколько упрощенную модель, чтобы показать основную идею. Не будем останавливаться на обратном ходе, который может возникнуть для некоторых сочетаний направлений и формы дуги и роли при этом on и off клеток.

Широкий диапазон чувствительности делает одиночную ганглиозную клетку «плохим» детектором ориентации, но все становится не так плохо если взять сразу несколько таких детекторов. Для примера возьмем упорядоченный набор из 16 детекторов, описывающий различные возможные ориентации границы (рисунок ниже). Пусть каждый детектор реагирует на изображение границы, если ее ориентация попадает в диапазон плюс минус 90 градусов от собственной ориентации детектора. То есть каждый такой детектор будет реагировать на половину от всех возможных направлений.

Логика сознания. Часть 11. Естественное кодирование зрительной и звуковой информации - 11

Набор из 16 детекторов, чувствительных к различным ориентациям границы. Показаны предпочтительные ориентации. Каждый детектор срабатывает в диапазоне от -90 градусов до +90 градусов к предпочитаемому направлению

Если на такой набор детекторов подать изображение границы, то примерно половина из них сработает (будем считать, что срабатывают детекторы, для которых этот образ лежит на границе их чувствительности). В результате мы получим картину активности наподобие той, что показана на рисунке ниже.

Логика сознания. Часть 11. Естественное кодирование зрительной и звуковой информации - 12

Картина срабатывания детекторов ориентации для разных образов

Если записать картину активности в виде бинарного вектора, то получится последовательность, часть которой приведена на рисунке ниже.

Логика сознания. Часть 11. Естественное кодирование зрительной и звуковой информации - 13

Последовательность бинарных кодов, соответствующая последовательности ориентаций

Эта последовательность аналогична коду Грея (F. Gray. Pulse code communication, March 17, 1953 (filed Nov. 1947). U.S. Patent 2,632,058), с той разницей, что в коде Грея при переходе к следующему элементу меняется один бит, а в нашем примере два. Замечательное свойство полученных кодов – это плавность их переходов. Плавность возникает за счет того, что при изменении угла добавляются детекторы, для которых ориентация границы начинает попадать в их диапазон и перестают срабатывать те, для которых ориентация выходит из их диапазона. Это приводит к тому, что при малом изменении угла изменения затрагивают лишь небольшое количество детекторов, большая их часть сохраняет свое состояние. Если разница углов превышает диапазон слежения, то в кодах не остается общих элементов.

Скалярное произведение таких бинарных векторов можно использовать как меру близости между соответствующими им направлениями. Чем ближе угол, тем больше общих единиц, тем выше значение скалярного произведения.

Создадим искусственную сетчатку как прямоугольную сетку «грубых» детекторов. Распределим предпочитаемые направления детекторов случайным образом. Подадим на сетчатку изображение. Возникнет картина активности детекторов (рисунок ниже).

Логика сознания. Часть 11. Естественное кодирование зрительной и звуковой информации - 14

Пример изображения (слева), след активности детекторов (в середине), разложение на понятия (справа) (программа моделирования зрения, Д. Шабанов)

Полученная картина будет повторять общий контур изображения. При этом в каждом месте контура активность детекторов будет не просто воспроизводить форму контура, а будет создавать узор, кодирующий направление границы именно в этом месте.

Сформируем набор понятий, необходимый для описания изображения. Для этого, как мы уже делали ранее, разобьем изображение на области. Для каждой из областей введем набор возможных ориентаций. В итоге, мы получим набор понятий, в котором каждое понятие будет описывать ориентацию границы в определенном месте. На рисунке выше правый фрагмент показывает, как будет выглядеть исходное изображение, описанное в таких понятиях.

Сопоставим каждому понятию бинарный код. Этот код можно получить, собрав с сетчатки узор детекторов, соответствующий той границе, что описывает понятие. Полное изображение можно записать в виде длинного бинарного вектора, размерность которого равна общему числу детекторов. Код каждого понятия имеет такую же размерность. При этом значимыми у такого кода являются только те разряды, которые соответствуют месту понятия на изображении. Место на изображении можно воспринимать, как маску, применяя которую к полному коду изображения можно получить код понятия (рисунок ниже). В результате код каждого понятия будет содержать большое число нулей и относительно небольшое число единиц.

Логика сознания. Часть 11. Естественное кодирование зрительной и звуковой информации - 15

Пример положения (маски) значимых бит понятия в общем длинном коде. Место понятия выделено серым

Соответственно, при таком кодировании граница одной и той же ориентации приобретает разный код в зависимости от ее позиции на изображении. Разным позициям границы неизменной ориентации соответствуют разные понятия. Мы можем выбрать области (маски), формирующие коды понятий, так, чтобы они пересекались между собой (рисунок ниже). Тогда эти понятия будут иметь общие детекторы. Это значит, что если в области пересечения будут общие единицы, то они будут общими для обоих понятий. Это дает очень интересный эффект.

Близкие по смыслу понятия, оказываются похожи по своему бинарному коду. Скалярное произведение кодовых бинарных векторов у таких понятий будет тем больше, чем ближе друг к другу эти понятия. Причем близость понятий при таком подходе учитывается не в двумерном пространстве «координаты на изображении», а в трехмерном пространстве «координаты на изображении — ориентация границы». То есть при определении близости понятий их код автоматически учитывает и их близость на плоскости изображения, и близость их ориентаций.

Логика сознания. Часть 11. Естественное кодирование зрительной и звуковой информации - 16

Пересечение пространственных областей двух понятий и общие для них элементы описания

В сетчатке млекопитающих выделяют до 20 различных типов ганглиозных клеток, отличающихся своей реакцией на локальный контраст, направление и скорость движения, цвет (Wässle H, Peichl L, Boycott BB (1981) Dendritic territories of cat retinal ganglion cells. Nature 292: 344-345) (DeVries SH, Baylor DA (1997) Mosaic arrangement of ganglion cell receptive fields in rabbit retina. J Neurophysiol 78: 2048-2060). Все эти клетки создают равномерное покрытие сетчатки. Соответственно, можно говорить о том, что сетчатка одновременно формирует два десятка описаний, которые передаются в мозг (Rodieck RW (1998) The first steps in seeing. Sinauer, Sunderland MA). В это кодирование включается подробная информация о форме и цвете видимых глазом объектов. При этом сигнал, передаваемый по одному аксонными волокну, несет крайне «неточную» информацию, так как относится к ганглиозной клетке, имеющей широкий диапазон восприятия. Совокупность сигналов, относящихся к одной области, разрешает эту неточность и создает код, который уже достаточно четко описывает, например, угол локального контраста, видимый цвет или информацию о движении объекта.

Сигнал ганглиозных клеток формируется за счет взаимодействия горизонтальных, биполярных и амакриновых клеток сетчатки. Выделяя определенные свойства изображения, они транслируют это в сигналы ганглиозных клеток. При этом можно предположить, что одни и те же ганглиозные клетки могут участвовать сразу в нескольких системах кодирования. В этом случае бинарные коды, относящиеся к разным описаниям, накладываются друг на друга, что при достаточной разрядности и разреженности кодирования не мешает уверенно восстанавливать исходные сигналы. Это может объяснить происхождение спонтанных спайков, наблюдаемых, например, у on и off клеток при отсутствии характерного для них стимула. Эти спонтанные спайки могут быть, например, фрагментом кода, указывающего на яркость или цвет того, что находится сейчас в этой области.

Цветовое зрение основано на том, что на сетчатке случайным образом распределена мозаика из колбочек, различных по своей цветовой чувствительности. Различают колбочки восприимчивые к длинным (L-cone), средним (M-cone) и коротким (S-cone) световым волнам (Kaiser PK, Boynton RM: Human color vision, edn 2. Washington, DC: Optical Society of America; 1996.). Пример распределения цветовых колбочек в центральной ямке глаза показан на рисунке ниже. Центральная ямка обладает наибольшей остротой зрения и состоит практически полностью из колбочек, чувствительных к цвету, но требующих большей освещенности, чем палочки. По этой причине при слабом освещении центральная ямка слепнет.

Логика сознания. Часть 11. Естественное кодирование зрительной и звуковой информации - 17

Распределение цветовых колбочек в центральной ямке глаза (Дэвид Хьюбел «Глаз, мозг, зрение»)

Спектральный состав света — это описание его интенсивности на разных частотах. Освещение какой-либо области сетчатки вызывает ответ расположенных в этой области палочек и колбочек. Характер ответа колбочек зависит от спектральных характеристик падающего света и типа самих колбочек. Сигналы колбочек носят градуальный характер. Совместная обработка сигналов нескольких колбочек с разными цветовыми предпочтениями служит основой для формирования реакции соответствующей им ганглиозной клетки.

Логика сознания. Часть 11. Естественное кодирование зрительной и звуковой информации - 18

Три типа чувствительности колбочек

Сами колбочки делятся всего на три фиксированных типа по своей спектральной чувствительности (рисунок выше). Но за счет сложения сигналов колбочек в разных пропорциях можно получить различные характеристики спектральной чувствительности ганглиозных клеток.

Если источник света монохромный, то чувствительность ганглиозной клетки к цвету может быть описана диапазоном частот света, которые вызывают ответ этой клетки. Если спектр света имеет сложную форму, то, видимо, можно говорить об определенном интегрировании сигнала в диапазоне чувствительности ганглиозной клетки. Как результат можно предположить, что ганглиозные клетки являются детекторами, срабатывающими в определенном, своем для каждой клетки, диапазоне частот и амплитуд условного монохроматического сигнала. Тогда узором активности группы компактно расположенных чувствительных к цвету ганглиозных клеток можно достаточно точно закодировать цвет в том месте сетчатки, где расположены эти клетки. Такой код будет обладать свойствами кодов Грея, то есть близкий по условной частоте цвет будет закодирован близким по своему рисунку узором активности. Такое кодирование особенно интересно тем, что позволяет не просто передавать информацию о цвете, но и формирует представление о цветовой последовательности. Возникает «преемственность» цветовых кодов, мы получаем не просто набор цветов, а радугу в которой цвета идут в знакомом нам порядке.

Таким образом, одни и те же ганглиозные клетки могут кодировать сразу несколько видов описаний: резкие границы, тонкие линии и их концы, градиенты яркости, цвета заливки, цветовые градиенты. Для границ, линий и градиентов код учитывает не только их место на сетчатке, но и угол.

Можно предположить некоторую оптимизацию в передаче таких кодов по зрительному нерву. Например, чтобы не потерять информацию при наложении нескольких достаточно плотных кодов друг на друга, можно передавать их с небольшим временным смещением. Тогда в пределах «одного кадра» одна ганглиозная клетка, потенциально, может сработать несколько раз, что создаст ощущение частотного кодирования.

Описанный механизм позволяет закодировать и передать все детали изображения, но чудес не бывает. За встроенную в код способность сравнивать приходится расплачиваться некоторым увеличением разрядности бинарного вектора. С учетом этого один миллион нервных волокон, идущих из одного глаза — это достаточно мало для передачи «хорошей» реалистичной картинки. Это обходится за счет того, что глаз не передает одинаково четко всю картинку. Для ганглиозных клеток, лежащих на периферии, размер рецептивных полей в десяток раз превышает размеры полей в центральной ямке. За счет этого мы четко видим в достаточно узком поле зрения. Но за счет того, что глаз постоянно совершает быстрые скачкообразные движения – саккады, у нас создается впечатление четкости всей видимой картинки.

Поставьте перед собой ладонь и сфокусируйте зрение на большом пальце (рисунок ниже). Вы обнаружите, что не можете сказать, сколько еще пальцев на той же руке. Аналогично если вы посмотрите на любое слово на мониторе и зафиксируете взгляд на его первой букве, то уже четвертая от нее буква будет неразличима.

Логика сознания. Часть 11. Естественное кодирование зрительной и звуковой информации - 19

Подсчет количества пальцев

Звуковое кодирование

Аналогично зрительной информации может кодироваться и аудиальная информация. Схема уха показана на рисунке ниже. Звуковая волна вызывает колебания барабанной перепонки, которые через систему косточек среднего уха поступают во внутреннее ухо, в частности, в улитку.

Логика сознания. Часть 11. Естественное кодирование зрительной и звуковой информации - 20

Схема уха

Улитка имеет три спиральных канала, заполненных жидкостью (рисунок ниже). В среднем канале расположен кортиев орган.

Логика сознания. Часть 11. Естественное кодирование зрительной и звуковой информации - 21

Схема улитка

Его хорошо видно на поперечном срезе (рисунок ниже).

Логика сознания. Часть 11. Естественное кодирование зрительной и звуковой информации - 22

Сенсорами кортиева органа выступают волосковые клетки. Их волоски устилают поверхность кортиевого органа. Колебания жидкости вызывают колебания волосков. Интенсивность этих колебаний создает исходные сигналы, которые далее преобразуются в нервные импульсы, которые передаются дальше сначала через слуховой нерв, а затем через слуховую часть преддверно-улиткового нерва.

Для слуха сенсорные клетки кортиева органа выступают аналогом колбочек и палочек зрительной сетчатки.

Звуковая волна вызывает бегущую волну в кортиевом органе, которая начинается с небольшой амплитуды у овального окна, достигает максимума в определенном, зависящем от частоты звука месте (рисунок ниже), и исчезает у геликотермы (Bekesy G. Experiments in hearing. New York etc.: Mc. Grow-Hill Book Co., 1960).

Логика сознания. Часть 11. Естественное кодирование зрительной и звуковой информации - 23

Зависимость положения в кортиевом органе места с максимальной амплитудой от частоты (Eberhard Zwicker, Das Ohr als Nachrichtenempfanger, 1967)

При длине кортиева органа в 28 мм примерная ширина максимума составляет 4 мм (Eberhard Zwicker, Das Ohr als Nachrichtenempfanger, 1967). То есть волоски-механорецепторы срабатывают в достаточно широком диапазоне частот.

По интенсивности срабатывания волосков в определенном месте спирали улитки можно судить об амплитуде сигнала на этой частоте.

Трудно сказать определенно, но возможно, что форма каналов и взаимное расположение волосков позволяют судить не только об амплитуде, но и о фазе звукового сигнала на каждой из частот.

Активность волосков кортиевого органа содержит всю информацию, которая необходима для представления исходного звукового сигнала в виде его частотно-спектрального разложения.

Чтобы сигналы волосков давали не мгновенное значение своего изгиба, а отражали более общие характеристики сигнала необходимо определенное временное интегрирование. В результате получается достаточно точная аналогия с оконным преобразованием Фурье.

На небольшом временном интервале, соответствующем временному окну, звуковую информацию можно записать как набор триплетов (частота, амплитуда, фаза). Этот набор является коэффициентами Фурье разложения и позволяет восстановить исходный сигнал.

Теперь, если ввести достаточный набор «широких» детекторов, срабатывающих в определенных диапазонах частот, амплитуд и фаз, то активностью таких детекторов можно достаточно точно передать информацию об исходном спектре сигнала.

Такая процедура позволяет представить результат единичного измерения спектра сигнала в виде бинарного вектора, который обладает описанными выше свойствами кодов Грея. То есть звуковые срезы «похожие» по своему спектральному портрету будут «похожи» и по своему бинарному коду. Причем аналогично со зрением в этот код изначально будет заложено представление об амплитудной, фазовой и частотной последовательности звуков.

От «мгновенного» описания спектра несложно перейти к бинарному описанию временного интервала любой длины. Для этого надо увеличить количество «широких» детекторов и ввести еще один параметр – время.

Для отсчета времени потребуется кольцевой идентификатор, который будет возвращаться к исходному состоянию через определенный временной интервал. Этот интервал и будет определять максимальную «длительность записи».

В новом векторе каждый бит, соответствующий своему «широкому» детектору, будет срабатывать в некоторой окрестности точки, задаваемой указанием сочетания (частота, амплитуда, фаза, время). Общий принцип останется прежним. Отдельный бит будет говорить о неком диапазоне значений, но совокупность битов будет давать код, достаточно точно описывающий само значение.

Такое кодирование не сильно отличается от кодирования изображений. Временная развертка спектра создает картинку, где амплитуда соответствует яркости. Правда, еще добавляется «невидимая» на картинке фаза.

Если изобразить спектральную картину звука, выполнить описанное кодирование, а затем из него восстановить звучание и посмотреть его картину, то эти картины ожидаемо будут похожими (рисунок ниже).

Логика сознания. Часть 11. Естественное кодирование зрительной и звуковой информации - 24

Картина исходного звука (сверху), картина восстановленного после бинарного кодирования звука (снизу) (Дмитрий Кашицин)

Ниже звучание двух звуковых фрагментов. Один – это исходный звук, другой – его восстановление после описанного кодирования.
Исходный звук.
Восстановленный звук.

Кодирование звука «в лоб» через детекторы (частота, амплитуда, фаза, время) приведено для примера. Эволюция неизбежно провела оптимизацию и нашла оптимальное для звука представление. Зрительная информация кодируется глазом не описанием яркости отдельных областей, а кодами границ с их направлением, градиентов с направлением и степенью самого градиента, кодами тонких линий с их направлением и тому подобным. То есть, теми элементами, которые наиболее показательны для реальных картинок и создают оптимальный базис для описания. Наверняка, что-то подобное присуще и уху. Хитрая форма каналов улитки и кортиева органа позволяет предположить, что волоски-детекторы реагируют не только на частоты, амплитуды и фазы, но и на более сложные составляющие звукового сигнала. Например, на спектральную составляющую определенной частотной ширины идущую в восходящем или нисходящем направлении по частоте, звучащую с повышением или понижением громкости.

Самое интересное, что кодирование таких сложных вещей оказывается не особо сложно. Достаточно создать детекторы, срабатывающие каждый в определенном диапазоне параметров, все остальное возникнет само. Причем получившийся код будет обладать свойствами кодов Грея во «всех направлениям» изменения сигнала. Будет преемственность кода в направлении частоты, амплитуды, фазы, времени.

Особенности кодирования

Описанный механизм получения бинарных кодов из изображения и звука позволяет создавать бинарное описание исходной информации, точность которого определяется «шириной зазора» между «широкими» детекторами. Именно она задает погрешность полученного описания.

Такое кодирование оказывается очень удобно для сравнения между собой разных описаний. В самом описании оказывается зашифрована вся необходимая информация о близости похожих объектов.

Ранее мы уже говорили о сложности, с которой сталкиваются сверточные сети, когда пытаются сопоставить два слишком четких изображения. Малейшее смещение приводит к тому, что совпадение оказывается нулевым (рисунок ниже (слева)). Чтобы побороть это используется размывание обоих изображений, тогда небольшое смещение уже не оказывается столь критичным (рисунок ниже (справа)).

Размывание, по сути, задает для каждой точки параметры расчета ее близости к другим точкам. Пересекаются размывания – есть близость, не пересекаются – нет. Радиусом размывания можно регулировать расстояние, на которое распространяется представление о близости.

Логика сознания. Часть 11. Естественное кодирование зрительной и звуковой информации - 25

Единичное смещение приводит к полному отсутствию совпадения (слева). Аналогичная ситуация после размытия дает существенное совпадения (справа) (Fukushima K., 2013)

Простое размывание изображения размывает сразу все: и положение, и углы, и градиенты, и цвета – все становится менее резким. Описанное бинарное кодирование позволяет «размывать» каждый из параметров отдельно от других, тем самым значительно повышая осмысленность сравнения.

Связь с обобщением

На примере сетчатки и кортиевого органа хотелось показать, что существуют механизмы, которые позволяют перевести любой зрительный или звуковой образ в пространство бинарных кодов такое, что при этом не только сохраняется информация об исходном образе, но и в сам код закладывается представление о структуре близости элементов исходного описания. В таких бинарных кодах есть все, что требуется для сравнения образов, учитывающего степень близости элементов описания.

Получившееся кодирование оказывается многомерным и учитывает степень близости элементов описания по разным измерениям.

Если для исходного описания ввести отдельные понятия, то несложно получить бинарные коды этих понятий. При этом окажется, что семантический граф, учитывающий и близость этих понятий, и иерархию их взаимного вхождения, полностью определяется полученной системой бинарных кодов. То есть при манипуляции такими понятиями не потребуется отдельно хранить или передавать систему семантических отношений – все что необходимо уже есть в самих кодах.

Когда шел разговор об обобщениях, мы говорили, что хотелось бы иметь систему обобщенных понятий не просто как набор самостоятельных элементов, а как систему, учитывающую все взаимоотношения этих обобщений. Далее будет показано, что идеи описанного в этой части кодирования можно использовать и в механизме универсального обобщения.

О разработчиках

Моделирование сетчатки выполнено Дмитрием Шабановым, как часть проекта по моделированию системы зрительного восприятия. Моделирование звукового кодирования выполнено Дмитрием Кашициным.

Алексей Редозубов

Логика сознания. Часть 1. Волны в клеточном автомате
Логика сознания. Часть 2. Дендритные волны
Логика сознания. Часть 3. Голографическая память в клеточном автомате
Логика сознания. Часть 4. Секрет памяти мозга
Логика сознания. Часть 5. Смысловой подход к анализу информации
Логика сознания. Часть 6. Кора мозга как пространство вычисления смыслов
Логика сознания. Часть 7. Самоорганизация пространства контекстов
Логика сознания. Пояснение «на пальцах»
Логика сознания. Часть 8. Пространственные карты коры мозга
Логика сознания. Часть 9. Искусственные нейронные сети и миниколонки реальной коры
Логика сознания. Часть 10. Задача обобщения
Логика сознания. Часть 11. Естественное кодирование зрительной и звуковой информации