Три года назад здесь уже обсуждали платье, которое разделило интернет. На днях обнаружилась похожая, ещё более интересная и сложнее объяснимая иллюзия. Какое имя вы слышите на этой аудиозаписи: «Йенни» или «Лорел»?
Как выяснилось, результаты не только различаются от человека к человеку, но даже для одного человека могут зависеть от используемого аудиооборудования. Всю неделю лингвисты спорят о причинах иллюзии, пристально разглядывая спектрограмму этого двухсекундного фрагмента. Вот она:

Для тех, кто видит спектрограмму звука впервые: по горизонтальной оси отложено время, по вертикальной — частоты, яркость точки соответствует амплитуде, с которой вибрирует «воображаемый камертон» соответствующей частоты в соответствующий момент времени. На спектрограмме речи всегда видны "форманты" — тёмные горизонтальные линии, извилистые и прерывистые; каждая форманта соответствует одной из резонансных частот речевого аппарата, а их вертикальные колебания — соответственно, изменениям этих резонансных частот в процессе речи.
Как объясняет Сюзи Стайлс, на участке низких частот до 5 КГц в человеческой речи присутствуют три форманты, которых обычно достаточно для разпознавания произносимых звуков. Эти три форманты соответствуют вертикальному (F1) и горизонтальному (F2) положению языка, и положению губ (F3). Сюзи даёт ссылку на ролик Общества Макса Планка, где диктор, находящийся в МРТ-камере, произносит по очереди все гласные и все согласные, так что за положением его органов речи при произношении каждого звука можно следить непосредственно.
И вот с выделением формант, по словам Сюзи, возникают проблемы: тёмные участки на спектрограмме yanni/laurel образуют рисунок из более чем трёх полос, которые разветвляются и пересекаются:

В частности, нижняя полоса (F1) может распознаться либо «горбом вверх», либо «горбом вниз»:

Первая линия соответствует последовательности гласных «высокий — низкий — высокий», т.е. [jæ-ɪ-]; вторая — «низкий — высокий — средний», т.е. [a-o-ə-]. (На рисунке Сюзи очевидная ошибка: [u] — высокий гласный, и не может быть в конце второй последовательности.) По F2 видно, что последовательность гласных должна быть «передний — средний — передний», т.е. опять же [jæ-ɪ-]. Но если аудиосистема слушателя подавляет частоты между 2 и 3 КГц, то слушатель «домысливает» F2 на основании F1, и получает последовательность гласных «задний-средний», т.е. [-o-ə-]:

Сюзи подводит итог своего анализа: вместо трёх ясных формант мы видим путаницу из тёмных пятен, которую можно расшифровать одним из двух способов:

Немного другой анализ приводит Кэролин МакГеттиган. Когда стало известно, что «двусмысленный звук» не сконструирован коварными лингвистами для издевательства над нормальными людьми, а взят с сайта онлайн-словаря, пропущен через не очень качественные колонки, и записан не очень качественным микрофоном, — то Кэролин сравнила спектрограммы исходного звука с сайта, и получившегося «звука-иллюзии»:
В первом звуке F1 и F2 видны чётко, но очень близки; во втором, кроме добавления слабого шума, F1 и F2 слились в одну форманту, а исходная F3 стала восприниматься как F2. Кэролин отмечает, что «горб вниз» в F3 — это отличительная черта английского звука [ɹ]; а в получившемся звуке он вместо этого стал восприниматься как «горб вниз» в F2, т.е. как последовательность гласных «передний — средний — передний» — пресловутая [jæ-ɪ-].
Кроме этих двух объяснений иллюзии, лингвисты предложили ещё несколько. Бенджамин Муссон обратил внимание, что на высоких частотах (5-9, 9-13, 13-17 КГц) содержатся более слабые повторы F1-F3:

В человеческой речи таких «повторяющихся формант» не бывает, так что Бенджамин обвиняет в иллюзии именно их. (Вероятнее всего, это артефакт аудиосжатия, использованного для «двусмысленного звука».)
NY Times — обсуждение иллюзии дошло даже дотуда! — тоже обвиняет в иллюзии усиление высоких частот, произошедшее при перезаписи:

Более того, в своей заметке они реализовали «интерактивную иллюзию» — частотный фильтр, настройку которого можно плавно менять ползунком, чтобы любой мог убедиться: если усиливать низкие частоты и подавлять высокие — то звук превращается в Laurel, если наоборот — то в Yanny.
Пользуясь поводом, упомяну здесь ещё и мою собственную акустико-фонетическую интерактивную штуку, написанную на коленке под вдохновением давнишнего квеста от Meklon'а. (Я ни разу не фронтендер, и охотно приму PR с более дружественным UI.) Эта интерактивная штука позволяет рисовать по спектрограмме и прямо в реальном времени слушать, какой получается звук; в частности, можно взять существующий звук и попытаться обвести его форманты, или дорисовать новые, или выборочно стереть какой-нибудь диапазон частот.
Автор: tyomitch