О том, как мы ворпсиманием теcкт

в 14:54, , рубрики: искусственный интеллект, лингвистика, обработка текстов, метки: ,

Помните, в интернете, году этак в 2003, проходила картинка, в которой сообщалось, что неважно в каком порядке идут буквы в слове, лишь бы первая и последняя были на местах, а остально мозг сам скомпонует и вычленит смысл. Вот оригинальный текст:

По рзелульаттам илссеовадний одонго анлигйсокго унвиертисета, не иеемт занчнеия, в кокам пряокде рсапожолены бкувы в солве. Галвоне, чотбы преавя и пслоендяя бквуы блыи на мсете. Осатьлыне бкувы мгоут селдовтаь в плоонм бсепордяке, все-рвано ткест чтаитсея без побрелм. Пичрионй эгото ялвятеся то, что мы чиатем не кдаужю бкуву по отдльенотси, а все солво цликеом.

В английском варианте это звучало так:

Arocdnicg to rsceearch at Cmabrigde Uinervtisy, it deosn’t mttaer in waht oredr the ltteers in a wrod are, the olny iprmoatnt tihng is taht the frist and lsat ltteer are in the rghit pcale. The rset can be a toatl mses and you can sitll raed it wouthit pobelrm. Tihs is buseace the huamn mnid deos not raed ervey lteter by istlef, but the wrod as a wlohe.

Попытка поэкспериментировать с разными текстами показала, что с русским языком все не так безоблачно, как с английским и алгоритм эффективного и readable-перемешивания все-таки немного другой.

Cсылаются на труды некого Matt Davis, который в свою очередь, отсылает к Rawlinson, G. E. аж 1976 года (summary).

Я не поленился и написал простенькую программу, которая обрабатывает тексты. Откуда выяснил, что не совсем так, как заявлялось, но истина где-то рядом.

Так вот, если менять середину слов совсем произвольно, то получится следующее:

На Оклисмпйиих играх ссяоислтоь жскиене коныандме срнноваовеия по сооипвртнй гмксинатие Зутолою медлаь Игр золвавеаа сранобя США соеабощт оалцьифниый сйат Оалпимиды Втооре мтесо зяални птеьртлиадисцнвеы роскосисйй кдаомны котраоя вриыгала для ннаьиоцонлай сбнроой вротое срербео среребо сонобрй Риосси пнслриеа теактлотжлеяа Свлтнаеа Цавакреуа Брвооунзю нарадгу пиучолли ринскымуе гксаминти.

В принципе, понятно, но стоит взять слова подлиннее, как текст становится плохоузнаваемым:

Влртачеси писунрак в Калокагнсидрним мосрком рынбом потру коротый в эти дни очмател 65-леите. В честь пкардниза порт пдерепнос падорок калидингнацрам и риршазел снобывдой пхород на торритерию. Все жищеюлае смогли посетить Кзерушнретн. Такая возтонжосмь вадепаыт не чатсо. Как праливо посьятдня на борт Кзреуншртена пинусрака мугот гости морнудежадных мирксох праднзиков в инанртосных потрах а желити Каланинргида.

Зато если взять за правило сохранять позиции согласных и гласных букв, свободно меняя между собой отдельно гласные и согласные, то результат получается слегка более читаемым и понятным при том же хаосе:

На Окислийпмих играх сяссоотиль жикнсее кыдоннмае совинроневая по снирповтой гимнастике Зотолую мадель Игр залаовева сборная США сообщеат олиьиацнфый сайт Олампииды Второе метсо заняли пцидвларетеьнситы рискоссйой кадомны которая ваилрыга для наьоонинлцай сронбой второе серербо себерро снорбой России псинелра тотелаеклятжа Стевлана Цавураека Бвонзорую надрагу почулили рунимскые гиснатмки.

и для второго текста

Влрчасети писанрук в Кигидонрнасклам моксром рыбном порту который в эти дни отмачел 65-литее. В четсь пкинзрада порт ппедорнес пародок кагиданнларцим и разширел сдывонбой проход на торриритею. Все жалиещюе сголми писетоть «Кзерушнретн». Такая вотмонзосжь вапедаыт не часто. Как пвиларо пяьсоднтя на борт пикарсуна мугот готси мырдожанундех мирскох пзанрдиков в инантронсых партох а желити Каниларгдина видят мачты «Кзерушнрента» токьло через огдару потра.

Теперь сделаем еще небольшое изменение — добавим максимальное расстояние между переставляемыми символами в 3 символа, чтобы согласная с начала слова не улетала в его конец. Также добавляем учет того, что более одного раза символы переносить нельзя. В итоге выходит текст, из которого уже почти все понятно:

Всртечали пасурник в Калиниргнаксдом мосрком рыбном порту котырой в эти дни отмечал 65-телие. В четсь пзардника прот преподнес подарок киналигнрадцам и рарзешил свободный пхород на тертирорию. Все желюащие сгомли посетить Крунезштерн. Такая возможнотсь выпадеат не чатсо. Как пвирало подняться на борт парусника могут гости междуронандых морских пзардников в инотсранных потрах, а жилтеи Киналигнрдаа видят мачты Кзерутшнерна тоьлко через оргаду порта.

В итоге выходит, что для русского языка не все так безоблачно, как для английского, с его короткими словами. Но если немного поменять алгоритм, общая идея все-таки работает.

Интересно, есть ли возможность внести еще шума в середину слова с сохранением читабельности и понятности?

Автор: raliev

* - обязательные к заполнению поля


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js