Книга о «Параграфе» на Хабре. Глава о хренятинах, распознавании и высадке в Америке

в 6:44, , рубрики: девяностые, искусственный интеллект, история успеха, Пачиков, Развитие стартапа, распознавание текста, управление проектами

Продолжаю делиться с вами главами книги о «Параграфе» — первом стартапе из России, покорившем мир.

После предыдущей публикации на «Хабре» прошло порядочно времени — почти два месяца. Тут я видимо должен извиниться. В качестве оправдания скажу, что для меня главное — работа над книгой. Публикация — пока что второстепенна. Выкладываю, только когда остается время после работы над рукописью.

За эти два месяца я написал еще пару глав, увеличив объем черновика до 230 тысяч знаков (из целевых 400 тысяч). Кроме того, за это время произошло еще одно важное событие: у книги появилось финальное название: «Пионеры Кремниевой долины».

Но — к делу.

Сегодня я хочу поделиться главой, которая, как я надеюсь, должна особенна заинтересовать читателей «Хабра». Ведь в ней рассказывается о принципе работе распознавателя рукописного текста, созданного «Параграфом».

Ну и есть экшн — наши герои впервые попадают в Америку, и на авансцене появляются агенты ФБР.

image

Напоследок напомню, что можно получить все 11 готовых глав книги, просто подписавшись на рассылку. Ссылки на скачивания придут в приветственном письме.

Жду отзывов и комментариев. Конструктивная критика поможет сделать книгу лучше.

Поехали!

Восемь хренятин

«Скажите, где тут можно получить политическое убежище?» — первым делом спросил Пачиков, когда самолет приземлился в США.

Вопрос был задан по-русски и обращен к представителю советской авиакомпании, который стоял у люка и провожал пассажиров, покидающих самолет.

Когда-то за такую шутку в адрес официального лица гражданина СССР ждали бы большие неприятности.

Скорее всего, он бы попал под колпак КГБ, и его постарались бы побыстрее вернуть домой, где шутника вполне могли осудить за покушение на госизмену. Желание жить в какой-то другой стране считалось предательством родины.

В менее кровавые времена остряка как минимум навсегда лишили бы возможности выезжать за рубеж.

За время Перестройки, впрочем, многое изменилось. Теперь можно было говорить все что угодно — и никого это по большому счету уже не интересовало. Услышав провокационный вопрос, сотрудник авиакомпании только оскалился: «Вам там покажут».

У Степана Пачикова имелись все основания для того, чтобы ступать на американскую землю в приподнятом настроении и шутить с бортпроводниками. Дела в «Параграфе» шли как нельзя лучше.

Международный статус, новая техника, валюта от американского партнера Скотта Клососки вкупе с поддержкой Академии Наук и неуемной энергией основателя предприятия — все это позволило привлечь к сотрудничеству новых разработчиков.

Чего только не продавало это единственное в СССР софтверное «эспэ». И утилиту для склеивания сканированных изображений до полноценного офисного пакета. И программу, которая предсказывала исход американских выборов. И шахматную базу данных. И систему психологического самоанализа. И программу для обучения русскому как иностранному. И несколько компьютерных игр собственного сочинения. И электронный компьютерный журнал…

Какие-то разработки родились на свет без участия Пачикова — эспэ просто взяло их на продажу. Но по мере развития бизнеса все больше и больше программ дорабатывалось до ума под крышей «Параграфа». Какие-то решения и вовсе именно в «Параграфе» проходили путь от голой идеи до готового продукта.

Впрочем, большая часть этих разработок особых денег не приносила, хотя и позволяла затащить в параграфские сети передовых программистов и ученых.

Финансовое благополучие предприятия держалось всего на трех продуктах — русификаторе Чижова, офисном пакете Веселова, а также комплекте русских шрифтов, разработанных в «Параграфе» под руководством Андрея Скалдина (впоследствии он отделится и создаст «Паратайп» — одно из самых известных шрифтовых бюро).

Новый статус помог «Параграфу» наладить более-менее регулярные продажи программ в различные госучреждения. Кроме того, команда постигала азы продуктового маркетинга, объединяя набор разрозненных решений в программные пакеты.

Еще больше повода для оптимизма давала Пачикову затея с распознаванием рукописного текста.
Сами того не зная, участники «Параграфа» взялись за одну из сложнейших задач в области искусственного интеллекта. В то время никто в мире даже не покушался на распознавание слитного рукописного текста. Амбиции других команд, работавших в этой области, не шли дальше распознавания печатных букв — или букв, написанных от руки, но раздельно.

Никто в «Параграфе» не знал, оправдаются ли расчеты ученого Шели Губермана, который сформулировал принципы распознавания в теоретической статье, опубликованной еще в семидесятых. Однако его ученикам Леониду Кузнецову и Григорию Дзюбе потребовалась всего пара месяцев, чтобы сделать работающий прототип распознавателя.

Каждую букву программа разделяла на отдельные элементы — кружочки, палочки, петельки. Между собой для простоты и за отсутствием более подходящего термина эти элементы в «Параграфе» стали называть хренятинами (на математическом языке они назывались XR-элементы).

В прототипе использовалось восемь хренятин, с помощью которых авторы умудрились описать все тридцать три буквы русского алфавита.

Алгоритм высчитывал степень похожести каждого элемента на ту или иную хренятину, принимая во внимание их последовательность. В результате получалось несколько наиболее вероятных наборов хренятин.

Затем программа сравнивала каждую из этих последовательностей со своей базой идеальных букв, описанных в наборах «эталонных» хренятин. В итоге выбирался наиболее похожий вариант, после чего распознаватель переходил к следующей букве — и следующему набору хренятин.

К немалому удивлению самих разработчиков, программа иногда вполне сносно распознавала отдельные слова — правда только если их писали сами авторы программы. Как только распознавателю попадалось слово, написанное посторонним человеком, он выдавал абракадабру.

К совершенствованию программы подключился Илья Лосев, который работал в Институте проблем передачи информации Академии Наук, где занимался фундаментальными научными исследованиями, связанными с машинными интеллектом.

Лосев предложил доработать алгоритм, научив его сравнивать наборы хренятин разной длины — ведь лучший набор из трех хренятин может оказаться «хуже» лучшего набора из пяти (то есть менее похожим на эталон). Кроме того, при курсиве какие-то элементы письма могут выглядеть почти нечитаемыми, а значит, распознаватель должен уметь «догадываться» о наличии непрописанной хренятины.

На практике это достигалось с помощью «пропусков», за которые алгоритм платил «штрафы». При этом иногда набор из пяти хренятин даже со штрафом за пропуск набирал больше «баллов» чем набор из четырех точно идентифицированных хренятин.

Еще одним важным шагом стало подключение словаря. Чтобы повысить точность распознавания, алгоритм начал проверять, какие буквы могут следовать за уже идентифицированными — это значительно сокращало число вариантов.

Конечно, при таком подходе многое зависело от точности идентификации первой буквы — поэтому для нее алгоритм перебирал несколько вариантов и их ответвлений.

Наконец, по мере работы над программой стало очевидно, что восьми хренятин недостаточно — стали добавлять новые. Вскоре счет пошел на десятки…

С каждым шагом алгоритм становился все более сложным. Чтобы воплотить его в коде, к проекту подключили молодого, но одаренного программиста Александра Пашинцева, который познакомился с основателями фирмы еще во времена детского компьютерного клуба.

Так сложился костяк команды, которая работала над распознавателем: Губерман, Кузнецов, Дзюба, Лосев, Пашинцев…

Все их достижения, видимо, оказались бы напрасными, если бы компания следовала своей первоначальной идее и пыталась создать обучающую детскую программу. Однако Пачиков довольно быстро понял, что эта идея оторвана от реальности и не выгорит.

К счастью, в то же время он выяснил, что технология распознавания и сама по себе имеет неплохой коммерческий потенциал.

В свое время благодаря клубу «Компьютер» Пачиков познакомился с Эстер Дайсон, американским журналистом, автором технологического ньюзлеттера Release 1.0 и организатором популярных конференций для разработчиков.

Эстер внимательно следила за изменениями в компьютерной индустрии, которые происходили в Восточной Европе в результате тектонических сдвигов в политике. Она даже лично приезжала в Москву, чтобы посмотреть на все своими глазами.

Разумеется, Дайсон не могла избежать посещения единственного в советской столице детского компьютерного клуба, который открыл Пачиков. Завязалось знакомство, и когда директор клуба основал собственную софтверную компанию, Эстер пригласила его выступить на конференции The East-West High-Tech Forum в Будапеште.

Пачиков следил за трендами, читая западные компьютерные журналы, но только на этой конференции понял, что упустил из виду самый, может быть, главный.

И на сцене, и в кулуарах все только и говорили что о новой эре, которая должна была вот-вот наступить благодаря появлению pen computers — компьютеров с электронной ручкой вместо клавиатуры.

Энтузиасты верили, что они произведут революцию на рынке, сделав компьютеры более похожими на обычные блокноты, а значит и более понятными для простого человека.

До изобретения тачскрина и айфона оставалось еще больше пятнадцати лет. В то время считалось, что идеальным переносным компьютерам требовался интерфейс ввода, который бы совмещал преимущества двух типов данных — аналогового и цифрового.

В аналоговом пользователям было бы удобнее вводить информацию — то есть писать от руки, как в обычном блокноте — но полноценный компьютер должен был уметь хранить и обрабатывать введенную информацию в цифровом виде.

Загвоздка состояла в том, что пока еще не существовало решения, которое позволяло бы распознавать человеческие каракули и переводить их в понятные компьютеру символы.
Именно над таким решением и работала пока еще никому не известная советская компания «Параграф».

То есть, основываясь на совершенно ошибочных предположениях, Степан Пачиков и команда сами того не зная взялись за создание технологии, которая могла стать ключом к новой многомиллиардной индустрии.

В современном атласе достижения успеха удача остается спорной территорией. Одни полностью отрицают удачу и любят цитировать одного из отцов-основателей США Томаса Джефферсона: «Чем больше я работаю, тем удачливее становлюсь».

Другие, более скромные мыслители, отдают удаче должное — так же как и всем, кто пахал всю свою жизнь, но так и не стал миллионером. «Очень сложно распознать удачу — часто она выглядит точно как то, что ты заслужил», — говорил американский конгрессмен Франк Кларк.

Степан Пачиков мог считать себя счастливчиком хотя бы за то, что он получил возможность делать бизнес в СССР — совместное предприятие «Параграф» появился на свет благодаря не только его энергии, но и капризу судьбы. И фортуна, кажется, не собиралась покидать своего нового фаворита.

В марте 1990 года делегация «Параграфа» — Пачиков, Чижов, Лосев, Скалдин — отправилась в Ганновер на крупную отраслевую выставку «Цебит», чтобы заявить о себе и показать всю обширную линейку своих программных продуктов, включая прототип распознавателя.

Команда советского стартапа начала покорять западный мир, как только появилась возможность. Но так вышло, что она оказалась за рубежом в самое подходящее время, какое только можно было выбрать.

За пять лет у власти Михаила Горбачева внешняя политика СССР сделала поворот на сто восемьдесят градусов.

Холодная война с Западом официально была закончена. Из Афганистана выведены советские войска. Берлинская стена разрушена. Варшавский блок распущен, а страны Восточной Европы получили право самостоятельно выбирать свою дорогу, не оглядываясь на Москву.

Разумеется, преображение СССР из опасного и зловещего врага в великодушного, хоть и экзотического и несколько наивного друга западный мир воспринял на ура. Все советское вызывало любопытство. Многие люди на Западе с удивлением обнаружили для себя, что в стране коммунистов тоже живут люди — и некоторые из них вполне нормальные.

Команда «Параграфа» беззастенчиво эксплуатировала этот интерес. На стенде они стояли ряженые то ли в арестантов, то ли в солдат стройбата — в ватниках, подпоясанных советскими армейскими ремнями со звездой на бляхе.

Позже Пачиков будет говорить, что ему стыдно за то, как они себя вели — и, был бы он поумнее, таких выходок бы себе не позволял. Но, кажется, тогда советским посланцам в цивилизованном мире готовы были простить еще и не такой цирк.

Отработав на выставке, команда «Параграфа» взяла в аренду минивэн и отправилась в путешествие по Германии, чтобы своими глазами увидеть незнакомый им, свободный, мир.

Доехав до Берлина, пошли собирать камни от разрушенной стены. Перейдя в Западную часть, прогуляли там всю ночь — вместе с толпами местных жителей, которые до сих пор пребывали в эйфории и праздновали уже неминуемо надвигающееся воссоединение Германии.

По мере того, как веселье становилось все более безудержным, под ногами росла гора мусора — бумажки, бутылки, окурки… Рано утром на берлинских тротуарах показались уборочные машинки, которые быстро устранили все последствия ночных гулянок.

На советских граждан такое сочетание свободы, с одной стороны, и порядка, с другой, произвело сильное впечатление. Жители СССР привыкли считать так: в жизни бывает либо одно, либо другое.

Впервые показать себя в Европе — уже было немало. Но было ясно, что для настоящего прорыва «Параграфу» надо ехать в Америку, где работали крупнейшие компьютерные фирмы.

И вот спустя пару месяцев — в июне 1990 года — делегация «Параграфа» высадилась в США, чтобы показать бета-версию распознавателя на крупнейшей международной компьютерной выставке «Комдекс».

В Штатах эйфории из-за окончания холодной войны была не меньше, чем в Европе. Как раз незадолго до «Комдекса» состоялся первый визит Михаил Горбачева в США. Советский президент был на пике своей мировой популярности — и в полушаге от получения Нобелевской премии.

Американский бизнес тем временем делал свои первые шаги по освоению нового, неведомого, но интригующего рынка — в самой Москве к тому моменту уже открылся первый «Макдоналдс».
За бигмаками и картошкой фри выстраивались многочасовые очереди советских граждан, желающих попробовать диковинные блюда, придуманные в стране бывшего потенциального противника.

Впрочем, несмотря на формальное окончание холодной войны, те, кому это положено, сохраняли бдительность: пока команда «Параграфа» в Москве налаживала продажи софта и возилась со своими хренятинами, американскому со-основателю фирмы Скотту Клососки у себя в Оклахоме пришлось объясняться с ФБР.

Однажды два агента нагрянули к предпринимателю в офис и попросили проехать с ними. Они отвезли его в мотель, завели в номер и усадили за стол. Один из агентов выложил на стол пистолет — то ли чтобы удобнее было сидеть, то ли чтобы собеседник понял всю серьезность своего положения.

После этого они принялись допрашивать его об обстоятельствах поездки в СССР и дальнейшем сотрудничестве с коммунистами.

Несмотря на угрожающую мизансцену, Скотт не сильно испугался — он был уверен, что не сделал ничего противозаконного, и поэтому даже не подумал об адвокате. Тем более что его пока ни в чем не обвиняли.

Скорее даже наоборот: агенты ФБР говорили, что хотят его защитить. Часть беседы была посвящена ликбезу: как стоит вести себя с русскими, чтобы не попасть в неприятности.

Прежде всего следовало избегать отношений с русскими женщинами — каким бы невыносимо сложным ни казался такой бесчеловечный запрет. Именно через них, предостерегали агенты, к нему и попробует добраться КГБ.

Скотт и сам понимал, что в СССР нужно быть предельно осторожным, поэтому поблагодарил за совет.

Покинув номер после многочасового допроса — не последнего за время сотрудничества с коммунистами — Скотт не только вышел из сумрака дешевого мотеля на божий свет, он вернулся из мира подозрительности и вражды в новый, пусть и иллюзорный, но столь чарующий мир международного сотрудничества.

На волне «горбомании» первая советская компьютерная фирма, оказавшаяся на «Комдексе», была обречена на успех.

Команда «Параграфа» почувствовала поддержку американцев, едва только приехала на выставку. Все оборудование для стенда отправили службой доставки, и она его потеряла. В итоге технику для стенда собирали всем миром — многие американцы хотели помочь советской фирме.
К счастью, сами программы, необходимые для демонстрации, сотрудники компании привезли в личном багаже на дискетах.

Многие спрашивали, можно ли их технологию распознавания «Параграфа» использовать для текста, введенного с помощью пера. Пачиков отвечал, что в теории — да, а на практике — пока нет.

Потому что нет у них электронной ручки, чтобы заняться этим направлением. Цифровая ручка была игрушкой не только очень дорогой, но и дефицитной. Все, чем располагал «Параграф» в Москве, это был ручной сканер, подаренный одним из гостей компьютерного клуба — представителем фирмы «Лоджитек».

Не требуя ничего взамен, советским программистам теперь подарили и перо. Значение этого дара сложно было переоценить: благодаря такому подарку «Параграф» мог теперь заняться адаптацией своей технологии к новому перспективному рынку.

В отличие от сканера, перо оперировало не статичным, а динамичным изображением. Оно содержало информацию о движении руки во времени — и тем самым позволяло точнее идентифицировать хренятины.

Вокруг стенда «Параграфа» постоянно крутились журналисты — первое в истории «Комдекса» советско-американское совместное предприятие было событием для выставки. Об интервью попросил даже новостной канал CNN.

Это, впрочем, привело к первым разногласиям между партнерами совместного предприятия.
Скотт устроил все так, что съемочная группа появилась у стенда, когда Степана там не было. Возможно, это было чистой случайностью, но Пачиков предположил, что его компаньон опасался за плохой английский партнера.

Нельзя было исключить, что им также двигало и вполне объяснимое желание оказаться на авансцене и использовать этот шанс для личного продвижения.

Когда Пачиков вернулся к стенду «Параграфа», съемочная группа уже паковала оборудование.
«Жаль, мы уже закончили», — сказал репортер из вежливости, продолжая собирать вещи. «Да, жаль, я как раз хотел рассказать, как компьютеры уничтожили коммунизм», — сказал Степан.

Репортер тут же дал коллегам сигнал распаковываться. Они снова поставили камеру, свет и записали интервью с Пачиковым. Степан выдал свою любимую речь о том, что авторитаризм невозможен без контроля за информацией, а распространение персональных компьютеров лишили власть СССР такого контроля.

Эту идею основатель «Параграфа» продвигал еще с самого начала Перестройки. В 1986 году он даже написал статью-обращение к американскому президенту Рональду Рейгану, в котором призывал отменить ограничения на поставки техники в СССР.

Пачиков даже пытался опубликовать статью на Западе, передав ее за границу через знакомого американца, который часто приезжал в Москву. Американец, впрочем, вместе с письмом взял семьсот долларов, чтобы открыть счет в США на имя одного из знакомых Степана.

Советские граждане слабо представляли, как устроена западная банковская система, и поэтому думали, что с такой операцией не будет никаких сложностей. Судьба и денег, и письма остались Пачикову неизвестными. Больше он этого американца не видел.

Речь о Рейгане, персональных компьютерах и контроле за информацией хорошо вписывалась в текущую новостную повестку — в ходе своего визита в США Горбачеву как раз удалось добиться от Рейгана смягчения ограничений, наложенных на экспорт технологий в СССР.

В общем, CNN не просто упомянуло «Параграф» в репортаже о выставке или выдало одну-две цитаты — телеканал выпустил об американско-советской фирме десятиминутый сюжет.

После этого Пачиков задумался о том, что Скотт все-таки еще слишком молод. Он должен был бы догадаться, что в сложившейся обстановке не стоило прятать от журналистов советского партнера.

Клососки и сам отдавал должное маркетинговой находчивости партнера — тот, например, придумал штамповать на советских банкнотах контактные данные фирмы и раздавать рубли в качестве визиток. Учитывая обстановку, ход вышел эффектный и привлекал внимание.

Опасения Скотта за английский Степана тоже имели под собой основания. Послушав, как Клососки дает интервью, Пачиков спросил с обидой: «Скотт, а почему ты все время называешь наши разработки самоварными?»...

Американец даже сначала не понял, о чем идет речь. «Ну ты все время говоришь: samovar-technology, samovar-technology…» — объяснил Степан. На самом деле Скотт говорил some of our technologies — «некоторые из наших технологий».

Несмотря на проблемы с коммуникациями, и Скотт, и Степан оставались довольны друг другом, прекрасно понимая, что их встреча была большой удачей для обоих предпринимателей.

Внимание прессы, интервью на крупнейших телеканалах, первые контакты с влиятельными компьютерными фирмами, да и сама Америка с ее магазинами, полными товаров в красочных упаковках, стремительными хайвеями и людьми совершенно разных национальностей — все эти новые впечатления, разумеется, будоражили воображение не слишком искушенных советских ученых.

Однако что делать дальше и как перейти от разговоров к реальным контрактам — как построить тут бизнес на разработке и продаже высоко интеллектуального продукта?

Этого не знал ни Скотт Клососки, простой торговец из Оклахомы, ни тем более Степан Пачиков, вчерашний старший научный сотрудник Академии Наук СССР. Все это команде «Параграфа» еще только предстояло выяснить.

Пионеры Кремниевой долины. Все готовые главы:

Глава 1. «Погоди-ка», — сказал Мжаванадзе
Глава 2. Ученый-вахтер
Глава 3. Компьютерные человечки
Глава 4. Бета
Глава 5. «Можем решить любую задачу»
Глава 6. Дикий Восток
→ Глава 7. Восемь хренятин
Глава 8. Я — морж
Глава 9. Арматура в гусеницы
Глава 10. Американец
Глава 11. Язык D

Получить все главы и подписаться на новые

Автор: kotinmax

Источник

* - обязательные к заполнению поля


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js