Как знают наши постоянные читатели, ABBYY не только выпускает программные продукты, но и много лет занимается научными исследованиями в области компьютерной лингвистики, без которых эти продукты не могли бы появиться. Мы также ежегодно проводим международную конференцию «Диалог» (подробно о ней – здесь). А недавно наша компания открыла кафедры компьютерной лингвистики в двух московских вузах – в Институте лингвистики РГГУ (совместно с IBM) и на факультете инноваций и высоких технологий МФТИ.
У ABBYY уже есть позитивный опыт обучения студентов: на базе МФТИ шесть лет работает наша кафедра распознавания изображений и обработки текста, а многие из ее выпускников успели сделать неплохую карьеру в компании. Поэтому мы надеемся, что с подготовкой компьютерных лингвистов у нас тоже получится.
Как и в случае физтеховской кафедры обработки изображений, кафедры компьютерной лингвистики будут тесно взаимодействовать с компанией. Студенты уже во время учебы будут участвовать в реальных коммерческих проектах, а магистранты при желании смогут устроиться к нам на работу.
Зачем понадобились кафедры компьютерной лингвистики? Во-первых, конечно, чтобы готовить специалистов нового профиля, поскольку до недавнего времени в России такой вузовской специальности просто не было. В последние лет десять компьютерная лингвистика развивается очень бурно, и наши учебные заведения тоже поняли необходимость идти в ногу со временем: в этом году открылись магистратуры по компьютерной лингвистике в ГУ ВШЭ и Санкт-Петербургском госуниверситете.
Во-вторых, кроме подготовки кадров для компаний, у кафедр компьютерной лингвистики в вузах есть и другая важная цель – способствовать развитию соответствующей науки в России. Ведь ситуация тут не очень радостная. С одной стороны, у нас есть традиции в области машинной обработки текстов, есть компании, которые делают реальные и успешные на мировом рынке языковых технологий проекты. С другой стороны, поскольку специалистов этого профиля в России долго не готовили, мы практически не участвуем сегодня в мировой научной жизни, и, что еще печальнее, наши специалисты часто не умеет проводить исследования по мировым стандартам. А русский язык не входит даже в двадцатку языков, на материале которых проводятся исследования.
Получается, что коммерческие проекты по компьютерной лингвистике у нас есть, а на международных конференциях российские участники не представлены (или представлены как магистранты и аспиранты зарубежных вузов). Почему так выходит? Дело в том, что компании чаще всего не могут сделать результаты своих научных разработок открытыми: они ограничены корпоративной политикой, патентными троллями, конкуренцией. Не удивительно, что в мире научными исследованиями по компьютерной лингвистике занимаются, прежде всего, в университетах, а не в корпорациях.
Резонный вопрос – почему кафедра по лингвистике, пусть и компьютерной, открывается не только в гуманитарном, но и в техническом вузе? Дело в том, что вряд ли можно создать универсального специалиста – лингвиста и программиста «в одном флаконе», имеющего одинаково глубокие познания в обеих областях. В реальных проектах должны участвовать и те, и другие. Только для успеха дела инженер, который будет разрабатывать технологии для обработки языка, должен иметь ясные представления о его устройстве и тех результатах лингвистики, которыми можно воспользоваться. А лингвист должен понимать, какие требования накладывает на лингвистические модели необходимость их применения в современных технологиях компьютерного анализа. Поэтому на фундаментальное базовое образование (лингвиста или инженера) будет накладываться дополнительное знание, которое поможет гуманитариям и «технарям» найти общий язык взаимодействия при решении прикладных задач.
Так, лингвисты получат знания о статистике, формальных грамматиках, методах машинного обучения, эвристических методах искусственного интеллекта, экспертных системах и системах представления знаний. Их будут учить работе со специализированными языками и средами разработки для лингвистов (типа Natural Languge Toolkit, R т.п.), специализированными лингвистическими базами данных, открытыми лингвистическими ресурсами (от грамматик и парсеров до онтологий).
Инженеры прослушают курсы по грамматической системе естественного языка (морфологии и синтаксису), семантике и дискурсу, общей и компьютерной лексикографии, корпусной лингвистике (методам создания и использования текстовых корпусов).
Мы планируем с самого начала обучения объединять усилия магистров МФТИ и РГГУ в работе над серьезными проектами. Так, уже осенью начнется работа над амбициозным проектом Генерального Корпуса Русского Языка (большой PDF про это), в котором кроме наших студентов будут принимать участие известные специалисты-лингвисты.
Что касается преподавательского состава, то помимо профессоров и преподавателей РГГУ и МФТИ, специальные учебные курсы для студентов и магистрантов кафедр будут читать и лучшие специалисты ABBYY – как лингвисты, так и программисты. Конечно, нам трудно и жалко отрывать их от основной работы, но учить кафедрантов тоже важно. Во-первых, только мы сами можем научить студентов тому подходу к решению задач компьютерной лингвистики, который принят у нас, так что потом выпускникам (если они захотят) будет просто включиться в работу компании. А во-вторых, преподавание полезно и для самих преподающих: чтобы разработать учебный курс, нужно «разложить по полочкам» свои знания, быть в курсе последних мировых достижений в этой области.
Мы также будем приглашать для чтения лекций известных российских и международных специалистов по компьютерной лингвистике (как уже делаем в рамках ABBYY Open).
Организация учебного процесса на кафедрах в МФТИ и РГГУ будет немного отличаться. Если кафедра в МФТИ – это кафедра ABBYY и она физически находится у нас в офисе, то кафедра РГГУ – это кафедра при нашем участии и расположена она в самом университете. В РГГУ кафедра читает курсы всем студентам Института Лингвистики, а не только «своим» бакалаврам и магистрам. Обе кафедры впервые проводят набор в этом году.
Приглашаем на наши кафедры тех, кому интересен компьютерный анализ естественного языка!
Татьяна Панферова
при участии департамента исследований и разработок
Автор: MKrivosheev