Я хочу представить NLPub — небольшую базу знаний, посвящённую компьютерной лингвистике в России.
Сейчас никого не удивить устройствами и приложениями, способными понимать и говорить на человеческом языке. В основе таких приложений лежат методы обработки естественного языка, образующие общее направление на стыке лингвистики и искусственного интеллекта.
Почему подавляющее большинство устройств, приложений и сервисов не работает с русским языком?
Мне часто приходится это повторять, но причина проста и трагична. Дело в том, что решение задач обработки естественного языка сопряжено с использованием специализированных программ — анализаторов, которые остро нуждаются в информационных ресурсах — словарях, корпусах, тезаурусах, именно благодаря которым они способны выполнять свою функцию.
Всего этого в России практически нет, что парализует работу коммерческих предприятий и академических коллективов, вынуждая изобретать велосипеды или просто отказываться от лингвистических технологий.
Самое полезное, что можно сделать сиюминутно — это помочь заинтересованным людям быстрее освоиться и скорее приступить к использованию тех немногих доступных технологий, что есть в данный момент.
Для этого нужно составить каталог доступного программного обеспечения с описанием функциональных возможностей, написать обучающие материалы, предоставить ссылки на данные, руководства и прочие информационные ресурсы. Именно для этого я создал NLPub и приглашаю всех желающих присоединиться к его развитию.
Какие сведения собираются в рамках NLPub?
Особое внимание уделяется следующим темам:
- инструменты обработки текста, доступные как для коммерческого, так и для некоммерческого применения — токенизаторы, морфологические анализаторы, синтаксические парсеры, средства анализа тональности;
- ресурсы — словари, тезаурусы, корпусы текстов, необходимые для решения фундаментальных и прикладных задач;
- мероприятия — тематические конференции и семинары для исследователей и разработчиков;
- образование — учебные заведения и курсы профессиональной переподготовки в области обработки естественного языка и анализа данных.
Как можно помочь проекту?
Я вижу три доступных способа:
- пополнять базу знаний, обеспечивая читателей качественным, корректным и актуальным материалом о положении дел в отечественной компьютерной лингвистике;
- исправлять неточности, допущенные в процессе составления и развития базы знаний;
- рассказывать про NLPub в различных тематических сообществах, повышая общественный интерес к области обработки естественного языка (хотя бы в блоге о нём напишите, как это сделал я).
Кому это принадлежит?
NLPub явлется некоммерческим проектом и не имеет аффилированности с коммерческими компаниями. Это ни в коем случае не закрывает путь в него для коммерческих компаний. Напротив, размещение информации об их продуктах чрезвычайно приветствуется наравне с открытыми и свободными решениями. Уже сегодня в перечне инструментов можно встретить немало коммерческих продуктов.
Я с радостью отвечу на все вопросы и замечания, изложенные как в комментариях здесь, так и через более приватные каналы связи.
Автор: eveel