Рубрика «лингвистика» - 8

Как программист английский учил

2015-07-02 в 21:41, admin, рубрики: английский, английский язык, изучение языков, лингвистика

За последние полгода на гиктаймсе было несколько статей, описывающих личный опыт по изучению английского языка. В основном люди рассказывают о том, как нашли крутое приложение, стали смотреть фильмы, читать книги в оригинале и всё стало хорошо. В моем же случае не было приложения, которое бы меня устроило. О том, как я начал кодить сервис для себя и что из этого вышло, читайте под катом.

Читать полностью »

Сериал: Big Data — как мечта. 6-я серия. BD (Bolt Data) — Быстрые Big Data данные

2015-04-16 в 18:37, admin, рубрики: analytics, AOT, big data, Блог компании Brand Analytics, Блог компании PalitrumLab, Исследования и прогнозы в IT, Карьера в IT-индустрии, лингвистика, Медиа, тональность, метки: big data

В предыдущих сериях: Big Data — это не просто много данных. Big Data — процесс с положительной обратной связью. «Кнопка Обамы» как воплощение rtBD&A. Философия развития Big Data. В новой серии впервые упомянем о новом E-ngine — воплощении мечт IBM, Google и др.

Только ленивый (включая и сценаристов нашего сериала) уже не высказался со своим мнением по поводу «Who is Big Data?» Сегодня давайте порассуждаем не про объемы, а на скорострельность потоков данных. Англоязычное слово Bolt имеет так много смыслов, что легко можно подобрать другой смысл для двухбуквия BD вместо Big Data — Bolt Data, в том числе: удар молнии, вылетать, выболтать, говорить быстро и невнятно.
Читать полностью »

7 дней, 1050 юзеров, 0$ затрат

2015-04-10 в 10:30, admin, рубрики: PR, интернет-маркетинг, лингвистика, перевод, продвижение в интернете, работа для фрилансера, Развитие стартапа, стартап, фриланс, фриланс биржи, фрилансер

Когда стартапу исполнилось 7 дней, мы решили оглянуться и понять… Понять, чего он достиг, чему научился, чему научил нас. Попробуем подвести черту первой недели жизни стартапа и поделиться опытом и результатами.
Читать полностью »

Почему одни слоги в языке встречаются чаще других

2015-02-08 в 23:41, admin, рубрики: andorro-новости, лингвистика, Научно-популярное, эксперименты

Почему одни слоги в языке встречаются чаще других, и почему в разных языках наблюдается одна и та же иерархия частоты употребления определённых слогов? Например, в самых разных языках слог blog встречается чаще, чем lbog. А слоги blif > bnif > bdif > lbif в разных языках встречаются именно в таком порядке частоты. Откуда возникают эти универсальные иерархии сочетаний звуков по их предпочтительности?

Почему одни слоги в языке встречаются чаще других - 1
Читать полностью »

Онтоинженер: от сотворения мира к порождению сущностей

2015-01-19 в 15:41, admin, рубрики: ABBYY, Compreno, Блог компании ABBYY, лингвистика, Поисковые машины и технологии, Семантика, Терминология IT

Онтоинженер: от сотворения мира к порождению сущностей - 1 В этом посте я продолжу рассказ о той части Compreno, которая связана с профессией онтоинженера. Ну или о той работе онтоинженера, которая связана с упомянутой технологией — это уж кому как удобнее воспринимать.

Напомню, первая часть подвела нас к тому, что онтоинженеры строят онтологии, чтобы технология могла работать (без них — никуда, так уж всё устроено). А о том, что ещё, и, конечно, зачем делают онтоинженеры, я предлагаю узнать прямо сейчас.

Семь битв – одно поддерево

Основную часть рабочего времени онтоинженер посвящает не «моделированию мира» (хотя это и звучит очень гордо), а созданию системы извлечения. И хотя мы всё больше экспериментируем со статистикой, машинным обучением и автоматическим извлечением паттернов, пока в наших продуктах и проектах используются правила, написанные вручную. Однако правила эти представляют собой не какие-то жесткие шаблоны, опирающиеся на линейный порядок слов в предложении, а описания фрагментов семантико-синтаксических деревьев ABBYY Compreno. Это позволяет нам сравнительно легко обходить вариативность и неоднозначность языка, кратко задавая множество вариантов, используемых для выражения одного и того же смысла. Читать полностью »

Изучение иностранного языка: коллекция заблуждений

2015-01-16 в 8:00, admin, рубрики: изучение английского, изучение английского языка, изучение иностранных языков, изучение языков, лингвистика, Научно-популярное

Как выучить иностранный язык? Почти все сталкивались с изучением иностранного языка в своей жизни: в школе, в вузе, кто-то ходил на курсы, занимался с репетитором или пытался изучать самостоятельно. Пытались все, но получилось далеко не у всех. Почему?

Чтобы ответить на этот вопрос, нужно понять, что мы делаем «не так». Проблема, на мой взгляд, заключается в так называемой «народной лингводидактике», которая построена на распространённых ошибочных представлениях о том, что такое язык, как он работает и как его нужно изучать. Эти заблуждения распространены как среди тех, кто изучает, так и среди тех, кто учит.

Давайте рассмотрим наиболее заметные заблуждения и разберёмся, почему они ошибочны и как они мешают нам учить язык.
Читать полностью »

Онтоинженер: работа по понятиям

2014-12-16 в 21:43, admin, рубрики: ABBYY, Compreno, Блог компании ABBYY, лингвистика, онтоинженер, Поисковые машины и технологии, Семантика, Терминология IT

Онтоинженер: работа по понятиям - 1 Привет! Меня зовут Даня, и я работаю в группе извлечения знаний ДогадайтесьКакойКомпании. В двух постах я расскажу,

как мы извлекаем факты и сущности из текстов,
кто такие онтоинженеры,
зачем они отделяют трупы от костей,
причём здесь Лев Толстой.

На Хабре уже было несколько публикаций, посвященных извлечению информации из неструктурированного текста (много чего ищется по тегами Text Mining, Information Extraction). Вот здесь, например, приведен краткий джентльменский набор того, что желательно сделать с текстом, прежде чем из него будет удобно что-нибудь извлечь (спойлер: мы все это тоже делаем). А вот тут коллеги из Яндекса описывают свой подход с использованием КС-грамматик (кстати, там тоже замешан Толстой). В общем, тема для Хабра не новая, но и нельзя сказать, что достаточно раскрытая. Потому мы и решили поделиться нашим опытом.
Читать полностью »

Библиотека Strutext обработки текстов на C++ — реализация лексического уровня

2014-11-03 в 11:52, admin, рубрики: c++, Алгоритмы, лингвистика, обработка текстов, Программирование

Базовые принципы

Этот текст является продолжением поста о библиотеке Strutext обработки текстов на языке C++. Здесь будет описана реализация лексического уровня представления языка, в частности, реализация морфологии.

Читать полностью »

Библиотека Strutext обработки текстов на языке C++

2014-10-27 в 13:18, admin, рубрики: c++, Алгоритмы, лингвистика, обработка текстов, Программирование

Введение

Этот текст можно рассматривать как обзор библиотеки Strutext, задуманной автором как набор эффективных алгоритмов лингвистической обработки текста на языке C++. Код библиотеки находится в репозитории на Github. Библиотека имеет открытый исходный код и поставляется под лицензией Apache License 2.0, т.е. может быть использована совершенно бесплатно без каких-либо существенных ограничений.

Читать полностью »

Как использовать Томита-парсер в своих проектах. Практический курс

2014-08-09 в 13:00, admin, рубрики: natural language processing, open source, Блог компании Яндекс, лингвистика, парсеры, яндекс

Привет, меня зовут Наталья, я работаю в Яндексе разработчиком в группе извлечения фактов. Весной мы рассказали о том, что такое Томита-парсер и для чего он используется в Яндексе. А уже этой осенью исходники парсера будут выложены в открытый доступ.

В предыдущем посте мы пообещали рассказать, как пользоваться парсером и о синтаксисе его внутреннего языка. Именно этому и посвящен мой сегодняшний рассказ.

Прочитав этот пост, вы узнаете, как составляются словари и грамматики для Томиты, а также, как извлекать с их помощью факты из текстов на естественном языке. Та же информация доступна в формате небольшого видеокурса.
Читать полностью »

Информация

Обсуждаемое

Рекомендуем

Рубрика «лингвистика» - 8

Как программист английский учил

Сериал: Big Data — как мечта. 6-я серия. BD (Bolt Data) — Быстрые Big Data данные

7 дней, 1050 юзеров, 0$ затрат

Почему одни слоги в языке встречаются чаще других

Онтоинженер: от сотворения мира к порождению сущностей

Семь битв – одно поддерево

Изучение иностранного языка: коллекция заблуждений

Онтоинженер: работа по понятиям

Библиотека Strutext обработки текстов на C++ — реализация лексического уровня

Базовые принципы

Библиотека Strutext обработки текстов на языке C++

Введение

Как использовать Томита-парсер в своих проектах. Практический курс

Архив

Информация

Обсуждаемое

Рекомендуем

Рубрика «лингвистика» - 8

Семь битв – одно поддерево

Базовые принципы

Введение

Новости

Актуальные темы

Архив