В конце апреля Джерард Чешир из Бристольского университета опубликовал статью в журнале Romance Studies, где описывается языковая система, представленная в рукописи Войнича — средневековом литературном памятнике, который до сих не удавалось расшифровать. Новая попытка вызвала резонанс среди лингвистов, и большинство из них настроены скептически.
Читать полностью »
Рубрика «анализ текстов»
Ученый-лингвист нашел ключ к рукописи Войнича. Или нет
2019-05-17 в 11:30, admin, рубрики: анализ текстов, изучение языков, история, лингвистика, текстология, языкиРекомендательная система на коленке как средство против экзистенциального кризиса
2017-10-17 в 10:45, admin, рубрики: crawling, D3, data mining, machine learning, perl, SVD, анализ текстов, визуализация данных, машинное обучение, Программирование, рекомендательные системыМожет быть отсылка к экзистенциальному кризису звучит слишком громко, но лично для меня проблема поиска и выбора (или выбора и поиска, это имеет значение) как в мире интернета так и в мире простых вещей по мучениям иногда приближается к нему. Выбор фильма на вечер, книги неизвестного автора, сосисок в магазине, нового утюга — дикое количество вариантов. Особенно когда не очень знаешь чего хочешь. Да и когда знаешь, но не можешь попробовать — тоже не праздник — мир разнообразен и все сразу не перепробуешь.
Рекомендательные системы сильно помогают в выборе, но не везде и не всегда так как хотелось бы. Часто не учитывается семантика содержания. Кроме того, во весь рост встает проблема "длинного хвоста", когда рекомендации сосредоточены только на самых популярных позициях, а интересные, но не очень популярные в массе вещи ими не охвачены.
Cвой эксперимент в этом направлении я решил начать с поиска интересных текстов взяв для этого довольно небольшое, но пишущее сообщество авторов, которые еще остались на блоговой платформе Живой Журнал. О том как сделать собственную рекомендательную систему а в результате получить еще и помощник в выборе вина на вечер — под катом.
Читать полностью »
Парсинг резюме
2016-10-12 в 2:29, admin, рубрики: nlp, анализ текстов, машинное обучение, парсинг, парсинг резюме, поисковые технологии, СемантикаТе кто сталкивался с задачами автоматизированного анализа резюме, представляют современное состояние дел в этой области — существующие парсеры в основном ограничиваются выделением контактных данных и ещё нескольких полей, таких как «должность» и «город».
Для сколько-нибудь осмысленного анализа этого мало. Важно не только выделить некие строки и пометить их тегами, но и определить, что за объекты кроются за ними.
Живой пример (кусок XML результата анализа резюме от одного из лидеров области Sovren):
<EmployerOrg>
<EmployerOrgName>ООО Звезда-DSME</EmployerOrgName>
<PositionHistory positionType="directHire">
<Title>Ведущий специалист отдела развития информационных систем</Title>
<OrgName>
<OrganizationName>ООО Звезда-DSME</OrganizationName>
</OrgName>
Парсер Sovren прекрасно справился с выделением полей. Ребята не зря занимаются этим делом без малого 20 лет!
Но что дальше делать с «Ведущий специалист отдела развития информационных систем»? Как понять, что же это за должность, насколько опыт работы этого человека релевантен для той или иной вакансии?
Читать полностью »