В эпоху больших данных работа с огромными XML-файлами часто становится настоящим испытанием для разработчиков и аналитиков. Представьте себе гигантский XML-файлЧитать полностью »
Рубрика «tfidfvectorizer»
SolriXML: Лучи света в темном лесу XML-данных
2024-09-07 в 7:05, admin, рубрики: python, tfidfvectorizer, web-разработка, XML, xml parser, xml schema, xml web services, xmlhttprequest, маркетплейсКак простые NLP модели видят слова? | NLP | Пишем свой TF-IDF
2024-08-17 в 12:15, admin, рубрики: AI, deeplearning, jupyter notebook, machinelearning, math, nlp, numpy, pandas, python, tfidfvectorizerКак модели видят наш текст?
Когда начинаешь погружаться в сферу NLP, сразу задумываешься, как модели представляют себе наш текст/наши слова? Ведь не логично бы звучало, если модель обрабатывала наши слова, как обычную последовательность букв. Это было бы не удобно и не понятно(как проводить операции со словами?).
Есть разные методы преобразования слов. Один из самых известных для не самых сложных моделей: TF-IDF.
Как работает TF-IDF?
TF-IDF(Term Frequency-Inverse Document Frequency) — это метод, который преобразует слова в числовые векторы, что делает их более понятными для моделей машинного обучения.