Перед вами перевод статьи Genevieve Hayes, Data Scientist с 15-летним опытом работы. Автор рассказывает о том, какие навыки стоит развивать, чтобы значительно увеличить шансы найти работу в Data Science. Чтобы определить эти навыки, она проанализировала 100 вакансий, размещенных работодателями из Австралии, Канады, Великобритании и США.
Рубрика «data mining» - 14
Шесть навыков, которые выведут вашу карьеру в Data Science на новый уровень
2019-08-26 в 14:38, admin, рубрики: big data, data engineering, data mining, data science, mashine learning, Блог компании Plarium, Карьера в IT-индустрии, карьера в ИТ, машинное обучение, навыки и умения, прокачка, статистическое моделированиеУскоряем распределенную обработку больших графов с помощью вероятностных структур данных и не только
2019-08-26 в 13:36, admin, рубрики: algorithms, Apache Spark, big data, data mining, data structures, graphs, Алгоритмы, Блог компании Одноклассники, машинное обучение
Одним из самых ценных ресурсов любой социальной сети является "граф дружб" — именно по связям в этом графе распространяется информация, к пользователям поступает интересный контент, а к авторам контента конструктивный фидбэк. При этом граф является еще и важным источником информации, позволяющим лучше понять пользователя и непрерывно совершенствовать сервис. Однако в тех случаях когда граф разрастается, технически извлекать из него информацию становится все сложнее и сложнее. В данной статье мы поговорим о некоторых трюках, используемых для обработки больших графов в OK.ru.
Напиши свою песню за 10 минут (модуль textgenrnn Python3)
2019-08-26 в 13:28, admin, рубрики: data mining, machine learning, python, python3
Сегодня попробуем обучить свою собственную нейронную сеть, чтобы писала текст для песен. Обучающей выборкой будут тексты группы "Руки Вверх". Ничто не мешает чтобы поменять данные на тексты своих любимых групп. Для извлечения данных с веб-сайтов используем Python3 (модуль BeautifulSoup).
Задача будет состоять в том, чтобы выгрузить данные(тексты) c веб-сайтов а потом на их основе обучить нейронную сеть.
На самом деле, можно разбить работу на 2 этапа:
Этап 1: выгрузить и сохранить тексты песни в удобном формате.
Этап 2: обучить свою собственную нейронную сеть.
Web scraping на R, часть 2. Ускорение процесса с помощью параллельных вычислений и использование пакета Rcrawler
2019-08-26 в 6:46, admin, рубрики: data mining, parallel programming, R, scraping, параллельное программирование
В прошлой статье я с помощью скрэпинга-парсинга собрал с сайтов IMDB и Кинопоиск оценки фильмов и сравнил их. Репозиторий на Github.
Код неплохо справился со своей задачей, однако скрэпинг часто используют для "соскабливания" не пары-тройки страниц, а пары-тройки тысяч и для такого "большого" скрэпинга код из прошлой статьи не подходит. Точнее будет сказать не оптимален. В принципе, Вам практически ничего не мешает его использовать для задач обхода тысяч страниц. Практически, потому что столько времени у Вас просто нет Читать полностью »
15 книг по машинному обучению для начинающих
2019-08-24 в 13:32, admin, рубрики: big data, data mining, machine learning, python, искусственный интеллект, ПрограммированиеСделал подборку книг по Machine Learning для тех, кто хочет разобраться, что да как.
Добавляйте в закладки и делитесь с коллегами!
Книги по машинному обучению на русском
1. «Математические основы машинного обучения и прогнозирования» Владимир Вьюгин.
О чем
Сначала изучите азы статистической теории машинного обучения, игр с предсказаниями и прогнозирования с применением экспертной стратегии. Их основы прекрасно объясняет автор книги, доктор физико-математических наук Владимир Вьюгин. Пособие рассчитано на студентов и аспирантов и в доступной форме излагает математические основы, необходимые для дальнейшей работы с машинным обучением.
2. «Верховный алгоритм» Педро Домингос.
О чем
Книга, благодаря которой даже ничего не смыслящие в математике и статистике люди поймут, что такое алгоритмы машинного обучения и каково их применение в жизни. Профессор Педро Домингос рассказывает о пяти основных школах Machine Learning и о том, как они используют идеи из различных областей научного знания — нейробиологии, физики, статистики, биологии, — чтобы помогать людям решать сложные задачи и упрощать рутину с помощью алгоритмов.
Читать полностью »
Хороший инструмент + наличие навыков работы с ним, что достигается путем практики, позволяет легко и элегантно решать множество различных «как бы» нетипичных задач. Ниже пара подобных примеров. Уверен, что многие могут этот список расширить.
Является продолжением предыдущих публикаций.Читать полностью »
Граф Скоринг де ля Фер или исследование на тему кредитного скоринга, в рамках расширения кругозора. Ч.2
2019-08-23 в 15:07, admin, рубрики: big data, data mining, python, Алгоритмы, графы, исследование, кредитный скоринг, машинное обучение, обучение, теория графов, финансы в ITЧасть вторая, в которой Атосу все норм, а вот Графу де ля Фер чего-то не хватает
Вступление от авторов:
Добрый день! Сегодня мы продолжаем цикл статей, посвященный скорингу и использованию в оном теории графов. С первой статьей Вы можете ознакомиться здесь.
Все шуточные аллегории, вставки и прочее призваны немного разгрузить повествование и не позволить ему свалиться в нудную лекцию. Всем, кому не зайдет наш юмор, заранее приносим извинения
Цель данной статьи: не более, чем за 30 минут, описать основные способы хранения данных о графах и описать правила и принципы построения нашей модели для скоринга заемщика.
Термины и определения:
- Хеш-таблица — это структура данных, реализующая интерфейс ассоциативного массива, она позволяет хранить пары (ключ, значение) и выполнять три операции: операцию добавления новой пары, операцию поиска и операцию удаления пары по ключу. Поиск по хеш-таблице, в среднем, осуществляется за время О(1).
Аудиторы, нанятые ПАО «Король» для оценки кредитоспособности НПАО «Один за всех», столкнулись с некоторыми проблемами. С одной стороны, описать схему взаимодействия 10-15 компаний и провести первичную оценку взаимодействия между компаниями очень просто, достаточно иметь под рукой лист бумаги и ручку. Но, что делать, если у вас имеется информация о взаимодействии десятков или сотен тысяч компаний? Например, если Вам нужно описать взаимодействия Арамиса со всеми его пассиями или Д’артаньяна со всеми, с кем он дрался?
С чего начать изучение Python: книги для начинающих
2019-08-21 в 19:13, admin, рубрики: big data, data mining, python, книги по python, книги по программированию, Программирование
Друзья, забирайте в закладки подборку из 17 книг по Python.
Подборка поможет вам освоить язык программирования с нуля или с минимальными знаниями.
Готовы приступить к изучению Python?
Тогда начнем!
Читать полностью »
Опубликована база учёных, которые активно цитируют сами себя. Украина и Россия в лидерах
2019-08-21 в 14:45, admin, рубрики: data mining, индекс цитирования, накрутка рейтинга, Научно-популярное, научные статьи, самоцитирование, цитатные фермыРоссийские и украинские лидеры в рейтинге самоцитирования
Авторитет в научном сообществе определяется количеством ссылок в научных статьях (индекс цитирования). Самые цитируемые в мире — небольшая группа учёных, в которую входят нобелевские лауреаты и выдающиеся исследователи. Однако к ним примыкает ряд менее известных персонажей. Например, Сундарапандиан Вайдьянатан из Индии.
Этот исследователь в области теории хаоса, декан R&D частного технологического института Vel Tech в Ченнаи — соавтор сотен научных работ и абсолютный мировой рекордсмен по саморекламе: 94% (!) ссылок на его научные статьи поставлены им самим или соавторами, пишет Nature.
Читать полностью »
Граф Скоринг де ля Фер или исследование на тему кредитного скоринга, в рамках расширения кругозора
2019-08-20 в 16:51, admin, рубрики: big data, data mining, python, Алгоритмы, графы, исследование, кредитный скоринг, машинное обучение, обучение, теория графов, финансы в ITЧасть первая, в которой Граф еще не стал Атосом, не встретил Миледи и все у него хорошо
Вступление от авторов:
Добрый день! Сегодня мы начинаем цикл статей, посвященных скорингу и использованию в оном теории графов (Т.Г.). Надеюсь, нам хватит запала, сил и терпения, т.к. тема достаточно объемная и, на наш взгляд, интересная.
Несмотря на шуточное название, мы постараемся затронуть отнюдь не шуточные темы, которые уже сейчас влияют на жизнь многих из нас, а в ближайшем будущем могут коснуться всех, без исключения.
Все шуточные аллегории, вставки и прочее призваны немного разгрузить повествование и не позволить ему свалиться в нудную лекцию. Всем, кому не зайдет наш юмор, заранее приносим извинения
А теперь к делу.
Цель данной статьи: не более, чем за 30 минут, ввести читателя в проблематику исследования, определить уровень рассмотрения проблемы, описать основную концепцию исследования и познакомить с базовыми терминами.
Термины и определения:
- Скоринг – система бальной оценки объекта, основанная на численных статистических методах.
- Граф – способ моделирования связей объектов. Представьте, что Вы с друзьями играете в покер и хотите смоделировать, кто кому сейчас должен. Например, «Д’Артаньян должен Атосу 10 луидоров»
Полный граф может выглядеть следующим образом:
Арамис всегда был хитрож… себе на уме, ему должен даже Атос. Портос, пока не встретил госпожу Кокнар, перевязь не мог себе нормальную купить и умудрился задолжать нищеброду Д’артаньяну, хотя, честно говоря, они всю дорогу что-то мутили вместе…