Хабр, привет. Написал пост, который идёт строго (!) в закладки и передаётся коллегам. Он со списком блокнотов и библиотек ML и Data Science для разных отраслей промышленности. Все коды на Python, и размещены на GitHub. Они будут полезны как для расширения кругозора, так и для запуска своего интересного стартапа.
Отмечу, что если среди читателей есть желающие помочь, и добавить в любую из подотраслей подходящий проект, пожалуйста, свяжитесь со мной. Я их добавлю в список. Итак, давайте начнём изучение списка.
1. Недвижимость и питание
1.1. Питание
- RobotChef — совершенствование рецептов еды на основе отзывов пользователей;
- Food Amenities — прогнозирование спроса на пищевые продукты с использованием нейронных сетей;
- Recipe Cuisine and Rating — предсказание названия кухни любого блюда на основе списка его ингредиентов;
- Food Classification — пищевая классификация еды с использованием библиотеки Keras;
- Image to Recipe — перевод изображения еды в рецепт его приготовления;
- Calorie Estimation — оценка калорийности по фотографиям еды;
- Fine Food Reviews — сегментационный анализ еды на основе отзывов с Amazon Fine Food.
1.2. Рестораны
- Restaurant Violation — прогнозирование нарушения правил проверки продуктов питания;
- Restaurant Success — предсказание, будет ли ресторан успешным;
- Predict Michelin — предсказание того, что ресторану дадут звезду Мишлен;
- Restaurant Inspection — анализ уровня лояльности к ресторану и популярностью на основе оценок по Yelp;
- Sales — прогнозирование продаж у ресторанов с LTSM;
- Visitor Forecasting — бронирование и прогнозирование количества посещений;
- Restaurant Profit — ресторанный регрессионный анализ;
- Competition — анализ конкурентоспособности ресторана;
- Business Analysis — проект по анализу ресторанного бизнеса;
- Location Recommendation — рекомендация о будущем местонахождении ресторана;
- Closure, Rating and Recommendation — три задачи прогнозирования с использованием данных Yelp;
- Anti-recommender — рекомендация ресторанов, которые вы (на основе ваших предпочтений) не захотите посещать;
- Menu Analysis — анализ ресторана на основе его меню;
- Menu Recommendation — рекомендация новых ресторанов на основе вашего любимого меню;
- Food Price — прогнозирование стоимости продуктов питания;
- Automated Restaurant Report — автоматический, ресторанный отчет на основе машинного обучения.
1.3. Недвижимость
- Peer-to-Peer Housing — влияние одноразовой аренды жилья на её состояние;
- Roommate Recommendation — рекомендация соседа по комнате;
- Room Allocation — распределение помещений;
- Dynamic Pricing — расчеты динамического ценообразования в отеле;
- Hotel Similarity — сравнение конкурирующих отелей друг с другом;
- Hotel Reviews — отзывы об отелях;
- Predict Prices — предсказание цен на номера в отелях;
- Hotels vs Airbnb — сравнение отелей с Airbnb;
- Hotel Improvement — анализ отзывов для отеля;
- Orders — прогноз отмены заказов для отелей;
- Fake Reviews — распознавание, являются ли отзывы поддельными или спамом;
- Reverse Image Lodging — нахождение нужного вам жилья по изображению.
2. Бухгалтерский учёт
2.1. Machine Learning
- Chart of Account Prediction — использование промеченных данных для имени учетной записи каждой транзакции;
- Accounting Anomalies — выявление аномалий в бухгалтерском учёте;
- Financial Statement Anomalies — обнаружение аномалий (используя R) перед подачей документов в налоговую;
- Useful Life Prediction (FirmAI) — прогнозирование срока полезного использования активов с помощью сенсорных наблюдений и разработки функций;
- AI Applied to XBRL — стандартизированное представление XBRL в AI и ML.
2.2. Аналитика
- Forensic Accounting — сборник тематических исследований по криминалистическому учету с использованием анализа данных;
- General Ledger (FirmAI) — обработка данных в FirmAI;
- Bullet Graph (FirmAI) — визуализация Bullet Graph помогает отслеживать продажи, комиссионные и другие показатели;
- Aged Debtors (FirmAI) — пример анализа для выявления должников;
- Automated FS XBRL — набор файлов PDF, содержащих более 700 страниц информации о XBRL.
2.3. Текстовый анализ
- Financial Sentiment Analysis — анализ рычагов оптимизации в торговле;
- Extensive NLP — комплексные НЛП методы для бухгалтерского учета.
2.4. Данные, парсинг и API
- EDGAR — пошаговое руководство по получению данных EDGAR;
- PyEDGAR — библиотека для загрузки, кэширования и доступа к файлам EDGAR;
- IRS — доступ и анализ файлов IRS;
- Financial Corporate — наборы корпоративных финансовых данных Rutgers;
- Non-financial Corporate — нефинансовый корпоративный набор данных Rutgers;
- PDF Parsing — извлечение полезных данных из документов PDF;
- PDF Tabel to Excel — создание файла Excel из данных в PDF.
2.5. Исследования и статьи
- Understanding Accounting Analytics — статья, посвященная важности бухгалтерской аналитики.
- VLFeat — открытая и портативная библиотека алгоритмов компьютерного зрения, имеющая набор инструментов Matlab.
2.6. Веб-сайты
- Rutgers Raw — исследования в области цифрового бухгалтерского учета от Rutgers.
2.7. Курсы
- Computer Augmented Accounting — видеоролик из Университета Rutgers, посвященный использованию вычислений для улучшения бухгалтерского учета;
- Accounting in a Digital Era — еще одна серия статей Университета Rutgers, посвященная влиянию цифрового века на бухгалтерский учет.
3. Сельское хозяйство
3.1. Экономика
- Prices — прогноз цен на сельскохозяйственную продукцию 1;
- Prices 2 — прогноз цен на сельскохозяйственную продукцию 2;
- Yield — сельскохозяйственный анализ урожайности в Украине;
- Recovery — стратегическое использование земель в сельском хозяйстве с учетом восстановления экосистем;
- MPR — данные отчетности по ценам на сельхоз. продукцию от Министерства сельского хозяйства США.
3.2. Разработка
- Segmentation — сегментация сельскохозяйственных полей с использованием спутниковых снимков;
- Water Table — прогнозирование глубины грунтовых вод в сельскохозяйственных районах;
- Assistant — ноутбуки от виртуального Ассистента по сельскому хозяйству;
- Eco-evolutionary — эко-эволюционная динамика;
- Diseases — идентификация болезней сельскохозяйственных культур и вредителей с использованием фреймворка Deep Learning по изображениям;
- Irrigation and Pest Prediction — анализ орошения и прогноз вероятности появления вредителей.
4. Банковское дело и страхование
4.1. Потребительское финансирование
- Loan Acceptance — принятия решений о ссуде на основе классификации и анализа временных рядов;
- Predict Loan Repayment — прогнозирование погашения кредита с помощью функции автоматизированного проектирования;
- Loan Eligibility Ranking — система, которая помогает банкам проверять, может ли клиент получить данный (определенный) кредит;
- Home Credit Default (FirmAI) — прогнозирование дефолта по кредиту;
- Mortgage Analytics — обширная аналитика ипотечных кредитов;
- Credit Approval — система для одобрения кредитной карты;
- Loan Risk — прогнозная модель, помогающая уменьшить списания и потери %-ов с кредитов;
- Amortisation Schedule (FirmAI) — простой график амортизации в Python.
4.2. Управление и операции
- Credit Card — оценка CLV клиентов кредитной карты;
- Survival Analysis — анализ LTV клиентов;
- Next Transaction — модель глубокого обучения для прогнозирования суммы транзакции и дней до следующей транзакции;
- Credit Card Churn — предсказание оттока клиентов с кредитными картами;
- Bank of England Minutes — основные идеи предварительной обработки текста с использованием протоколов заседаний Комитета по денежно-кредитной политике Банка Англии;
- CEO — анализ корреляции между вознаграждениями генерального директора мужчины и генерального директора женщины.
4.3. Оценка
- Zillow Prediction — прогноз оценки Zillow, выполненный на Kaggle;
- Real Estate — прогнозирование цен на городскую недвижимость;
- Used Car — прогноз цен на подержанный автомобиль.
4.4. Мошеничество
- XGBoost — обнаружение мошенничества путем настройки гиперпараметров XGBoost;
- Fraud Detection Loan in R — обнаружение мошенничества в банковских кредитах;
- AML Finance Due Diligence — поиск новостных статей для финансирования AML DD;
- Credit Card Fraud — обнаружение мошенничества с кредитными картами.
4.5. Страхование и риски
- Car Damage Detective — оценка повреждений автомобиля с помощью свёрточных нейронных сетей;
- Medical Insurance Claims — прогнозирование претензий по медицинскому страхованию;
- Claim Denial — прогнозирование отказа от страхового возмещения;
- Claim Fraud — прогнозные модели, позволяющие определить, какие претензии в отношении автомобилей являются мошенническими;
- Claims Anomalies — система обнаружения аномалий для данных страховых претензий;
- Actuarial Sciences — ряд актуарных инструментов в R;
- Bank Failure — предсказание банкротства;
- Risk Management — финансирование курсов по управлению рисками;
- VaR GaN — оценка стоимости управления рыночным риском с использованием Keras и TensorFlow;
- Compliance — управление соответствиями с требованиями банка;
- Stress Testing — ECB стресс-тестирование;
- Stress Testing Techniques — notebook с различными упражнениями на стресс-тестирование;
- BoE stress test — результаты стресс-теста и составление графика;
- Recovery — возмещение причитающихся денег;
- Quality Control — контроль качества банков с использованием LDA.
4.6. Полезное
- Bank Note Fraud Detection — аутентификация с использованием DNN Tensorflow Classifier и RandomForest;
- ATM Surveillance — наблюдение за банкоматами в банках.
5. Биотехнологии и наука
5.1. Общие
- Programming — программирование для биологов на Python;
- Introduction DL — учебник по углубленному изучению геномики;
- Pose — оценка позы животных с использованием DL;
- Privacy — обмен клиническими данными, с сохранением конфиденциальности;
- Population Genetics — популяционный генетический вывод;
- Bioinformatics Course — материалы курса по вычислительной биологии и биоинформатике;
- Applied Stats — прикладная статистика для высокопроизводительной биологии;
- Scripts — скрипты Python для биологов;
- Molecular NN — мини-фреймворк для построения и обучения нейронных сетей для молекулярной биологии;
- Systems Biology Simulations — практическая системная биология при написании симуляторов с F # и Z3;
- Cell Movement — LSTM для прогнозирования биологического движения клеток;
- Deepchem — глубокое обучение для открытия новых лекарств, квантовой химии, материаловедения и биологии.
5.2. Последовательность
- DNA, RNA and Protein Sequencing — новое представление для биологических последовательностей;
- CNN Sequencing — набор инструментов для изучения последовательности ДНК/РНК с использованием сверточных нейронных сетей;
- NLP Sequencing — модель обучения языковой передаче для геномики.
5.3. Хемоинформатика и открытие лекарств
- Novel Molecules — сверточная сеть, которая может изучать функции;
- Automating Chemical Design — создание новых молекул для эффективного исследования;
- GAN drug Discovery — метод, который сочетает в себе генеративные модели с обучением и подкреплением;
- RL — генерирующие соединения, предсказанные как активные;
- One-shot learning — использование машинного обучения в области поиска лекарств простым и удобным способами.
5.4. Геномные
- Jupyter Genomics — сборник ноутбуков по вычислительной биологии и биоинформатике;
- Variant calling — определение отклонений от эталонного генома в ДНК человека;
- Gene Expression Graphs — использование сверток на изображениях;
- Autoencoding Expression — извлечение соответствующих шаблонов из больших наборов данных экспрессии генов;
- Gene Expression Inference — прогнозирование экспрессии указанных генов-мишеней из панели из примерно 1000 предварительно выбранных «ориентировочных генов»;
- Plant Genomics — материал для презентаций и примеров для геномики растений и патогенов.
5.5. Наука
- Plants Disease — приложение, которое выявляет болезни у растений с помощью модели глубокого обучения;
- Leaf Identification — идентификация растений через листья на основе их формы, цвета и текстуры;
- Crop Analysis — библиотека изображений для обнаружения и отслеживания будущего положения колосьев на растениях кукурузы;
- Seedlings — растительная рассада, классификация от Kaggle;
- Plant Stress — онтология, содержащая растительные стрессы;
- Animal Hierarchy — пакет для расчета иерархий доминирования животных;
- Animal Identification — глубокое обучение идентификации животных;
- Species — анализ больших данных различных видов животных;
- Animal Vocalisations — генеративная сеть для вокализации животных;
- Evolutionary — инструмент стратегий эволюции;
- Glaciers — учебный материал о ледниках.
6. Строительная техника
6.1. Строительство
- DL Architecture — генератор изображений для построения архитектуры;
- Construction Materials — курс по строительным материалам;
- Bad Actor Risk Model — модель риска для повышения безопасности строительства;
- Inspectors — определение назначенных инспекций;
- Corrupt Social Interactions — выявение потенциальных коррумпированных взаимодействий между сотрудниками отрасли и сотрудниками DOB;
- Risk Construction — определение высокорискованного строительства;
- Facade Risk — модель риска для прогнозирования небезопасных фасадов;
- Staff Levels — прогнозирование уровня персонала для передовых работников;
- Injuries — моделирование количества травм, связанных со строительством;
- Productivity — анализ и проверка производительности.
6.2. Инженерия
- Structural Analysis — 2D Структурный анализ в Python;
- Structural Engineering — структурные инженерные модули;
- Nusa — структурный анализ с использованием метода конечных элементов;
- StructPy — библиотека структурного анализа для Python на основе метода прямой жесткости;
- Aileron — структурный анализ элеронов Боинга 737;
- Vibration — образовательные вибрационные программы;
- Civil — сборник инструментов гражданского строительства в FreeCAD;
- GEstimator — подготовки сметы расходов на строительные и электромонтажные работы с подробным анализом тарифов;
- Fatpack — функции и классы для анализа усталости ряда данных;
- Pysteel — автоматизированное проектирование стальной конструкции;
- Structural Uncertainty — количественная оценка структурной неопределенности на основе глубокого обучения;
- Pymech — модуль Python для инженеров-механиков;
- Aerospace Engineering — астродинамика и статистика;
- Interactive Quantum Chemistry — объединение Psi4 и Numpy для образования и развития;
- Chemical and Process Engineering — различные ресурсы химической и технологической инженирии;
- PyTherm — прикладная термодинамика;
- Aerogami — аэродинамика с использованием самолетов;
- Electro geophysics — интерактивные приложения для электромагнетизма в геофизике;
- Graph Signal — учебник по обработке сигналов на графике;
- Mechanical Vibrations — механические вибрации в Университете Луизианы;
- Process Dynamics — динамика процесса и управления;
- Battery Life Cycle — прогнозирование срока службы батареи на основе данных;
- Wind Energy — Python для энергии ветра;
- Energy Use — стандартные методы расчета нормированного потребления энергии;
- Nuclear Radiation — как люди подвержены воздействию радиации, излучаемой атомными электростанциями.
6.3. Материаловедение
- Python Materials Genomics — код анализа материалов, используемый в устоявшемся проекте;
- Materials Mining — скрипты для моделирования и анализа материалов;
- Emmet — создание баз данных свойств материалов;
- Megnet — графовые сети как каркас ML для молекул и кристаллов;
- Atomate — рабочие процессы для вычислительного материаловедения;
- Bylaws Compliance — предсказание штрафов на собственность;
- Asphalt Binder — строительные материалы, свободная энергия и химический состав вяжущего асфальтового покрытия;
- Awesome Materials Informatics — кураторский список известных работ в области материаловедения.
7. Экономика
7.1. Общее
- Trading Economics API — Торговая экономика API, информация для 196 стран;
- Development Economics — микроэкономика развития;
- Applied Econ & Fin — прикладная вычислительная экономика и финансы;
- Macroeconomics — темы по макроэкономике с примерами из notebook.
7.2. Машинное обучение
- EconML — автоматизированное обучение и анализ причинно-следственных связей;
- Auctions — оптимальные аукционы с использованием глубокого обучения.
7.3. Вычисления
- Quant Econ — курс количественной экономики от NYU;
- Computational — вычислительные методы в экономике;
- Computational 2 — малый курс по вычислительной экономике;
- Econometric Theory — notebook'и по эконометрической теории для начинающих.
8. Образование и исследования
8.1. Студенты
- Student Performance — успеваемость студентов расчитанная на основе машинного обучения;
- Student Performance 2 — студенческий экзамен;
- Student Performance 3 — успеваемость учащихся в учреждениях среднего образования;
- Student Performance 4 — оценка успеваемости учеников с использованием Feature Engineering;
- Student Enrolment — регистрация студентов и анализ результатов;
- Academic Performance — изучение демографических и семейных особенностей, которые влияют на успеваемость учащегося;
- Grade Analysis — анализ достижений учащихся.
8.2. Школа
- School Choice — анализ данных для выбора школы;
- School Performance — практика анализа данных с использованием данных из data.utah.gov о школьной успеваемости;
- School Performance 2 -использование Pandas для анализа школьной и ученической успеваемости в округе;
- School Performance 3 — Филадельфия Школа Performance;
- School Performance 4 — NJ Школа Performance;
- School Closure — определение школ, подверженных риску закрытия, по показателям успеваемости и другим характеристикам;
- School Budgets — инструменты и методы для школьного бюджетирования;
- School Budgets — инструменты и методы для школьного бюджетирования part 2;
- PyCity — анализ школ;
- PyCity 2 — сопоставление школьного бюджета и школьных результатов;
- Budget NLP — классификация НЛП для бюджетных ресурсов;
- Budget NLP 2 — дальнейшая классификация упражнений;
- Budget NLP 3 — Бюджетная классификация;
- Survey Analysis — анализ опроса в сфере образования.
9. Чрезвычайные ситуации
9.1. Профилактика
- Emergency Mapping — обнаружение разрушенных домов в Калифорнии;
- Emergency Room — поддержка принятия срочных решений;
- Emergency Readmission — скорректированный риск аварийной реадмиссии;
- Forest Fire — обнаружение лесного пожара с помощью изображений БПЛА с использованием CNN;
- Emergency Response — анализ аварийного реагирования;
- Emergency Transportation — транспортная подсказка на аварийные службы;
- Emergency Dispatch — сокращение времени отклика благодаря интеллектуальному моделированию, оптимизации и автоматизации;
- Emergency Calls — проект анализа экстренных вызовов;
- Calls Data Analysis — анализ данных звонков 911;
- Emergency Response — химический завод РЛ.
9.2. Преступления
- Crime Classification — анализ времени серьезных нападений, неправильно классифицированных LAPD;
- Article Tagging — обработка естественного языка в новостной статье в Чикаго;
- Crime Analysis — нахождения правил ассоциации из пространственных данных для анализа преступности;
- Chicago Crimes — Изучение публичных данных о преступлениях в Чикаго в Python;
- Graph Analytics — Гаагские преступления;
- Crime Prediction — классификация, анализ и предсказание Преступности в городе Индор;
- Crime Prediction — разработаные прогностические модели уровня преступности;
- Crime Review — анализ данных обзора преступности.
- Crime Trends — анализ тенденций преступности и проблемных условий, побуждающих к этому;
- Crime Analytics — анализ данных о преступности в Сиэтле и Сан-Франциско.
9.3. Скорая помощь
- Ambulance Analysis — исследование изменения времени приезда скорой помощи в штате Виктория;
- Site Location — места расположения скорой помощи;
- Dispatching — применение теории игр и симуляции дискретных событий, для нахождения оптимального решения диспетчеризации скорой помощи;
- Ambulance Allocation — анализ временных рядов отправлений скорой помощи в городе Сан-Диего;
- Response Time — анализ улучшения времени отклика машины скорой помощи;
- Optimal Routing — проект по поиску оптимальной маршрутизации машин скорой помощи;
- Crash Analysis — прогнозирование вероятности аварий на данном сегменте в данный момент времени.
9.4. Управление стихийными бедствиями
- Conflict Prediction — Notebooks по прогнозированию конфликтов;
- Burglary Prediction — пространственно-временное моделирование для предсказания взломов;
- Predicting Disease Outbreak — прогнозирование вспышек заболевания;
- Road accident prediction — прогноз по типу жертв федеральных ДТП в Бразилии;
- Text Mining — управление стихийными бедствиями с использованием Text mining;
- Twitter and disasters — предсказание, твитов о бедствиях;
- Flood Risk — влияние катастрофических наводнений;
- Fire Prediction — 4 алгоритма расчета вероятности будущих пожаров.
10. Финансы
10.1. Торговля и инвестиции
- Deep Portfolio — предсказание объёма облигаций на основе глубокого обучения;
- AI Trading — современные методы торговли AI;
- Corporate Bonds — прогнозирование объема покупки и продажи корпоративных облигаций;
- Simulation — исследование симуляции, как части вычислительного финансирования;
- Industry Clustering — проект кластеризации отраслей по финансовым признакам;
- Financial Modeling — HFT-трейдинг и моделирование волатильности;
- Trend Following — фьючерсная тенденция после стратегии портфельных инвестиций;
- Financial Statement Sentiment — извлечение прогнозов из финансовой отчетности с использованием нейронных сетей;
- Applied Corporate Finance — изучения эмпирического поведения на фондовом рынке;
- Market Crash Prediction — прогнозирование рынка с использованием модели LPPL;
- NLP Finance Papers — составление количественных финансовых документов с использованием машинного обучения;
- ARIMA-LTSM Hybrid — гибридная модель для прогнозирования будущих коэффициентов ценовой корреляции двух активов;
- Basic Investments — основные инвестиционные инструменты в Python;
- Basic Derivatives — основные форвардные контракты и хеджирование;
- Basic Finance — исходные коды ноутбуков базовых финансовых приложений;
- Advanced Pricing ML — дополнительная реализация достижений в области финансового машинного обучения;
- Options and Regression — проект финансового инжиниринга для методов оценки опционов;
- Quant Notebooks — Обучающие ноутбуки по квантовым финансам, алгоритмической торговле и инвестиционной стратегии;
- Forecasting Challenge — задача финансового прогнозирования от G-Research;
- XGboost — торговый алгоритм, использующий XgBoost;
- Research Paper Trading — реализация стратегии на основе бумаги с использованием Alpaca Markets;
- Various — опции, распределение, моделирование;
- ML & RL NYU — машинное обучение и обучение в сфере финансов.
10.2. Данные
- Datastream — Datastrem от Thomson Reuters, доступный через Python;
- AlphaVantage — API-обертка для упрощения процесса получения бесплатных финансовых данных;
- FSA — Проект по переводу финансовых данных SEC Edgar Filings в пользовательские модели анализа финансовой отчетности;
- TradeConnector — связи с поставщиками рыночных данных;
- Employee Count SEC Filings — точные значения количества сотрудников для компаний из заявок SEC;
- SEC Parsing — НЛП для поиска и извлечения конкретной информации из длинных неструктурированных документов;
- Open Edgar — OpenEDGAR;
- Rating Industries — истории от нескольких агентств, конвертированные в формат CSV.
11. Здравоохранение
11.1. Общее
- zEpid — пакет эпидемиологического анализа;
- Python For Epidemiologists — учебное пособие по введению эпидемиологического анализа в Python;
- Prescription Compliance — анализ предписания и медицинского соответствия;
- Respiratory Disease — отслеживание респираторных заболеваний у спортсменов-олимпийцев;
- Bubonic Plague — Бубонная чума и модель SIR.
12. Юстиция, закон и регламент
12.1. Инструменты
- LexPredict — контроль над своими контрактами;
- AI Para-legal — первый в мире помощник адвоката AI;
- Legal Entity Detection — обнаружение юридического лица;
- Legal Case Summarisation — внедрение различных алгоритмов суммирования применительно к судебным решениям;
- Legal Documents Google Scholar — использование Google scholar для программного извлечения дел;
- Chat Bot — чат-бот и уведомления по электронной почте;
- Data Generator GDPR — генератор фиктивных данных для соответствия GDPR.
12.2. Политика и регулирование
- GDPR scores — прогнозирование показателей GDPR для юридических документов;
- Driving Factors FINRA — определение факторов, влияющие на решения арбитража FINRA;
- Securities Bias Correction — оценка влияния цены на судебные процессы по ценным бумагам;
- Public Firm to Legal Decision — публичная фирма для юридических решений;
- Night Life Regulation — ночная жизнь Австралии, ее регулирование и полицейская деятельность;
- Comments — общественные комментарии по государственному регулированию;
- Clustering — кластеризация канадских правил;
- Environment — регулирование энергетики и окружающей среды;
- Risk — риск различных финансовых положений;
- FINRA Compliance — лучшее моделирование на соответствие.
12.3. Судебная практика
- Supreme Court Prediction — предсказание идеологического направления решений Верховного Суда;
- Supreme Court Topic Modeling — тематическое моделирование в Верховном суде;
- Judge Opinion — использование анализа текста и машинного обучения для анализа мнений судей по конкретным вопросам;
- ML Law Matching — производитель матчей по машинному обучению;
- Bert Multi-label Classification — мультибликовая классификация Берта.
13. Производство
13.1. Общее
- Green Manufacturing — Mercedes-Benz Greener соревнование на Kaggle;
- Semiconductor Manufacturing — анализ данных производственной линии Semiondutor;
- Smart Manufacturing — совместная работа по методологии моделирования;
- Bosch Manufacturing — производственный проект Bosch, Kaggle.
13.2. Техническое обслуживание
- Predictive Maintenance 1 — прогнозирование оставшегося срока использования авиационных двигателей;
- Predictive Maintenance 2 — время до отказа (TTF) или оставшийся срок полезного использования двигателя (RUL);
- Manufacturing Maintenance — моделирование обслуживания в производственных систем.
13.3. Ошибки
- Predictive Analytics — метод прогнозирования сбоев в оборудовании;
- Detecting Defects — обнаружение аномалий для дефектных полупроводников;
- Defect Detection — интеллектуальное обнаружение дефектов для производства таблеток;
- Manufacturing Failures — сокращение производственных сбоев;
- Manufacturing Anomalies — интеллектуальное обнаружение аномалий для производственной линии.
13.4. Качество
- Quality Control — обнаружение провалов в контроле качества;
- Manufacturing Quality — интеллектуальный прогноз качества производства;
- Auto Manufacturing — данные о продаже автомобилей на аукционе.
14. СМИ и издательство
14.1. Маркетинг
- Video Popularity — HIP модель для прогнозирования популярности видео;
- YouTube transcriber — автоматически транскрибирует видео в YouTube;
- Marketing Analytics — маркетинговая аналитика, тематические исследования;
- Algorithmic Marketing — модели от введения до книги «Алгоритмический маркетинг»;
- Marketing Scripts — приложения для маркетинга данных;
- Social Mining — майнинг социальных сетей.
15. Физика
15.1. Общее
- Gamma-hadron Reconstruction — инструменты, используемые в наземной астрономии гамма-излучений;
- Curriculum — ньютоновские notebook'и;
- Interaction Networks — сети взаимодействия для изучения объектов, отношений и физики;
- Particle Physics — генерационный и аналитический код для изучения физики частиц;
- Computational Physics — хранилище вычислительной физики;
- Medical Physics — полезный Python для медицинской физики;
- Medical Physics 2 — общий, основной пакет Python для медицинской физики;
- Flow Physics — физика и аэроакустика с Python.
15.2. Машинное обучение
- Physics ML and Stats — машинное обучение и статистика для физиков;
- High Energy — машинное обучение для физики высоких энергий;
- High Energy GAN — генеративные состязательные сети для физики высоких энергий;
- Neural Networks — физика встречает нейронные сети.
16. Правительство
16.1. Социальная политика
- Triage — универсальный инструментарий по моделированию рисков и прогнозированию политических решений и социальных проблем;
- World Bank Poverty I — сравнительная оценка алгоритмов классификации машинного обучения, применяемых для прогнозирования бедности;
- World Bank Poverty II — сравнительная оценка алгоритмов классификации машинного обучения, применяемых для прогнозирования бедности II;
- Overseas Company Land Ownership — определение иностранной собственности в Великобритании;
- CFPB — анализ жалоб Бюро по защите прав потребителей;
- Cannabis Legalisation Effect — Влияние легализации каннабиса на преступность;
- Public Credit Card — идентификация потенциального мошенничества с кредитными картами;
- Recidivism Prediction — прозрачность и учёт оценки риска рецидивизма;
- Household Poverty — предсказание бедности домохозяйств в Коста-Рике;
- NLP Public Policy — пример варианта использования НЛП в публичной политике;
- World Food Production — сравнение ведущих производителей продуктов питания и кормов по всему миру;
- Tax Inequality — проект данных о налогообложении и неравенстве в Базеле;
- Sheriff Compliance — соответствие требованиям ICE;
- Apps Detection — обнаружение подозрительных приложений для детей;
- Social Assistance — актуальная информация о социальной помощи;
- Computational Social Science — курс летних школьных наук по социальным данным;
- Liquor and Crime — влияние спиртных напитков на уровень преступности;
- Animal Placement Kennels — оптимизация размещения животных в приютах;
- Staffing Wall — независимый исследовательский проект на мексиканской границе США;
- Worker Fatalities — карта несчастных случаев на производстве по данным OSHA.
16.2. Благотворительность
- Census Data API — извлечение переменных из 5-летнего опроса американского сообщества;
- Donor Identification — проект машинного обучения, в котором нужно найти доноров для благотворительности;
- Charity Effectiveness — сбор онлайн-данных о благотворительных организациях, чтобы понять их эффективность.
16.3. Анализ выборов
- Election Analysis — анализ выборов и модели прогнозирования;
- American Election Causal — использование данных ANES с моделями причинно-следственных связей;
- Campaign Finance and Election Results — изучение связи между финансированием кампании и результатами последующих выборов;
- Voting System — методы голосования пропорционального представительства;
- President Vote — голосование по анализу уровня доходов.
16.4. Политика
- Congressional politics — палата представителей конгресса США;
- Politico — платформа для профилирования общественных деятелей в бразильской политике;
- Bots — инструменты и алгоритмы для анализа парагвайских твитов во время выборов;
- Gerrymander tests — множество метрик для количественной оценки Gerrymandering;
- Sentiment — анализ газет на предмет их политической убежденности с использованием субъективных настроений представителей партии;
- DL Politics — сравнение социалистической партия против народной в Бразилии;
- PAC Money — влияние денег PAC на политику США;
- Power Networks — создание сторожевого пса для индийских корпоративных и политических сетей;
- Elite — политическая элита в США;
- Debate Analysis — программа для анализа политических дебатов;
- Political Affiliation — прогноз политической принадлежности с использованием метаданных Twitter;
- Political Ads — расследование в Facebook политических объявлений и таргетинга;
- Political Identity — многоосная политическая модель политической идентичности;
- YT Politics — отображение политики на YouTube;
- Political Ideology — неконтролируемое изучение политической идеологии с помощью словесных векторных проекций.
17. Недвижимость, аренда и лизинг
17.1. Недвижимость
- Finding Donuts — прогнозировании окрестностей;
- Neighbourhood — прогнозирование цен на недвижимость в городе;
- Real Estate Classification — классификация типа имущества с учетом недвижимости, спутниковой связи и просмотра улиц;
- Recommender — рекомендательная система топ-5 объектов недвижимости, которые соответствуют поиску пользователя;
- House Price — предсказание цены дома с использованием линейной регрессии и GBR;
- House Price Portland — предсказание цены на жилье в Портленде;
- Zillow Prediction — прогноз оценки Zillow, выполненный на Kaggle.
17.2. Аренда и лизинг
- Analyzing Rentals — анализ и визуализация данных списков аренды;
- Interest Prediction — предсказание интереса людей к аренде конкретных квартир в Нью-Йорке;
- Predict Household Poverty — прогнозирование бедности домохозяйств в Коста-Рике;
- Airbnb public analytics competition — конкурс публичной аналитики Airbnb.
18. Коммунальные услуги
18.1. Электроэнергия
- Electricity Price — сравнение цен на электроэнергию в Сингапуре;
- Electricity-Coal Correlation — определение корреляции между государственными тарифами на электроэнергию и выработкой угля за последнее десятилетие;
- Electricity Capacity — анализ Los Angeles Times анализа дорогостоющей электроэнергии в Калифорнии;
- Electricity Systems — оптимальная система электроэнергии для европейских стран;
- Load Disaggregation — интеллектуальная разметка нагрузки по скрытым марковским моделям;
- Price Forecasting — прогнозирование цен на электроэнергию на сутки вперед в немецкой зоне торгов с глубокими нейронными сетями;
- Carbon Index — расчет интенсивности CO₂ и электричества в регионах страны, НКРЭ с 2001 года;
- Demand Forecasting — прогнозирование спроса на электроэнергию в Остине;
- Electricity Consumption — оценка потребления электроэнергии из обследований домашних хозяйств;
- Electricity French Distribution — анализ данных по электроэнергии, предоставленных французской распределительной сетью (RTE);
- Renewable Power Plants — временные ряды совокупной установленной мощности;
- Wind Farm Flow — хранилище моделей потоков ветровой электростанции, подключенных к FUSED-Wind;
- Power Plant — набор данных содержит 9568 точек данных, собранных электростанцией с комбинированным циклом за 6 лет (2006-2011 гг.).
18.2. Уголь, нефть и газ
- Coal Prediction — прогнозирование добычи угля;
- Oil & Gas — прогноз цены на нефть и природный газ с использованием ARIMA и нейронных сетей;
- Gas Formula — расчет потенциального экономического эффекта формулы индексации цен;
- Demand Prediction — прогноз спроса на природный газ;
- Consumption Forecasting — прогнозирование потребления природного газа;
- Gas Trade — мировая модель торговли природным газом.
18.3. Загрязнение воды
- Safe Water — предсказание нарушения качества питьевой воды, основанные на здоровье людей в США;
- Hydrology Data — набор удобных функций для изучения данных о воде в Python;
- Water Observatory — мониторинг уровня воды в озерах и водохранилищах с использованием спутниковых изображений;
- Water Pipelines — использование машинного обучения для поиска водопроводов на аэрофотоснимках;
- Water Modelling — австралийская система моделирования сообществ по оценке водных ресурсов;
- Drought Restrictions — анализ использования воды в Los Angeles;
- Flood Prediction — применение LSTM к данным об уровне воды в реке;
- Sewage Overflow — анализ санитарных переливов (SSO);
- Air Quality Prediction — прогноз качества воздуха (aq) в Пекине и Лондоне в течение следующих 48 часов.
18.4. Логистика
- Transdim — создание точных и эффективных решений для задач расчета и прогнозирования пространственно-временных данных потоков трафика машин;
- Transport Recommendation — контекстно-зависимая рекомендация по мультимодальной транспортировке;
- Transport Data — данные и ноутбуки для транспорта Торонто;
- Transport Demand — прогнозирование спроса на общественный транспорт в Найроби;
- Demand Estimation — внедрение динамической оценки спроса отправителя-получателя;
- Congestion Analysis — анализ транспортных систем;
- TS Analysis — анализ временных рядов по транспортным данным;
- Network Graph Subway — анализ уязвимости для транспортных сетей;
- Transportation Inefficiencies — количественная оценка неэффективности транспортных сетей;
- Train Optimisation — оптимизация расписания поездов;
- Traffic Prediction — прогнозирование городского трафика;
- Predict Crashes — прогнозирования сбоев, использующее несколько источников данных;
- AI Supply chain — система оптимизации цепочки поставок;
- Transfer Learning Flight Delay — использование вариационных кодеров в Keras для прогнозирования задержки полета;
- Replenishment — код для управления цепочкой поставок.
19. Оптовая и розничная торговля
19.1. Оптовая торговля
- Customer Analysis — анализ оптовых клиентов;
- Distribution — JB оптовый анализ распределения;
- Clustering — кластеризация данных о затратах на продукт, собираемым для клиентов;
- Market Basket Analysis — публичный набор данных Instacart, с информацией о том, какие продукты часто покупаются вместе.
19.2. Розничная торговля
- Retail Analysis — онлайн набор данных о розничной торговле;
- Online Insights — анализ онлайн-транзакций в Великобритании;
- Retail Cohort — когортный анализ.
На этом наш пост о применение ML и DS в промышленности подошел к концу. Надеюсь вы узнали для себя что-нибудь новое.
Если у вас есть то, чем вы можете поделиться сами — пишите в комментариях. Больше информации о машинном обучении и Data Science на Хабре и в телеграм-канале Нейрон (@neurondata).
Всем знаний!
Автор: Rushan