- PVSM.RU - https://www.pvsm.ru -

От распределённого бэкенда — к сильному ИИ. Чем сейчас занимается легендарный Джефф Дин?

От распределённого бэкенда — к сильному ИИ. Чем сейчас занимается легендарный Джефф Дин? - 1 [1]

На Хабре иногда рассказывают про выдающихся программистов современности, таких как Линус Торвальдс [2], Фабрис Беллар [3] и Джефф Дин [4]. Про этих людей ходят легенды. Особенно выделяется последний, которого в шутку сравнивают с Чаком Норрисом.

Шутки про Джеффа Дина [4] дают понимание, насколько легендарной стала эта личность среди разработчиков Google:

«Когда Джефф Дин разрабатывает программу, то сначала создаёт бинарник, а потом пишет исходный код как документацию».

«Джефф Дин однажды не прошёл тест Тьюринга, потому что правильно установил 203-е число Фибоначчи менее чем за секунду».

«Джефф Дин родился 31 декабря 1969 года в 23:48. Ему потребовалось 12 минут, чтобы запустить свой первый счётчик времени».

▍ Предыдущие работы

От распределённого бэкенда — к сильному ИИ. Чем сейчас занимается легендарный Джефф Дин? - 2До прихода в Google Джефф Дин работал в Западной исследовательской лаборатории DEC/Compaq, где занимался разработкой средств профилирования, архитектуры CPU и информационного поиска. Большая часть его работы была выполнена в тесном сотрудничестве с Санджаем Гемаватом, потом они вместе перешли в Google («Дружба, благодаря которой Google вырос до огромных размеров» [5]).

Ещё до аспирантуры Джефф принял участие в Глобальной программе по СПИДу Всемирной организации здравоохранения, разрабатывая ПО для статистического моделирования и прогнозирования пандемии ВИЧ. Его бесплатная программа Epi Info [6] работала в 26 раз быстрее любого профессионального софта для обработки больших объёмов эпидемиологических данных.

«Скорость света в вакууме была около 55 км/ч. Затем Джефф Дин потратил уик-енд на оптимизацию физики».

От распределённого бэкенда — к сильному ИИ. Чем сейчас занимается легендарный Джефф Дин? - 3

Легенды о Джеффе Дине

«Джефф Дин не пользуется ни Emacs’ом, ни Vi. Он набирает код непосредственно в zcat, потому что так быстрее».

«Когда Ричард Столлман узнал, что автобиография Дина выйдет эксклюзивно на платформе Amazon, он купил Kindle».

«Недовольный константным временем, Джефф Дин создал первый в мире алгоритм O(1/n)».

«Однажды в 2002 году, когда поисковый бэкенд отключился, Джефф Дин два часа вручную отвечал на вопросы пользователей. В этот период качество поисковой выдачи существенно возросло».

«Джеффу Дину пришлось изобрести асинхронные API однажды, когда после его оптимизации функция вернула значение прежде, чем её вызвали».

«Скорость программирования Джеффа Дина выросла в 40 раз в конце 2000 года, когда он проапгрейдил клавиатуру на USB 2.0».

«Компиляторы не предупреждают Джеффи Дина. Джефф Дин предупреждает компиляторы».

«Джефф Дин однажды написал алгоритм O(n^2). Это нужно было для решения задачи коммивояжёра».

«Джефф Дин однажды поднял веб-сервер одним вызовом printf(). Другие инженеры добавили тысячи строк комментариев с пояснениями, но так и не поняли, как он работает. Сегодня программа работает в качестве фронтенда Google Search».

«Когда Джефф Дин запускает профайлер, все циклы в страхе расцикливаются».

«Джефф Дин всё ещё ждёт, когда математики найдут шутку, которую он спрятал в разрядах числа Пи».

«На клавиатуре Джеффа Дина две клавиши: 1 и 0».

«Команда gcc -O4 отправляет ваш код Джеффу Дину для полной переделки».

«Когда Джефф не может заснуть, он мап-редьюсит овечек».

«Когда Джефф Дин хочет послушать mp3, он отправляет его в /dev/dsp и осуществляет декодирование в голове».

«Когда Грэм Белл изобрёл телефон, то увидел пропущенный вызов от Джеффа Дина».

«Джефф Дин надевает штаны по очереди на каждую ногу, но если бы у него было больше двух ног, то мы бы увидели, что ему требуется O(log n)».

«На собеседовании в Google Джеффа спросили, что следовало бы из равенства P=NP. Он ответил: «P = 0 или N = 1». Затем, пока собеседующий ещё не перестал смеяться, Джефф присмотрелся к публичному сертификату Google и выписал приватный ключ на доску».

Дина приняли в штат Google в 1999 г., когда там числилось около 20 сотрудников. Уже тогда он считался одним из самых талантливых молодых учёных в США в области информатики, а для Google был сродни выигрышу в лотерею. С тех пор он разработал и внедрил значительную часть систем рекламы, поиска, индексации и обслуживания запросов, а также различные элементы распределённой инфраструктуры, которые лежат в основе большинства продуктов Google. То есть по сути он выполнил роль «технологического движка», на котором основаны сервисы Google.

Вот его официальная биография [7] со ссылками на лучшие лекции и публичные выступления. Отметим только один интересный факт: за свою карьеру Джеффу пришлось пожить в десятке разных городов и стран, а одна из его целей по жизни — поиграть в футбол и баскетбол на всех континентах (пока что он сделал это только на пяти).

Среди проектов, к которым он приложил руку:

  • Spanner [8] — масштабируемая, многоверсионная, глобально распределённая и синхронно реплицируемая база данных. БД распределена по множеству дата-центров Google на разных континентах, при этом обеспечивая целостность и синхронизацию данных.
  • Проектирование части бэкенда системы машинного перевода Google Translate [9].
  • Крупномасштабная система полуструктурированного хранения данных Bigtable [10].
  • Система для крупномасштабных приложений обработки данных MapReduce [11].
  • Опенсорсное NoSQL-хранилище «ключ-значение» LevelDB [12].
  • DistBelief — проприетарная система машинного обучения для глубоких нейросетей, впоследствии рефакторизованная в TensorFlow.
  • TensorFlow [13] — опенсорсная библиотека машинного обучения

▍ Нынешние проекты

Как и некоторые другие талантливые программисты современности, Джефф Дин отдался главной задаче, которая стоит перед человечеством — разработке сильного ИИ и методов машинного обучения (напомним, что над этой проблемой также работает Джон Кармак [14]).

В апреле 2018 года Дина сняли с инфраструктурных проектов и назначили на новый фронтир — руководителем подразделения искусственного интеллекта Google AI [15], сформированного тогда из разных ИИ-проектов Google Research. Уже в то время Google вела многочисленные перспективные разработки по компьютерному зрению [16], в области медицины [17] и инновационного обучения нейросетей (AutoML [18]).

От распределённого бэкенда — к сильному ИИ. Чем сейчас занимается легендарный Джефф Дин? - 4
Мозг [19] сапиенса появился в ходе эволюции со случайными мутациями из относительно простого мозга [19] червяка примерно за 500 млн лет [20]. Система AutoML [18] тоже применяет в обучении нейросетей эволюционный подход со случайными мутациями

От распределённого бэкенда — к сильному ИИ. Чем сейчас занимается легендарный Джефф Дин? - 5
Эффективность эволюционного подхода обычно выше, чем у стандартного обучения с подкреплением

С 2023 года после слияния подразделения Google Brain (часть Google Research) с приобретённой компанией DeepMind [21] Джефф Дин официально стал Chief Scientist в Google DeepMind и Google Research, с подчинением напрямую исполнительному директору Сундару Пичаи, и больше никому.

Компания Google примерно с 2016 года считалась мировым лидером в области разработок ИИ. Именно тогда вышла новая версия Google Translate. Если раньше это была система статистического машинного перевода [22], то версия от 2016 года была основана на более продвинутом подходе нейронного машинного перевода. Стало окончательно ясно, что за нейросетями — будущее, а компания Google поняла это чуть ли не раньше всех.

В 2014 году она купила компанию DeepMind с десятками лучших в мире специалистов по машинному обучению, которые неоднократно с завидной регулярностью публиковали революционные научные статьи и попадали на первые обложки журналов [23]. Несмотря на отчаянные просьбы [24] учёных оставить их в покое и сделать на базе DeepMind некоммерческое подразделение, которое своими важными научными открытиями будет приносить пользу всему миру, компания Google поступила иначе, инкорпорировав их в свою структуру, требуя [25] выйти на прибыль [26]. Есть мнение, что такое давление Google на DeepMind стало одной из причин создания альтернативной некоммерческой лаборатории OpenAI в 2015 году, хотя это тема для отдельного разговора… Вполне вероятно, что туда перешли многие специалисты DeepMind после покупки корпорацией Google.

Известные изобретения Google (и DeepMind) в сфере машинного обучения — AlphaGo, трансформеры (на которых основаны современные большие языковые модели), word2vec, WaveNet, AlphaFold, модели seq2seq, дистилляция данных, глубокое обучение с подкреплением. Компания разработала и выложила во всеобщее пользование распределённые системы и программные фреймворки, такие как TensorFlow и JAX, для программирования, обучения и развёртывания крупномасштабных моделей машинного обучения. Она заложила крепкий фундамент для дальнейшего развития этой отрасли.

В последнее время позиции Google на этом рынке немного пошатнулись в связи с хайповым релизом GPT-3.5/4 [27] от OpenAI и LLaMA [28] от Meta. Но вполне возможно, что это временное явление. Google давно работает в данном направлении и сконцентрировала мощный интеллектуальный потенциал, так что наверняка покажет что-то выдающееся в ближайшие годы. И Джефф Дин будет к этому причастен…

Среди текущих проектов Google DeepMind и Google Research:

  • PaLM 2 [29] — большая языковая модель следующего поколения. Есть PALM API [30] для интеграции ИИ в сторонние продукты (по предварительной записи [31]) и конструктор MakerSuite [32] для прототипирования ИИ-приложений без программирования (с интеграцией в PALM API), здесь тоже запись [31] в список ожидания.

    От распределённого бэкенда — к сильному ИИ. Чем сейчас занимается легендарный Джефф Дин? - 6

  • Bard [33] — чат-бот на базе PaLM 2 для ответов на вопросы и информационной помощи людям. В ближайшее время к нему подключат огромный массив информации Data Commons [34], недоступный для других LLM, так что он станет работать гораздо лучше.
  • Med-PaLM 2 [35], специализированная LLM медицинского применения (помощь при диагностировании болезней, справочная информация). Это первый ИИ, который прошёл экзамен на лицензию врача US Medical License Exam (USMLE), а вторая версия LLM показывает результат 86,5% в этом тесте (проходной балл для людей около 60%).
    Sec-PaLM [36], как ранее упомянутые Med-PaLM 2 и Bard, она построена на PaLM 2.

    От распределённого бэкенда — к сильному ИИ. Чем сейчас занимается легендарный Джефф Дин? - 7

  • Система Alphafold [37], которая в последней версии предсказывает форму протеина [38] с атомной точностью за несколько минут, что даёт возможность понять свойства и характеристики вещества. Сегодня на Земле обнаружено около 249 млн протеинов [39]. Многие до сих пор не изучены. Кроме того, фолдинг виртуальных протеинов с помощью модели ИИ позволяет конструировать новые молекулы с желаемыми свойствами (см. статью «Оптимизация нейросети на максимальный вред человеку. Первый эксперимент» [40]).
  • Universal Translator [41] — экспериментальный сервис дублирования видео с помощью ИИ, который помогает переводить голос диктора с изменением движения губ. Исходное видео слегка редактируется, чтобы движение губ совпадало с новыми словами на другом языке. По сути, можно реалистично наложить любые слова на видеоряд, что очень полезно для перевода фильмов или научных лекций.
    От распределённого бэкенда — к сильному ИИ. Чем сейчас занимается легендарный Джефф Дин? - 8

  • Codey [42] — инструмент ИИ для генерации и автодополнения программного кода (вероятно, будет интегрирован в вышеупомянутый MakerSuite [32]).
  • NotebookLM [43] — программа для генерации приватных моделей ИИ на основе пользовательских документов (на PaLM 2).
  • Pic2Word [44] — текстовое описание изображений с последующим добавлением текстового ввода от пользователя для создания новых картинок.

    От распределённого бэкенда — к сильному ИИ. Чем сейчас занимается легендарный Джефф Дин? - 9

    От распределённого бэкенда — к сильному ИИ. Чем сейчас занимается легендарный Джефф Дин? - 10

  • Фреймворк CodeVQA [45] для генерации кода Python, который отвечает на текстовые вопросы пользователя.
    От распределённого бэкенда — к сильному ИИ. Чем сейчас занимается легендарный Джефф Дин? - 11

  • MusicLM [46] — сочинение музыки по текстовому описанию.
  • Perspective API [47] — оценка токсичности текста.

В общем, интересных проектов хватает. Список научных статей исследователей из Google на крупнейшей конференции по машинному обучению ICML 2023 насчитывает несколько десятков работ [48].

В данный момент крупные IT-корпорации с десятками дата-центров, лучшие программисты и учёные прикладывают силы к решению важнейшей задачи — созданию ИИ общего назначения, то есть AGI. Над ним работают в том числе Джон Кармак [14] и Джефф Дин, среди прочих выдающихся умов. Это даёт надежду, что движение идёт в правильном направлении, а результат не замедлит себя ждать.

От распределённого бэкенда — к сильному ИИ. Чем сейчас занимается легендарный Джефф Дин? - 12

Субъективное примечание. В 2023 году мы словно переместились на первую минуту симулятора развития человечества после ИИ [49]. Действие этой игры как раз начинается в 2022 году, где появился GPT 3.5 на IQ 70. С каждым годом мы его дорабатываем, добавляем серверов, GPU — и спустя десятилетия это даёт эффект.

Выдающиеся программисты 21 века. Предыдущие статьи серии

Автор: Анатолий Ализар

Источник [59]


Сайт-источник PVSM.RU: https://www.pvsm.ru

Путь до страницы источника: https://www.pvsm.ru/programmirovanie/386498

Ссылки в тексте:

[1] Image: https://habr.com/ru/companies/ruvds/articles/752206/

[2] Линус Торвальдс: https://habr.com/ru/search/?q=%5B%D0%9B%D0%B8%D0%BD%D1%83%D1%81%20%D0%A2%D0%BE%D1%80%D0%B2%D0%B0%D0%BB%D1%8C%D0%B4%D1%81%5D

[3] Фабрис Беллар: https://habr.com/ru/post/119455/

[4] Джефф Дин: https://habr.com/ru/post/192604/

[5] «Дружба, благодаря которой Google вырос до огромных размеров»: https://habr.com/ru/articles/432324/

[6] Epi Info: http://wwwn.cdc.gov/epiinfo/

[7] официальная биография: https://research.google/people/jeff/

[8] Spanner: https://static.googleusercontent.com/media/research.google.com/en//archive/spanner-osdi2012.pdf

[9] Google Translate: https://translate.google.com/

[10] Bigtable: https://cloud.google.com/bigtable/

[11] MapReduce: https://research.google/pubs/pub62/

[12] LevelDB: https://github.com/google/leveldb

[13] TensorFlow: https://www.tensorflow.org/

[14] над этой проблемой также работает Джон Кармак: https://habr.com/ru/company/ruvds/blog/721150/

[15] Google AI: https://ai.google/

[16] компьютерному зрению: https://research.googleblog.com/2018/04/mobilenetv2-next-generation-of-on.html

[17] области медицины: https://research.googleblog.com/search/label/Health

[18] AutoML: https://ai.googleblog.com/2018/03/using-evolutionary-automl-to-discover.html

[19] Мозг: http://www.braintools.ru

[20] за 500 млн лет: https://en.wikipedia.org/wiki/Evolution_of_the_brain#Early_history_of_brain_development

[21] слияния подразделения Google Brain (часть Google Research) с приобретённой компанией DeepMind: https://blog.google/technology/ai/april-ai-update/

[22] статистического машинного перевода: https://en.wikipedia.org/wiki/Statistical_machine_translation

[23] первые обложки журналов: https://www.nature.com/articles/nature24270

[24] отчаянные просьбы: https://www.wsj.com/articles/google-unit-deepmind-triedand-failedto-win-ai-autonomy-from-parent-11621592951

[25] требуя: https://www.theinformation.com/articles/deep-confusion-tensions-lingered-within-google-over-deepmind

[26] выйти на прибыль: https://www.economist.com/1843/2019/03/01/deepmind-and-google-the-battle-to-control-artificial-intelligence

[27] GPT-3.5/4: https://openai.com/gpt-4

[28] LLaMA: https://www.philschmid.de/llama-2

[29] PaLM 2: https://ai.google/discover/palm2/

[30] PALM API: https://developers.generativeai.google/products/palm

[31] предварительной записи: https://makersuite.google.com/waitlist

[32] MakerSuite: https://developers.generativeai.google/products/makersuite

[33] Bard: https://bard.google.com/

[34] Data Commons: https://www.datacommons.org/

[35] Med-PaLM 2: https://sites.research.google/med-palm/

[36] Sec-PaLM: https://cloud.google.com/blog/products/identity-security/rsa-google-cloud-security-ai-workbench-generative-ai

[37] Alphafold: https://github.com/deepmind/alphafold

[38] форму протеина: https://en.wikipedia.org/wiki/Protein_folding

[39] 249 млн протеинов: https://www.uniprot.org/uniprotkb?query=*

[40] «Оптимизация нейросети на максимальный вред человеку. Первый эксперимент»: https://habr.com/ru/companies/ruvds/articles/684164/

[41] Universal Translator: https://techcrunch.com/2023/05/10/heres-everything-google-has-announced-at-i-o-so-far/

[42] Codey: https://techcrunch.com/2023/05/10/google-launches-a-github-copilot-competitor/

[43] NotebookLM: https://notebooklm.google/

[44] Pic2Word: https://ai.googleblog.com/2023/07/pic2word-mapping-pictures-to-words-for.html

[45] CodeVQA: https://ai.googleblog.com/2023/07/modular-visual-question-answering-via.html

[46] MusicLM: https://aitestkitchen.withgoogle.com/experiments/music-lm

[47] Perspective API: https://perspectiveapi.com/

[48] несколько десятков работ: https://ai.googleblog.com/2023/07/google-at-icml-2023.html

[49] симулятора развития человечества после ИИ: https://agi.aitida.com/

[50] Джастин Танни: https://habr.com/ru/company/ruvds/blog/682150/

[51] Джей Фриман (saurik): https://habr.com/ru/company/ruvds/blog/688716/

[52] Михал Залевски: https://habr.com/ru/company/ruvds/blog/695386/

[53] 1: https://habr.com/ru/company/ruvds/blog/701556/

[54] Марк Руссинович: https://habr.com/ru/company/ruvds/blog/710268/

[55] Юрки Алакуйяла: https://habr.com/ru/company/ruvds/blog/713648/

[56] Андрей Карпаты: https://habr.com/ru/companies/ruvds/articles/728056/

[57] Даниэль Стенберг, автор curl: https://habr.com/ru/companies/ruvds/articles/733002/

[58] Колин Персиваль, автор tarsnap: https://habr.com/ru/companies/ruvds/articles/739392/

[59] Источник: https://habr.com/ru/companies/ruvds/articles/752206/?utm_source=habrahabr&utm_medium=rss&utm_campaign=752206