Обзор приложения NotebookLM

в 13:56, , рубрики: Google, NotebookLM, summarization, продуктивность

Приложение под названием NotebookLM (https://notebooklm.google.com/) было выпущено компанией Google около года назад, и на Хабре было по этому поводу два кратких анонса в прошлом году (раз, два). На мой взгляд, оно заслуживает обзора чуть более подробного чем эти краткие сообщения, так что попробую восполнить этот пробел.

NotebookLM - это инструмент на основе ИИ, который позволяет относительно быстро, удобно и без лишних телодвижений получить краткий разносторонний обзор (саммари) объемных документов (книг, статей), а также интерактивно взаимодействовать с ними (задавать вопросы, касающиеся их содержания). В моем понимании он представляет собой надстройку над "обычным ИИ-чатом", которому в контекст загружен интересующий пользователя документ. Эта надстройка включает в себя:

  1. Набор из нескольких преднастроенных стандартизованных промптов, доступных в один клик и ориентированных на работу с объемными текстами ("Составь мне оглавление", "Составь мне FAQ на основе этого текста", и т.п.)

  2. Интерфейсное решение ("карточки-плитки на рабочем столе"), которое по замыслу разработчиков, видимо, должно быть более удобным чем "обычный (линейный) чат"

  3. Интерфейс чата, который при взаимодействии с текстом в формате "вопрос-ответ" отображает не только ответы на задаваемые вопросы, но и фрагменты соответствующего исходного текста, а также ссылки на конкретные параграфы полного текста-источника.

Посмотрим как это работает

Начало работы

На главном экране расположены кнопка создания нового "Блокнота" и сами "Блокноты" - главные элементы приложения. Это контейнеры, в которые пользователь загружает свои Источники (исходные материалы), — документы, книги, статьи — которые он хочет "исследовать". Также в Блокноте находятся создаваемые в процессе "исследования" производные артефакты, относящиеся к основному исходному материалу (заметки, сгенерированные ИИ или написанные самим пользователем), и панель взаимодействия с ИИ.

Главный экран приложения

Главный экран приложения

Технические аспекты:

  1. NotebookLM бесплатен и не требует регистрации (нужна только гугловская авторизация)

  2. Форматы исходных текстов — Источников: PDF, txt, Markdown, а также ссылки на веб-страницы и документы на Google-диске

  3. "Источники" могут быть достаточно объемными. Я экспериментировал с книгами объемом до 600 страниц и не заметил каких-либо проблем и ограничений

  4. Исходные материалы могут быть на разных языках (я экспериментировал с немецким, французским и русским - шероховатости, касающиеся перевода, были минимальными). Язык самого приложения и генерируемых артефактов (заметок, чатов), видимо, определяется по гугловской учетке

  5. Используемая модель: Gemini 1.5 Pro

С главного экрана можно открыть примеры блокнотов, которые предлагают разработчики, но я предлагаю сразу перейти к созданию нового блокнота, нажав кнопку ➕.

Работа с Блокнотом

Первый шаг при создании блокнота - добавление источников (исходных материалов, которые нужно исследовать: статей, книг, документов):

Первый шаг добавление источников

Первый шаг добавление источников

После добавления файла приложению требуется некоторое время что бы его переварить. После этого Блокнот отображается в своем начальном состоянии:

  • В левой панели отображается добавленный Источник. Если их добавлено несколько, то чек-боксами можно выбирать, с какими из них в данный момент нужно работать

  • В основном интерфейсе отображается пустой рабочий стол (на него в дальнейшем будут добавляться заметки) и панель взаимодействия с ИИ — Notebook guide

Пустой блокнот с добавленным источником

Пустой блокнот с добавленным источником

Главная панель взаимодействия в английской версии называется Notebook guide. Русский перевод "Руководство по использованию блокнота" вызывает у меня сомнения и наводит на мысли о некорректной работе автотранслейта. Возможно, было бы корректнее перевести "Путеводитель по блокноту" (дальше я для краткости буду использовать английскую версию).

Notebook guide

Функционал Notebook guide включает в себя:

  1. Раздел "Сгенерировать": Пять кнопок, нажатие на каждую из которых запускает соответствующий преднастроенный промпт применительно к содержимому Источника. После выполнения промпта отображается результат его работы и на рабочем столе создается соответствующая карточка.

  2. "Общая информация" (Summary) и "Примеры вопросов" (3 штуки), которые генерируются автоматически, без запроса.

  3. Поле чата, которое позволяет получать ответы на вопросы по содержимому Источника.

"Сгенерировать"

Нажатие на любую из кнопок в разделе "Сгенерировать" закрывает панель Notebook guide и запускает генерацию ответа на промпт, соответствующий названию кнопки. В результате отображается окно с соответствующим ответом ИИ и соответствующая карточка "Сохраненный ответ" на рабочем столе. Операцию можно повторить, нажав справа снизу на Notebook guide и затем на необходимую кнопку "Сгенерировать".

Пример результата "Сгенерировать FAQ"

Пример результата "Сгенерировать FAQ"

Функционал у каждой из кнопок следующий:

Кнопка "Сгенерировать"

Результат работы

FAQ

Формирует список из восьми вопросов и ответов по главным темам Источника. Каждый ответ - это, как правило, 2-3 предложения (но может быть и более объемным).

Содержание

Оглавление документа или книги, в котором (оглавлении) к каждой главе добавлено одно или несколько предложений с описанием основной темы этого раздела. Если в Источнике два уровня разделов, то тут содержание также представлено в двух уровнях. Заголовки/разделы третьего уровня не отображаются, судя по моим наблюдениям.

Краткий обзор (Briefing Doc)

Развернутое Summary, которое включает в себя: Название источников, Основную тему (1-3 предложения), Ключевые идеи и факты (список до нескольких десятков пунктов, по одному предложению на каждый), Заключение (1-2 предложения), Ключевые цитаты (опционально).

Руководство для изучения материала (Study guide)

Несколько видов учебных материалов: Вопросы по содержанию Источника (и в отдельном разделе ответы на них, 10шт.), Темы для эссе (5 шт.), Глоссарий (до нескольких десятков специфичных терминов из Источника)

Хронология (Timeline)

Функция ориентирована на Источники, в которых описывается последовательность событий. Если из источника нельзя выделить какую-либо последовательность событий, то приложение так и пишет об этом, и при этом иногда старается заполнить сгенерированную заметку какими-нибудь материалами на основе Источника: ключевые концепции, персоналии и т.п.

Таким образом, по каждому Источнику, добавленному в Блокнот, можно по мере необходимости сформировать до пяти карточек, которые останутся лежать на рабочем столе. Также можно сгенерировать аналогичные заметки для любого сочетания Источников (если их в Блокнот добавлено несколько). Судя по моим наблюдениям, в этом случае содержимое генерируемой заметки распределяется по выбранным Источникам пропорционально их количеству. Например, если я взял в качестве Источников две статьи, то FAQ примерно наполовину будет состоять из материала одной статьи, и наполовину - из другой. При этом в FAQе в явном виде не отображается какая часть вопросов-ответов к какому Источнику относится. Тогда как, например, в Содержании разбивка по Источникам явно указана.

Чат

В поле ввода сообщений внизу панели Notebook guide можно задавать вопросы, касающиеся содержимого Источников. Вопросы можно как вводить вручную, так и выбирать из тех, которые приложение предварительно сгенерировало.

Выбрать можно из тех трех вопросов, которые отображаются непосредственно над полем ввода:

Запуск Чата из Notebook guide

Запуск Чата из Notebook guide

После нажатия на вопрос чат сразу начнет на него отвечать.

Также что бы не вводить вопросы вручную, можно выбрать тему для обсуждения из Источника. Для этого нужно в левой панели нажать на источник. Приложение отобразит полный текст Источника, в верхней части которого на синем фоне будет располагаться секция Summary, справа от которой отображаются пять "Основных тем" (Key topics). При нажатии на любую из них в чате запускается "обсуждение" этой темы.

Запуск Чата из Источника

Запуск Чата из Источника

Если какой-то ответ чата оказался полезным то его можно "закрепить" 📌 и он останется на рабочем столе в виде такой же карточки, как и те которые были описаны в предыдущем разделе.

Важное отличие ответов Чата от "Сгенерированных" заметок - это то что Чат достаточно детально указывает ссылки на разделы Источника, откуда взята информация для ответов на вопросы:

Ссылки на Источники в Чате

Ссылки на Источники в Чате

При наведении на ссылку (сноску) на первоисточник (на скриншоте выше - на цифру 8) отображается всплывающее окно с соответствующим куском текста из Источника. Если нажать, то в левой панели приложение промотает полный текст Источника к соответствующему фрагменту и подсветит его.

Заключение

В целом не смотря на некоторые вопросы к реализации интерфейса, NotebookLM кажется достаточно удобным и полезным приложением. Я лично для себя пока вижу два основных сценария использования:

  1. Ознакомление с объемными текстами (книгами, статьями), если нет времени на их полноценное прочтение

  2. Предварительное ознакомление с книгой прежде чем начать ее читать: Чего от нее ожидать и нужно ли читать ее всю или можно ограничиться какими-то частями. В том числе речь том, что бы с помощью NotebookLM отчасти реализовать одну из методик под названием Metalearning (Метаобучение), описанную в книге Скотта Янга "Ultralearning". Смысл методики приблизительно следующий: Прежде чем приступать к детальному изучению какой-либо новой темы или предметной области, нужно сначала получить общее представление о ней, "исследовать" на верхнем уровне — "Нарисовать свою карту" (Draw Your Map). В частности, ответить на вопросы: Почему? (в чем польза от изучения этого предмета и как эти знания могут быть применены) Что? (перечень основных концепций, фактов и процедур, относящихся к изучаемому предмету) и Как? (методика изучения). И далее переходить к детальному погружению в материал только собрав достаточно исчерпывающие ответы на эти вопросы.

О сценариях использования также можно почитать в блоге разработчиков.

В качестве недостатков я бы пока отметил следующее:

  • Некоторые книги могут состоять, например, из двух основных частей: первая часть в общих чертах знакомит читателя с предметной областью, а вторая описывает практические приемы и методы работы в этой предметной области. По моим наблюдениям, NotebookLM в этом случае фокусируется на первой части и уделяет недостаточно внимания второй. Например, я взял книги про ChatGPT, в которых одна половина посвящена общим вопросам LLM (история, технология, этические вопросы и т.п.), а вторая — практическим приемам (как составлять промпты, как использовать LLM для написания текстов и решения других задач). Так вот, артефакты "по умолчанию" (такие как Study guide и Briefing doc), по моим наблюдениям, на 80-90% ориентированы на первую часть и очень мало внимания уделяют второй.

  • При работе с книгами хотелось бы иметь возможность быстро применить стандартные запросы (Содержание, FAQ, резюме, и т.п.) как для книги/документа целиком, так и для каждой главы/раздела отдельно. К сожалению NotebookLM позволяет относительно удобно работать только с Источником (т.е., например, с книгой) целиком. Для работы с отдельными кусками их сначала нужно найти и выделить в полном тексте Источника в левой панели — "удобство" интерфейса к этому, мягко говоря, не располагает (навигация по главам отсутствует, разбивки по страницам нет, неудобное форматирование текста). Что бы обойти это ограничение, нужно, видимо, самому грузить в Источники каждую главу в виде отдельных файлов. При этом я пока не понимаю как можно автоматизировать разделение PDF на главы. Поделитесь, пожалуйста, в комментариях, если кому-то известны такие инструменты.

  • Отсутствие поддержки формата epub (и ему подобных)

  • Просмотр карточек доступен только в относительно небольшом всплывающем окне, которое нельзя развернуть на весь экран и приходится всегда скролить текст (при работе в мобильном браузере эта проблема особенно бросается в глаза).

P.S.: В принципе было бы наверно интересно посмотреть на приложение с таким функционалом, умеющее работать не только с документами, но и с длинными видео на YouTube (в идеале - что бы ссылки на источники запускали воспроизведение видео с соответствующего момента). Предлагаю в комментариях делиться реалистическими соображениями, какие в этом направлении возможны варианты и перспективы. То что большинство необходимых компонентов и технологий в принципе доступно - это понятно. Но вот готовый удобный продукт...

Автор: AlexanderAnisimov

Источник

* - обязательные к заполнению поля


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js