Часть 1. https://habr.com/ru/articles/848264/
Архитектура тактильно-визуального слияния и стабильная стратегия восприятия
Хотя предлагаемый мультимодальный тактильный сенсор наделяет роботов быстрым и сложным тактильным восприятием, само по себе тактильное восприятие недостаточно для удовлетворения потребностей роботов в сложных сценариях. Мы объединяем тактильное восприятие с визуальным и в дальнейшем внедряем гибридную тактильно-визуальную архитектуру слияния. Эта архитектура объединяет информацию тактильного и визуального восприятия на уровне данных, функций и решений, предоставляя роботам возможность эффективно взаимодействовать со сложными средами. Специфическая архитектура робота показана на рис. 4a. Мы разделяем архитектуру на разные уровни, начиная с нижнего, с уровня сигнала, за которым следует уровень восприятия, уровень принятия решений и, наконец, системный уровень. На уровне сигнала бинокулярная камера глубины используется для захвата визуальных сигналов, а вышеупомянутые мультимодальные тактильные датчики используются для сбора сигналов интерфейса, скольжения, давления и температуры. На уровне восприятия компьютер преобразует сигналы датчиков в соответствующие когнитивные функции. В частности, визуальные сигналы позволяют распознавать объекты и их локализацию, в то время как тактильные сигналы позволяют при контакте воспринимать температуру, теплопроводность, контактное давление, текстуру и состояние скольжения объектов. На основе мультимодального восприятия робот принимает соответствующее решение и отправляет задания исполнительным механизмам (роботизированной руке и автоматизированному управляемому транспортному средству (AGV)). Исполнительные механизмы выполняют ряд действий, таких как управление движением автомобиля с помощью AGV, приближение к объекту, захват и сортировка объектов роботизированной рукой. Объединив все эти уровни, мы создали комплексную тактильно-визуальную архитектуру роботизированной системы (системный уровень). Более того, благодаря дополнительным датчикам и исполнительным механизмам это может наделить роботов еще большими возможностями восприятия и выполнения, что позволяет выполнять более сложные задачи.
a Архитектура робота, сочетающая тактильно-визуальное восприятие, включая уровень сигнала, уровень восприятия, уровень принятия решений и системный уровень. b Стратегия тактильно-визуального слияния для стабильного захвата: зрение обеспечивает положение захвата, а управление с тактильной обратной связью регулирует силу захвата путем обнаружения скольжения в режиме реального времени. c Фотографии захвата бумажного стаканчика и добавления воды с тактильной обратной связью. d Тактильные сигналы во время процесса захвата и добавления воды. Вначале рука робота устойчиво захватывает пустую чашку. Затем в чашку добавляется вода с тактильной обратной связью, и рука робота сохраняет устойчивый захват. e Фотографии захвата бумажного стаканчика и добавления воды без тактильной обратной связи. f Тактильный сигнал во время процесса захвата и добавления воды. Вначале рука робота устойчиво захватывает пустую чашку. Затем в чашку добавляется вода без тактильной обратной связи, чашка окончательно соскальзывает из-за увеличенного веса.
В этой архитектуре мы также предлагаем тактильно-визуальную стратегию слияния, которая поможет роботу добиться устойчивого захвата различных объектов. Из-за разнообразия форм и размеров объектов для достижения стабильного захвата необходимо использовать индивидуальные стратегии захвата в соответствии с особенностями объектов. Распространенные стратегии восприятия в основном делятся на основанные на моделях и методы без моделей. Методы, основанные на моделях, обычно формулируют стратегии восприятия с помощью предварительно обученных моделей, но они связаны с относительно высокими затратами на обучение. Метод без модели не требует получения информации о типе предмета и напрямую определяет стратегию захвата на основе результатов наблюдения, выдаваемых камерой, например, обычно используемый метод пятимерного захвата. Однако в этом методе отсутствует подробная тактильная информация об объекте, поэтому он не может выполнять точные операции. Здесь мы предлагаем тактильно-визуальную стратегию слияния восприятия (рис.4b). Во-первых, положение захвата и поза роботизированной руки определяются в соответствии с контуром, размером и глубиной объекта, полученными зрением. Когда робот берет предмет, он сначала выполняет легкий захват и использует тактильное восприятие для обнаружения скольжения в режиме реального времени. При обнаружении соскальзывания рука робота постепенно увеличивает силу захвата, пока не достигнет устойчивого удержания. Когда соскальзывания не обнаружено, рука робота сохраняет текущее состояние захвата. Благодаря использованию этого элемента управления с тактильной обратной связью сила захвата, применяемая роботизированной рукой, сведена к минимуму до такой степени, что не происходит соскальзывания, что особенно важно при обращении с деликатными или хрупкими предметами.
Чтобы продемонстрировать, что нашу стратегию хватания можно применять к скользким или хрупким предметам, мы используем руку робота, оснащенную тактильными датчиками на пальцах, для захвата бумажного стаканчика, который постепенно наполняется водой. Как показано на рис. 4c,d, в исходном состоянии (0-t1) рука робота не захватывает никаких объектов, поэтому сигнал давления и сигнал интерфейса от тактильного датчика в это время равны нулю. В момент времени с t1 по t2 рука начинает сжимать пустую чашку (весит около 6,8 г), и сила захвата постепенно увеличивается. После того, как рука завершает хватательное действие, сигналы давления и интерфейса остаются практически неизменными (t2-t3), что указывает на устойчивый захват и отсутствие скольжения. После этого в чашку наливают воду при t3, и из-за увеличенного веса чашки происходит скольжение между чашкой и рукой робота, которое быстро обнаруживается тактильными датчиками. Рука робота быстро реагирует на увеличение силы захвата под управлением обратной связи в режиме реального времени до тех пор, пока не будет обнаружено скольжения, что обеспечивает стабильный захват (t 3-t4). После этого сигнал давления и сигнал интерфейса остаются неизменными, что указывает на прекращение подачи воды в момент времени t4, и после этого хватка остается стабильной. На данный момент чашка весит ~ 100 г, что примерно в 15 раз превышает первоначальный вес, в то время как бумажный стаканчик с водой удерживается стабильно, но не деформируется. Отмечается, что большое усилие захвата может раздавить бумажный стаканчик и, таким образом, разлить воду. Для сравнения на рис. 4e и f показаны результаты без контроля скольжения с обратной связью. При наливании воды в чашку чашка соскальзывает, поскольку рука робота не осознает скольжения и, следовательно, не может соответствующим образом адаптировать силу захвата. Это сравнение демонстрирует, что управление с обратной связью по скольжению в реальном времени позволяет добиться стабильного захвата объектов при минимальном усилии захвата, чтобы избежать раздавливания хрупких предметов, что необходимо для деликатных манипуляций роботами. Важно, чтобы обнаружение скольжения было сверхчувствительным и сверхбыстрое (в этой работе обнаружение скольжения достигает сверхчувствительности 0,05 мм / с и сверхбыстрого времени отклика 4 мс), чтобы гарантировать успех более стабильного захвата.
Стратегия распознавания тактильно-визуального слияния
Помимо стабильного захвата объектов, важной функцией роботов также является точное распознавание объектов. Например, когда робот помогает в выполнении домашних задач, таких как подача напитков, обычно требуется идентификация чашки и определение того, есть ли содержимое внутри, наряду с приблизительной оценкой состава содержимого для последующих точных манипуляций. В нашей повседневной жизни люди обычно идентифицируют объекты с помощью зрения. Однако зрение робота ограничено в распознавании объектов в домашней обстановке из-за помех от окружающего света, загораживания и путаницы с объектами похожей формы, как упоминалось ранее. Предметы повседневной жизни изготовлены из разнообразных материалов, и многие из них имеют схожие формы и цвета. Только зрению трудно различать предметы повседневного обихода одинаковой формы, такие как скомканная бумага, пластиковые пакеты и салфетки. В отношении объектов, которые невозможно распознать только зрением, люди используют тактильное восприятие для вынесения точных суждений на основе характеристик объекта - температуры, давления, теплопроводности, текстуры и т.д. Черпая вдохновение в этой концепции, мы предлагаем каскадную тактильно-визуальную стратегию слияния для распознавания объектов, которая синтезирует мультимодальную сенсорную информацию для точной идентификации объектов (рис.5a). Во-первых, визуальная информация используется в модели YOLOv3 для распознавания объектов на основе их формы, размера, цвета и т.д., Что приводит к дифференцируемым категориям, таким как шарообразные, бутылкообразные, чашеобразные, бесформенные и т.д. Впоследствии для визуально похожих объектов в пределах одной категории используется тактильное восприятие для более точного различения. А бесформенные объекты можно разделить на такие типы, как полиэтиленовый пакет, оберточная бумага, салфетка, ткань и т.д. Благодаря использованию информации о теплопроводности, давлении и температуре объекта с помощью мелкой нейронной сети (SNN). Ткань можно дополнительно разделить на флис, деним, нейлон и т.д. С помощью классификатора дерева мешков в зависимости от теплопроводности и текстуры материала. Что касается объектов чашеобразной формы, следует отметить, что само по себе визуальное восприятие не может определить, находится ли содержимое в непрозрачной чашке. Мы можем использовать функцию обнаружения скольжения, чтобы определить, есть ли вес внутри чашки, и дополнительно использовать показатели теплопроводности и температуры для оценки состава содержимого. Следуя этому подходу, мы эффективно интегрируем несколько сенсорных входов для достижения точной идентификации объекта. Время распознавания при использовании стратегии тактильно-визуального слияния составляет около 80 мс. Кроме того, по мере накопления большего количества сенсорной информации эта стратегия может быть расширена для достижения точного распознавания большего количества других объектов в повседневной жизни.
a Стратегия распознавания тактильно-визуального слияния, где Matter T. C., Press и Temp относятся к теплопроводности вещества, давлению и температуре соответственно. в матрице путаницы при распознавании объектов с использованием только зрения общая точность распознавания составляет всего 59%. c Матрицей путаницы при распознавании объектов с использованием только тактильных ощущений общая точность распознавания составляет 92%. d Матрица путаницы в распознавании объектов при использовании стратегии тактильно-визуального распознавания точность распознавания достигает 96,5%. A = скомканная бумага, B = тряпка для уборки, C = салфетка, D = пластиковый пакет, E = пластиковая бутылка, F = апельсиновая корка, G = чашка с холодной водой, H = чашка со спиртом, I = чашка с горячей водой, J = пустая чашка. e Тактильно-визуальный робот помогает при уборке стола. (I) Определение местоположения объекта на основе зрения. (II) Устойчивое хватание и распознавание объектов на основе тактильных ощущений. (III) Продуманная сортировка и сбор.
Чтобы продемонстрировать превосходство тактильно-визуальной стратегии распознавания слияния, мы используем тактильно-визуальную стратегию слияния для идентификации 10 предметов повседневной жизни, включая бумагу, салфетку, пластиковый пакет, пластиковую бутылку, апельсиновую корку, пустую чашку, стакан с холодной водой, алкоголем и горячей водой. Для каждого элемента мы собираем 70 образцов и случайным образом делим собранные наборы данных на обучающий набор, набор для проверки и набор для тестирования (соотношение 4: 1: 2). Обучение модели занимает около 0,33 секунды. Мы также сравниваем результаты, используя только визуальное или только тактильное распознавание. Здесь результаты показаны на рис.5b-d получены в результате независимых экспериментов с использованием соответствующих методов распознавания соответственно. Матрица путаницы распознавания с использованием только зрения показана на рис.5b, а общая точность распознавания составляет всего 59%. Неправильное распознавание в основном происходит на бесформенных объектах чашеобразной формы. Что касается бесформенных предметов (например, скомканной бумаги для печати, салфетки или пластикового пакета), то они не имеют четкой формы и схожих цветов, что позволяет легко спутать их друг с другом при визуальном восприятии. Для объектов чашеобразной формы трудно определить содержимое жидкости зрением из-за заграждения прямой видимости и прозрачности жидкости. Используя только тактильное восприятие для идентификации вышеуказанных объектов, матрица путаницы распознавания показана на рис. 5c, а общая точность распознавания достигает 92%. Тактильное восприятие позволяет достичь высокой точности распознавания большинства объектов. Однако тактильному сенсору сложно различать объекты сложной формы, такие как апельсиновая корка (75%). Кроме того, использование предлагаемой стратегии тактильно-визуального распознавания, сочетающей преимущества как сенсорного, так и зрительного восприятия, позволяет достичь высочайшей точности распознавания - 96,5% (рис.5d). Комбинированное зрение также помогает в определении положения объекта и позы для тонкого захвата.
Роботизированный рабочий стол - задача по уборке для помощи в домашнем хозяйстве
Кроме того, мы применяем предложенного тактильно-визуального робота в реальных сценариях, робот автономно выполняет задачи по уборке стола. В этой задаче робот координирует все компоненты (роботизированную руку, AGV, камеру и тактильные датчики) на основе архитектуры тактильно-визуального слияния, показанной на рис.4a, для выполнения различных действий и, наконец, для уборки предметов на рабочем столе, как показано на рис.5e. Сначала робот входит в комнату, использует свою камеру для сканирования и определения местоположения предметов на столе и перемещается в непосредственной близости от предметов с помощью AGV. Затем робот использует тактильно-визуальную стратегию слияния, чтобы стабильно захватывать объекты. В то же время робот идентифицирует типы объектов, используя тактильно-визуальную стратегию распознавания fusion, и помещает эти объекты в сортировочные ящики в соответствии с их каталогами. Примечательно, что при работе с чашкой, содержащей жидкость, робот умело обнаруживает жидкость с помощью тактильного захвата, затем наливает жидкость в резервуар для воды и, наконец, помещает пустую чашку в коробку для вторичной переработки. С некоторыми предметами, которые трудно схватить, такими как ручка, лист бумаги, книга, робот с тактильно-визуальным слиянием может разумно обращаться с ними, перемещая предметы на край стола, а затем ловко хватая их, как люди.
Визуальное распознавание позволяет идентифицировать объекты, сильно отличающиеся по внешнему виду, но визуально похожие объекты, такие как салфетка и тряпочка для чистки, отличить сложно. Кроме того, зрение не может распознать прозрачную жидкость в чашке. Хотя тактильное распознавание позволяет хорошо различать материалы, точность распознавания объектов сложной формы, таких как апельсиновые корки, оставляет желать лучшего. Кроме того, из-за отсутствия визуального руководства робот, обладающий только тактильным восприятием, не может выполнять такие задачи, как определение местоположения объекта, что затрудняет его применение в реальных сценариях. Стремясь ловко обращаться с повседневными предметами первой необходимости, робот должен интегрировать возможности тактильного и визуального восприятия, эффективно координируя их для выполнения восприятия и когнитивных функций, принятия стратегических решений и управления системой. Поэтому мы предлагаем тактильно-визуальную архитектуру робота, объединяющую тактильную и визуальную информацию с уровня сигнала, восприятия и принятия решений, наделяя робота надежными сенсорными возможностями и мастерством исполнения. На этой основе мы разрабатываем соответствующие стратегии тактильно-визуального слияния для захвата и распознавания объектов. Стратегия захвата использует быструю и чувствительную обратную связь по скольжению для осуществления точного захвата с минимальной силой захвата, а стратегия распознавания тактильно-визуального слияния использует гибридную каскадную стратегию для реализации точного распознавания различных предметов первой необходимости, включая определение содержимого жидкости в чашке. Мы применяем предложенную стратегию распознавания для идентификации обычных объектов повседневной жизни, достигая точности распознавания 96,5%, что значительно превосходит только визуальное (59%) или только тактильное (92%) распознавание. Кроме того, используя предложенную тактильно-визуальную архитектуру слияния и стратегии восприятия / распознавания, робот автономно выполняет задачу по уборке рабочего стола. Результаты демонстрируют многообещающий потенциал интеллектуальных роботов с тактильно-визуальным объединением для ведения домашнего хозяйства, что значительно снижает потребность в ручном труде. Разработанные мультимодальные тактильные датчики и предлагаемая тактильно-визуальная архитектура робота-слияния наделяют робота превосходными перцептивными и исполнительными возможностями, облегчая гибкое и надежное взаимодействие с людьми и помогая людям в повседневной жизни.
Автор: nikolz