Глибокі нейронні мережі бачать світ не так, як ми

Сенсорні системи людини дуже добре розпізнають об’єкти, які ми бачимо, або слова, які ми чуємо, навіть якщо об’єкт перевернутий або слово вимовлено голосом, якого ми ніколи не чули.

Обчислювальні моделі, відомі як глибокі нейронні мережі, можна навчити робити те саме, правильно ідентифікувати зображення собаки незалежно від кольору її шерсті або слово незалежно від висоти голосу того, хто говорить. Однак нове дослідження нейробіологів Массачусетського технологічного інституту виявило, що ці моделі часто однаково реагують на зображення чи слова, які не мають схожості з ціллю.

Коли ці нейронні мережі використовувалися для генерування зображення чи слова, на які вони реагували так само, як на певний природний вхідний сигнал, наприклад зображення ведмедя, більшість із них генерували зображення чи звуки, які були невпізнаними для спостерігачів. Це свідчить про те, що ці моделі створюють свої власні ідіосинкратичні «інваріантності» — це означає, що вони однаково реагують на подразники з дуже різними характеристиками.

Отримані результати пропонують дослідникам новий спосіб оцінити, наскільки добре ці моделі імітують організацію чуттєвого сприйняття людини, каже Джош МакДермотт, доцент кафедри мозку та когнітивних наук Массачусетського технологічного інституту та член Інституту дослідження мозку МакГоверна та Центру мозку Массачусетського технологічного інституту.

«Ця стаття показує, що ви можете використовувати ці моделі для отримання неприродних сигналів, які в кінцевому підсумку стануть дуже діагностичними для уявлень у моделі», — каже Макдермотт, який є старшим автором дослідження. «Цей тест має стати частиною батареї тестів, які ми як поле використовуємо для оцінки моделей».

Jenelle Feather Ph.D. ’22, який зараз є науковим співробітником Центру обчислювальної нейронауки Інституту Флетайрона, є провідним автором статті відкритого доступу, яка з’являється в Nature Neuroscience . Гійом Леклерк, аспірант Массачусетського технологічного інституту, та Олександр Мондрі, професор Cadence Design Systems з обчислювальної техніки в Массачусетському технологічному інституті, також є авторами статті.

Різні сприйняття

Останніми роками дослідники навчили глибокі нейронні мережі , які можуть аналізувати мільйони вхідних даних (звуків або зображень) і вивчати загальні ознаки, що дозволяє їм класифікувати цільове слово чи об’єкт приблизно так само точно, як це роблять люди. Ці моделі в даний час розглядаються як провідні моделі біологічних сенсорних систем.

Вважається, що коли людська сенсорна система виконує таку класифікацію, вона вчиться ігнорувати характеристики, які не мають відношення до основної ідентичності об’єкта, наприклад, скільки світла на нього світить або під яким кутом на нього дивляться. Це відомо як інваріантність, тобто об’єкти сприймаються як однакові, навіть якщо вони мають відмінності в менш важливих характеристиках.

«Класично ми думали про сенсорні системи так, що вони створюють інваріантність до всіх тих джерел варіацій, які можуть мати різні приклади одного і того ж», — говорить Фізер. «Організм повинен визнати, що це те саме, навіть якщо вони виявляються як дуже різні сенсорні сигнали».

Дослідники цікавилися, чи можуть глибокі нейронні мережі , навчені виконувати завдання класифікації, розвивати подібні інваріантності. Щоб спробувати відповісти на це запитання, вони використали ці моделі для генерації стимулів, які викликають таку саму відповідь у моделі, як приклад стимулу, наданого моделі дослідниками.

Вони називають ці подразники «модельними метамерами», відроджуючи ідею класичних досліджень сприйняття, згідно з якою подразники, нерозрізнені системою, можна використовувати для діагностики її інваріантності. Концепція метамерів спочатку була розроблена під час вивчення людського сприйняття для опису кольорів, які виглядають ідентичними, навіть якщо вони складаються з різних довжин хвиль світла.

На свій подив, дослідники виявили, що більшість зображень і звуків, вироблених таким чином, виглядали і звучали зовсім не схожими на приклади, які були спочатку надані моделям. Більшість зображень були нагромадженням випадкових пікселів, а звуки нагадували незрозумілий шум. Коли дослідники показували зображення людям-спостерігачам, у більшості випадків люди не класифікували зображення, синтезовані моделями, у ту ж категорію, що й вихідний цільовий приклад.

«Люди насправді їх взагалі не впізнають. Вони не виглядають і не звучать природно, і вони не мають інтерпретованих ознак, які людина могла б використати для класифікації об’єкта чи слова», — каже Фезер.

Отримані дані свідчать про те, що моделі якимось чином розвинули власні інваріантності, які відрізняються від тих, які є в системах людського сприйняття. Це змушує моделі сприймати пари подразників як однакові, незважаючи на те, що вони сильно відрізняються від людських.

Ідіосинкратичні інваріантності

Дослідники виявили той самий ефект у багатьох різних моделях зору та слуху. Проте кожна з цих моделей, як виявилося, розвиває власні унікальні інваріантності. Коли метамери з однієї моделі показували іншій моделі, метамери були такими ж невпізнанними для другої моделі, як і для людей-спостерігачів.

«Ключовий висновок з цього полягає в тому, що ці моделі, здається, мають те, що ми називаємо ідіосинкратичною інваріантністю», — каже Макдермотт. «Вони навчилися бути інваріантними до цих конкретних вимірів у просторі стимулів, і це залежить від моделі, тому інші моделі не мають такої самої інваріантності».

Дослідники також виявили, що вони можуть змусити метамери моделі бути більш впізнаваними для людей за допомогою підходу, який називається змагальним навчанням. Цей підхід спочатку був розроблений для боротьби з іншим обмеженням моделей розпізнавання об’єктів, яке полягає в тому, що внесення дрібних, майже непомітних змін до зображення може призвести до того, що модель неправильно розпізнає його.

Дослідники виявили, що змагальне навчання, яке передбачає включення деяких із цих дещо змінених зображень у навчальні дані , дало моделі, метамери яких були більш впізнаваними для людей, хоча вони все ще не були такими впізнаваними, як вихідні стимули. За словами дослідників, це покращення, здається, не залежить від впливу навчання на здатність моделей протистояти атакам суперників.

«Ця конкретна форма тренувань має великий ефект, але ми не знаємо, чому вона має такий ефект», — каже Фізер. «Це область для майбутніх досліджень».

Дослідники кажуть, що аналіз метамерів, отриманих за допомогою обчислювальних моделей, може бути корисним інструментом для оцінки того, наскільки обчислювальна модель імітує основну організацію систем чуттєвого сприйняття людини.

«Це поведінковий тест , який можна запустити на певній моделі, щоб побачити, чи поділяються інваріантності між моделлю та спостерігачами», — каже Фезер. «Це також може бути використано для оцінки того, наскільки інваріантність у даній моделі є своєрідною , що може допомогти виявити потенційні шляхи вдосконалення наших моделей у майбутньому».

За матеріалами techxplore.com

-=GadzzillA=-

Компьютерный системный администратор, веб-огородник, IT-шник, специалист по строительным материалам, создатель и администратор проекта "Лаборатория Рабочих Столов"

Вас также может заинтересовать...

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *

 

Цей сайт використовує Akismet для зменшення спаму. Дізнайтеся, як обробляються ваші дані коментарів.