Чому деякі проекти машинного навчання потребують величезної кількості акторів?

Відеоролик: Олесь Петрів / Машинное обучение / Искуcственный интеллект и можно ли его создать в действительности

Зміст

Q:

A:

Коли ви думаєте про машинне навчання, ви схильні думати про кваліфікованих науковців, які працюють над клавіатурами в комп'ютерних кабінетах. Є надзвичайний акцент на кількісному аналізі та алгоритмах. Існує не дуже багато негайних реальних дій, що стосуються багатьох цих програм - принаймні, саме те, що багато хто подумає.

Однак деякі найпопулярніші сьогодні програми машинного навчання використовують справжні армії людських акторів на вулиці, у магазинах та в будь-якому місці, де вони можуть моделювати основні людські дії, такі як прогулянки, робота чи шопінг.

Статтевий провід Тома Симоніта ілюструє це дуже добре підходящим заголовком "Щоб зробити AI розумнішими, люди виконують низькооплачувані завдання".

На прикладі коротких відеороликів, зроблених в продуктовій крамниці Whole Foods, Simonite виділяє види роботи, які допоможуть розробити деякі наступні етапи машинного навчання.

Це призводить до питання, чому всі ці люди беруть участь у зйомках у коротких та простих відеозаписах, що документують дії настільки рудиментарно, як рух руки чи ноги.

Відповідь проливає трохи світла на те, де знаходиться машинне навчання та куди воно йде.

"Дослідники та підприємці хочуть бачити, щоб AI розумів і діяв у фізичному світі", - пише Саймоніт, пояснюючи, чому він та інші мандрують камерами. «Звідси необхідність, щоб робітники розігрували сцени в супермаркетах та будинках. Вони генерують навчальний матеріал для викладання алгоритмів про світ та людей у ньому ».

Як зазначають багато експертів, деякі з найбільших кордонів машинного навчання включають обробку зображень та природну мову. Це надзвичайно кількісні процедури - інакше кажучи, існує не широкий спектр вхідних даних, як це є у "виконавчих" середовищах реального світу. Натомість програми машинного навчання використовують візуальні та аудіодані дуже конкретні способи побудови моделей. Завдяки обробці зображень його функції вибору з (кінцевого) поля зору. Для НЛП, його монтажні фонеми.

Якщо вийти за рамки цих конкретних категорій введення, це означає, що можна назвати "пробіл у зображенні та мові" - виходячи за рамки таких обробок, як обробка зображення та розпізнавання мовлення, ви переходите в сфери, де комп'ютери мають бути аналітичними різними способами. Набори тренувань будуть принципово іншими.

Увійдіть до армії відеооператорів. У деяких з цих нових проектів машинного навчання найменші ідеї людської діяльності - це навчальні набори. Замість того, щоб навчитись шукати функції та ребра та пікселі, які входять до класифікаційних завдань, комп'ютери замість цього використовують навчальні відеоролики, щоб оцінити, як виглядають різні типи дій.

Ключовим є те, що інженери можуть робити з цими даними, коли вони збираються та завантажуються, і коли комп'ютер навчається на них. Незабаром ви побачите результати в різних областях - наприклад, це зробить спостереження надзвичайно ефективним. Комп'ютери зможуть "побачити" у зорі зору, що люди роблять, і застосувати це до таких галузей, як маркетинг та продаж, або, можливо, в деяких випадках, робота урядових установ чи кримінальне правосуддя.

Наслідки також підкреслюють дебати між питаннями максимальної вигоди та конфіденційності. Значна частина використання цих відеороликів дозволить побудувати моделі машинного навчання, які працюють для спостереження - але що робити з людьми, які не хочуть проходити обстеження? Коли ці нові програми машинного навчання розгортаються в публічному просторі, які права людини та де ця лінія?

У будь-якому випадку компанії використовують такі види людських та відеоресурсів, щоб справді заглибитись у якісь наступні етапи прогресу машинного навчання, які фактично дозволять комп’ютерам розпізнавати, що відбувається навколо них, а не просто класифікувати зображення або працювати з фонемами мовлення. Це надзвичайно цікава та суперечлива розробка штучного інтелекту, яка заслуговує на свою частку уваги в технічних засобах масової інформації та за її межами.