Як інженери можуть використовувати підвищення градієнта для покращення систем машинного навчання?

Відеоролик: Борис Працюк / Scalarr / Штучний інтелект і машинне навчання для бізнесу та людей

Зміст

Q:

A:

Як і інші види прискорення, градієнтне підсилення прагне перетворити декілька слабких учнів у єдиного сильного учня, у своєрідний цифровий «краудсорсинг» навчального потенціалу. Ще один спосіб пояснення збільшення градієнта полягає в тому, що інженери додають змінні для тонкої настройки неясного рівняння, щоб отримати більш точні результати.

Підвищення градієнта також описується як "ітеративний" підхід, ітерації, можливо, характеризуються як додавання окремих слабких учнів до єдиної сильної моделі для студентів.

Ось переконливий опис того, як слід переглянути тип реалізації градієнта, що покращить результати машинного навчання:

Системні адміністратори спочатку створили набір слабких учнів. Розгляньте їх, наприклад, як масив сутностей A-F, кожен з яких сидів навколо віртуальної таблиці та працює над проблемою, наприклад, класифікацією бінарних зображень.

У наведеному вище прикладі інженери спочатку зважують кожного слабкого учня, можливо довільно, призначаючи рівень впливу А, В, С тощо.

Далі програма запустить заданий набір навчальних зображень. Тоді, з огляду на результати, це призведе до збільшення ваги слабких учнів. Якщо A здогадався набагато краще, ніж B і C, як вплив буде підвищено відповідно.

У цьому спрощеному описі удосконалення алгоритму прискореного алгоритму порівняно легко зрозуміти, як більш складний підхід дасть покращені результати. Слабкі студенти "мислять разом" і в свою чергу оптимізують проблему ML.

Як результат, інженери можуть використовувати підхід "ансамблю" до збільшення градієнта майже в будь-якому проекті ML, починаючи від розпізнавання зображень до класифікації рекомендацій користувачів або аналізу природних мов. По суті, це "командний дух" підходу до ML, і той, який привертає багато уваги з боку деяких потужних гравців.

Підвищення градієнта, зокрема, часто працює з диференційованою функцією втрат.

В іншій моделі, що використовується для пояснення збільшення градієнта, іншою функцією такого виду прискорення є можливість виділення класифікацій або змінних, які, на більшу картину, є лише шумом. Розділяючи кожне дерево регресії змінних або структуру даних на домен одного слабкого учня, інженери можуть будувати моделі, які більш точно «звучать» знаків шуму. Іншими словами, означувач, на який поширюється нещасний слабкий учень, буде маргіналізований, оскільки слабкий учень повторно зважиться вниз і матиме менший вплив.