Які основні способи автоматизувати та оптимізувати процеси наукових даних? googletag.cmd.push (function () {googletag.display (div-gpt-ad-1562928221186-0);}); Q:

Автор: Roger Morrison
Дата Створення: 28 Вересень 2021
Дата Оновлення: 1 Липня 2024
Anonim
Які основні способи автоматизувати та оптимізувати процеси наукових даних? googletag.cmd.push (function () {googletag.display (div-gpt-ad-1562928221186-0);}); Q: - Технологія
Які основні способи автоматизувати та оптимізувати процеси наукових даних? googletag.cmd.push (function () {googletag.display (div-gpt-ad-1562928221186-0);}); Q: - Технологія

Зміст

Q:

Які основні способи автоматизувати та оптимізувати процеси наукових даних?


A:

Процеси наукових даних у зв'язку з машинним навчанням та AI можна розділити на чотири різних фази:

  1. збирання та дослідження даних,
  2. побудова моделі,
  3. розгортання моделі та
  4. онлайн-оцінка та уточнення.

З мого досвіду, найбільш перешкоджаючими фазами є фази збору даних та моделей розгортання в будь-якому процесі наукових даних на основі машинного навчання, і ось два способи їх оптимізації:

1. Створіть високодоступний сховище даних.

У більшості організацій дані не зберігаються в одному центральному місці. Давайте просто візьмемо інформацію, що стосується клієнтів. Ви маєте контактну інформацію із клієнтами, службу підтримки клієнтів, відгуки клієнтів та історію перегляду клієнтів, якщо ваш бізнес - це веб-додаток. Усі ці дані природно розпорошені, оскільки вони служать різним цілям. Вони можуть розміщуватися в різних базах даних, а деякі можуть бути повністю структуровані, а деякі неструктуровані, і навіть можуть зберігатися як звичайні файли.


На жаль, розсіяність цих наборів даних дуже обмежує роботу з науковими даними, тому що основою всіх проблем НЛП, машинного навчання та ШІ є дані. Отже, наявність усіх цих даних в одному місці - сховищі даних - першорядне значення для прискорення розробки та розгортання моделі. Зважаючи на те, що це важлива частина для всіх процесів наукових даних, організації повинні найняти кваліфікованих інженерів, які допоможуть їм створити свої сховища даних. Це можна легко розпочати, як прості скидання даних в одне місце і повільно переростають у продумане сховище даних, повністю задокументовано та піддаються запиту за допомогою утилітних інструментів для експорту підмножини даних у різні формати для різних цілей.

2. Розкрийте свої моделі як послугу безперебійної інтеграції.

Окрім можливості доступу до даних, важливо також мати можливість інтегрувати моделі, розроблені науковцями даних. Інтегрувати моделі, розроблені в Python, з веб-додатком, який працює на Ruby, може бути дуже важко. Крім того, у моделей може бути багато залежностей від даних, які може не забезпечити ваш продукт.


Один із способів вирішити це - створити потужну інфраструктуру навколо вашої моделі та виявити достатньо функціональних можливостей, необхідних вашому продукту, щоб використовувати модель як "веб-сервіс". Наприклад, якщо вашій програмі потрібна класифікація настроїв щодо відгуків про товар , все, що потрібно зробити, - це звернутися до веб-сервісу, надаючи відповідне, і послуга поверне відповідну класифікацію настроїв, якою продукт може безпосередньо користуватися. Таким чином інтеграція просто у формі виклику API. Розв’язка моделі та товару, який вона використовує, дуже легко створює нові продукти, які ви придумали, а також використовувати ці моделі з невеликим клопотом.

Тепер, налаштування інфраструктури навколо вашої моделі - це зовсім інша історія і вимагає великих інвестицій від ваших інженерних команд. Після того, як інфраструктура є, це просто питання побудови моделей таким чином, щоб вона вписувалася в інфраструктуру.