Каталоги даних та дозрівання ринку машинного навчання

Зміст

Інфономіка імператив
Ні помилок, ні стресу - покроковий посібник зі створення програмного забезпечення, що змінює життя, не руйнуючи ваше життя
Що Каталоги даних можуть зробити для бізнесу
Додавання в машинне навчання
Як вибрати

Джерело: Nmedia / Dreamstime.com

Винос:

Ринок MLDC зростає, і підприємства, які прагнуть ефективно використовувати великі дані за допомогою машинного навчання, повинні знати про основні імена у цій галузі та їх індивідуальний рейтинг.

Це вік великих даних. Ми переповнюємось інформацією, а бізнесу вважають викликом керувати та отримувати з неї цінність.

Сьогоднішній потік великих даних тягне за собою не просто обсяг, різноманітність та швидкість, а й складність. Як визначено SAS в "Історії великих даних" та "Поточні міркування", це фактор потоків "з різних джерел, що ускладнює зв'язок, узгодження, очищення та перетворення даних у всіх системах". (Хочете дізнатися більше про великі дані? Ознайомтеся з (великими) даними Велике майбутнє.)

Пошук цінних відомостей - це не простий спосіб накопичити якомога більше даних, а знайти потрібні дані. Неможливо все це обробити ручними процесами. Ось чому все більше і більше підприємств "звертаються до каталогів даних, щоб демократизувати доступ до даних, дати можливість племінним даним зібрати інформацію, застосовувати політику даних та швидко активувати всі дані для ділової цінності".

Тут на малюнку вносять каталоги даних (іноді також відомі як каталоги інформації). Як визначено тут, вони дають можливість "користувачам досліджувати необхідні джерела даних та розуміти досліджувані джерела даних, а також допомагають організаціям досягти більшої цінності від своїх теперішніх інвестицій". Одним із способів цього є надання можливості набагато більшого доступу до даних серед різних типів користувачів, які можуть використовувати або сприяти їм.

Інфономіка імператив

Відзначаючи різко збільшений попит на каталоги даних наприкінці 2017 року, Gartner назвав їх "новим чорним". Вони стали визнаватися швидким та економним рішенням "щодо інвентаризації та класифікації організацій, які все більше розповсюджуються та дезорганізуються, та розподіляють їхні ланцюги подачі інформації". Необхідність цього виникла через зростання "інфономіки", яка закликає застосовувати таку ж ретельність для відстеження інформації, як це стосується управління іншими активами бізнесу. (Докладніше про ланцюги поставок див. У розділі, як машинне навчання може покращити ефективність ланцюгів поставок.)

Gartners приймають джейби за допомогою каталогів даних Forrester Wave ™: Каталог машинного навчання, ІІ квартал 2018 року. Більше половини учасників опитування в цьому звіті заявили, що планують розробити впровадження свого каталогу даних. Ймовірно, вони були в основному мотивовані тим, що кожен мав принаймні сім озер даних у своїй організації. Як пояснює Gartner щодо каталогів даних, каталоги даних особливо корисні для вилучення "кон, значення та цінності даних", які, як правило, залишаються у некласифікованому вигляді в озері даних.

Компанія Forrester повідомляє, що більше ніж третина осіб, які приймають рішення та аналізують аналітику, мали справу з 1000 ТБ або більше даних у 2017 році, кількість, за яку повідомлялося лише від 10 до 14 відсотків за рік до цього. Управління даними в такому масштабі - це зростаюча проблема, або, зокрема, два завдання:

"1) об'єднання існуючих бізнес-процесів з джерелом даних для їх аналізу та впровадження розуміння та 2) отримання, збирання, управління та керування даними під час їх зростання".

Ні помилок, ні стресу - покроковий посібник зі створення програмного забезпечення, що змінює життя, не руйнуючи ваше життя

Ви не можете покращити свої навички програмування, коли ніхто не піклується про якість програмного забезпечення.

Що Каталоги даних можуть зробити для бізнесу

Gartner визначає конкретні способи, за допомогою яких каталоги даних можуть покращити потік інформації та продуктивність організації:

Збір та повідомлення сучасного інвентаря інформаційних активів, який доступний організації.
Створення загального словника ділових термінів, що визначає семантичну інтерпретацію та значення даних організацій, забезпечуючи тим самим засоби посередництва та усунення визначених невідповідностей.
Увімкнення динамічного та спритного середовища для співпраці, щоб бізнес та IT-колеги могли коментувати, документувати та ділитися даними.
Забезпечення прозорості використання даних за допомогою аналізу рядків та впливу.
Моніторинг, аудит та відстеження даних для підтримки процесів управління інформацією.
Захоплення метаданих для покращення внутрішнього аналізу використання та повторного використання даних, оптимізації запитів та сертифікації даних.
Здійснення інформації в межах її використання в бізнесі шляхом фіксації, спілкування та аналізу того, які дані існують, звідки вони походять, для чого вони використовуються, навіщо вона потрібна, як вона протікає між процесами та системами, хто за неї відповідає, що це означає і яке значення воно має.

Отримати належну ідентифікацію даних та доступність їх ключовим людям в організації важливо, йдеться у звіті Gartner, не лише для пошуку способу "монетизації активів даних для результатів цифрового бізнесу", а для дотримання норм, чи є вони галузевими. такий специфічний, як Закон про переносність та підзвітність медичного страхування (HIPAA) або такого загального характеру, як Загальний регламент про захист даних (GDPR).

Додавання в машинне навчання

Але нічого не обходиться без недоліків. Для каталогів даних проблемою був повільний і виснажливий процес, пов’язаний із вручну збирати їх з усіма метаданими, які потрібно ввести. Тут надходить компонент машинного навчання.

Каталоги даних, які оцінив Forrester, називаються MLDC, оскільки вони використовують потужність машинного навчання, одного з компонентів ШІ. Як пояснив блог Podium Data, це дає змогу "створити стійкий сховище метаданих, а потім застосувати ML / AI для виведення і розкриття потенційно корисних даних про основні ресурси даних".

Як вибрати

Щоб допомогти організаціям оцінити, який саме бізнес слід обрати, Forrester застосував 29 балів оцінювання до 12-ти кращих MLDC. Він визначив лідерів на цьому ринку як: IBM, Relito, Unifi Software, Alation та Collibra. Найсильнішими її виконавцями є Informatica, Oracle, Waterline Data, Infogix, Cambridge Semantics та Cloudera. Hortonworks стоїть самотужки в ранзі "суперника".

Однак не слід проходити по одному загальному рейтингу. Звіт розбиває конкретні сильні та слабкі сторони кожного з них. Відповідно, якщо така особливість, як дослідження та розробки, має надзвичайно важливе значення для організації, вона може розглядати Hortonworks як рівну IBM та Colilbra для цього аспекту, оскільки ці троє мають найкращий бал із п'яти за ту якість, яка була на два бали кращий за Алацію та Колудеру і на чотири бали кращий за Кембриджську семантику.

Відповідно, звіт Forrester радить тим, хто використовує його звіт для керівництва, не вважати, що компанія, що займає найбільш високий рейтинг, є найкращим вибором для всіх. Вони повинні приділяти пильну увагу розбитці оцінки, щоб знайти те, що відповідає їх конкретним вимогам.