Чи може коли-небудь бути занадто багато даних у великих даних?

Відеоролик: Запрещенное видео. Шокирующая Индия

Зміст

Q:

A:

Відповідь на запитання - це ДА. Абсолютно може бути занадто багато даних у великому проекті даних.

Існує чимало способів, як це може статися, і різні причини, через які професіоналам потрібно обмежувати та лікувати дані будь-якою кількістю способів, щоб отримати правильні результати. (Прочитайте 10 великих міфів про великі дані.)

Загалом експерти говорять про відмежування "сигналу" від "шуму" в моделі. Іншими словами, у морі великих даних відповідні дані прозорливості стає важко орієнтуватися. У деяких випадках ви шукаєте голку в копиці сіна.

Наприклад, припустимо, що компанія намагається використовувати великі дані для отримання конкретної інформації про сегмент клієнтської бази та їх придбання протягом певного часового періоду. (Прочитайте Що робить великі дані?)

Залучення величезної кількості активів може призвести до отримання випадкових даних, що не мають значення, або навіть може призвести до упередження, яке перекосує дані в ту чи іншу сторону.

Це також різко уповільнює процес, оскільки обчислювальній системі доводиться боротися з більшими та більшими наборами даних.

У таких різних проектах дуже важливо, щоб інженери даних впорядковували дані для обмежених та конкретних наборів даних - у випадку вище, це були б лише дані для того сегменту клієнтів, який вивчається, лише дані того часу кадр, який вивчається, і підхід, який викорчує додаткові ідентифікатори або довідкову інформацію, яка може заплутати речі або сповільнити системи. (Роль ReadJob: Інженер даних.)

Докладніше розглянемо, як це працює на кордоні машинного навчання. (Читайте машинне навчання 101.)

Експерти машинного навчання говорять про щось, що називається "переоснащення", коли надмірно складна модель призводить до менш ефективних результатів, коли програма машинного навчання втрачається на нових виробничих даних.

Переналагодження буває, коли складний набір точок даних занадто добре відповідає початковому навчальному набору, і не дозволяють програмі легко адаптуватися до нових даних.

Зараз технічно перевиконання зумовлене не існуванням занадто багато зразків даних, а коронацією занадто багато точок даних. Але ви можете стверджувати, що надмірна кількість даних також може стати фактором, що сприяє цьому типу проблем. Справа з прокляттям розмірності передбачає деякі ті ж методики, що і в попередніх великих проектах даних, як професіонали намагалися точно визначити, чим вони живлять ІТ-системи.

Суть полягає в тому, що великі дані можуть бути дуже корисними для компаній, або вони можуть стати головною проблемою. Одним з аспектів цього є те, чи має компанія правильні дані. Експерти знають, що не рекомендується просто скидати всі активи даних у бункер і придумувати цю інформацію - у нових хмарних та складних системах передачі даних намагання контролювати та управляти даними, а також удосконалювати їх, щоб отримати більш точні та ефективне використання активів даних.