Чому Hadoop - ідеальна відповідність для секвенування геному - Технологія

Зміст

Сучасність і майбутнє геноміки
Потреби індустрії картографування геномів
Що очікується в рішенні?
Чому Hadoop - найкраще рішення для секвенування геному
Ні помилок, ні стресу - покроковий посібник зі створення програмного забезпечення, що змінює життя, не руйнуючи ваше життя
Що ще може зробити Hadoop?
Можливості для Hadoop
Арбалет: Платформа управління даними нового покоління
Інше програмне забезпечення на основі Hadoop Genomics
Висновок

Джерело: A3701027 / Dreamstime.com

Винос:

Послідовність геному потребує потужних технологічних інструментів для обробки всіх своїх даних, і Hadoop вирішує це завдання.

Клінічна геноміка - захоплююча тема, де люди працюють над передовими технологіями для обробки швидких та точних результатів. На ринку існує безліч геномних секвенсорів, і вони виробляють петабайти даних про послідовності, і зростання послідовності збирається виробляти екзабайти даних найближчим часом. Тут Hadoop є ідеальною платформою для обробки складних робочих потоків геноміки. Hadoop може зберігати та сортувати величезну кількість інформації, а також може робити важливий аналіз. (Щоб отримати уявлення про те, скільки даних насправді пов’язано з цим, прочитайте "Розуміння бітів, байтів та їхніх множин".)

Сучасність і майбутнє геноміки

Сьогодні картографування геному досягло свого апогею. Багато людей, пов’язаних з галуззю геноміки, розриваються цікавістю, і оскільки нові можливості представляють себе, краща технологія є потребою години. Секвенування геному - це дуже повторюване та ресурсомістке завдання. Тільки в 2013 році було створено близько 15 петабайт даних, і лише 2000 секвенсаторів. Ця сума, що відкидає щелепу, включала 300 КБ даних про секвенсований геном людини. За такої швидкості виробництва даних можна підрахувати, що до 2018 року буде вироблено приблизно один екбабайт даних. Це буде пов’язано із зростанням секвенсорів, які дозволять отримувати все більше даних за цикл. Ще одна причина - поява надзвичайно потужних і недорогих машин для секвенування геномів. З 2008 року ціна цих машин постійно знижується. Це пояснюється потужними машинами нового покоління, які вийшли на ринок.

Потреби індустрії картографування геномів

Складні алгоритми використовуються для обробки даних, які збираються з геному людини. Потім цю інформацію потрібно зберігати. Він може бути переглянутий у майбутньому для порівняння з вихідними даними. Завдання обробки та зберігання 100 ГБ даних не надто складна, особливо коли ви це робите з потужними машинами, задіяними в центрах послідовності. Дослідження показують, що ця кількість даних може бути оброблена всього за 1000 годин процесора, тому це дуже просто. При такій швидкості технічного прогресу очевидно, що індустрія геномів незабаром обробить тисячі гігабайт всього за кілька секунд.

Однак методи управління та зберігання даних розвиваються не так швидко, через що можна очікувати великої втрати дорогоцінних даних. Це дійсно небажано, оскільки це серйозно завадить прогресу, досягнутому в геноміці людини. Отже, потреба в ефективній техніці управління даними, яку можна легко оновити, дуже велика. Це може бути ефективним, особливо в найближчому майбутньому, коли картографування геному перейде від великих лабораторій з потужними комп’ютерами до невеликих лікарень та лабораторій.

Що очікується в рішенні?

Темп, з яким відкриваються та розробляються нові методи геномічного секвенування, надзвичайно високий. Цей темп може бути дуже корисним для медичної науки у вигляді потужного кроку до викорінення основних захворювань. Однак цей темп теж може бути дуже складним.

Завдання постає у формі управління великою кількістю даних, отриманих за допомогою послідовних проектів. Отже, потрібне ефективне рішення, яке допоможе зберігати та обробляти великі дані. Це рішення повинно бути дешевим і швидким, але при цьому є адаптивним. Аналіз, що надається цим рішенням, також повинен бути точним і постійним. Отже, яке рішення проблеми? Безперечно, це Hadoop. (Для отримання додаткової інформації про використання Hadoop, див. 5 Повідомлень про великі дані (Hadoop) як послуги.)

Чому Hadoop - найкраще рішення для секвенування геному

Що потребує галузь геноміки - це чудове рішення, яке може допомогти їм ефективно керувати даними, обробляти їх і зберігати їх для подальшого використання. Це рішення, здається, ідеально відповідає програмі Hadoop. Отже, Hadoop можна розглядати як ідеальне програмне забезпечення для управління великими даними, яке може значно покращити сучасні методи зберігання даних в галузі геноміки.

Можливості Hadoop в реальному часі дають змогу секвенсорам геномів аналізувати та зберігати велику кількість даних одночасно в режимі реального часу. Це також дозволяє в майбутньому використовувати дані. Hadoop може обіграти багато застарілих систем, оскільки це набагато швидше і надійніше їх.

Ні помилок, ні стресу - покроковий посібник зі створення програмного забезпечення, що змінює життя, не руйнуючи ваше життя

Ви не можете покращити свої навички програмування, коли ніхто не піклується про якість програмного забезпечення.

Що ще може зробити Hadoop?

Завдяки Hadoop відкрилася велика кількість можливостей та можливостей у галузі геноміки та генного послідовності. Hadoop пропонує паралельні параметри обчислень, завдяки яким можливе швидше послідовність. Також за допомогою функції MapReduce Hadoop велику кількість генів можна легко відобразити. Через це послідовність з Hadoop справді стане «наступним родом» і буде набагато менш складною.

Можливості для Hadoop

Hadoop має декілька можливостей в галузі геномів, але найкращий з них був отриманий із статті Лінда Чін "Зрозуміти дані геномних даних про рак" у журналі Genes & Development. У цій статті вона розповідає про те, як сучасна геноміка відкрила нові двері, і це призвело до багатьох позитивних результатів, таких як відкриття геномної інформації про рак. Завдяки цьому ми ближче до відкриття самого лікування раку. Однак для цього потрібно трохи більше уваги та потужного додатку для управління даними для кращої можливості досліджень у цій галузі. Це може бути найкращою можливістю для Hadoop довести свою швидкість, потужність та точність.

Арбалет: Платформа управління даними нового покоління

Арбалет, який представляє собою програмний конвеєр, призначений для аналізу повторної послідовності геному, є одним з найкращих рішень. Це було результатом інтеграції в Hadoop між швидким алгоритмом вирівнювання секвенсованих даних, який називається Bowtie, та потужним алгоритмом, який порівнює та вивчає послідовні дані, тобто генотипер на ім'я SoapSNP. Він побудований на Apache Hadoop і базується на реалізації структури MapReduce. Арбалет є портативним, масштабованим, а також підходить як інструмент хмарних обчислень.

За допомогою цієї потужної інтеграції повний геном може бути досліджений всього за один день на локальному кластері, що має 10 вузлів. З кластером 40 вузлів процес ще швидше і завершується всього за три години загальною вартістю менше 100 доларів! Дослідження, проведене для перевірки точності арбалета, показало, що він може порівняти кожен геном з 99-відсотковою точністю. Ще одна корисна особливість арбалета - це те, що він працює на хмарі. Таким чином, арбалет дозволить тисячам майбутніх центрів послідовності, наприклад, лікарень, послідувати великі обсяги даних про геном без необхідності будь-яких потужних, дорогих комп'ютерів та технологій.

Інше програмне забезпечення на основі Hadoop Genomics

Багато компаній визнали силу Hadoop у зміні світу геноміки. Вони належним чином модифікували Hadoop, щоб використати його потенціал для розширеного послідовності геномів. Нижче наведено кілька прикладів відомих рішень послідовності геномів на основі Хадоопа:

Hadoop-BAM: Це потужний інструмент управління даними, який використовує функцію Hadoop MapReduce для різних видів діяльності, пов’язаних з геномікою, як-от генотипізація. Це працює у форматі Бінарне вирівнювання / карта.
Cloudburst: Це рішення, засноване на Hadoop, було створене в 2009 році. Це надзвичайно ефективно для порівняння послідовностей геномів та картографування окремих генів. Це також одне з перших додатків на базі Hadoop, розроблених для цієї мети.

Висновок

Інтеграція між великими даними та галуззю геноміки виявляється благом сучасності. Ці платформи є ефективними у виявленні методів лікування декількох захворювань, таких як рак. Дані, виявлені за допомогою картографування геному, можуть бути використані для формулювання профілактичної інформації про подібні захворювання. Поява великих даних може розглядатися як переломний момент у світі геноміки, і якщо інформація використовується розумно, то, можливо, і в ширшій галузі охорони здоров’я. Єдиний спосіб просунутися в цьому полі - це використання належних інструментів управління даними, як Hadoop.