Регистрация / Вход
Прислать материал

Тенденция: большие данные в науке

Тенденция: большие данные в науке
Инновации
Технологии анализа информационных массивов ускоряют исследования в самых разных сферах: от астрофизики и генетики до социологии и лингвистики

В эпоху больших данных каждая научная дисциплина должна найти способ решения проблем, связанных с хранением, обработкой и интерпретацией больших объемов информации. Результаты научных наблюдений накапливаются в цифровом виде, поэтому управление и обмен данными становятся все более важными составляющими работы ученых.

13 сентября на 5-ой конференции по анализу больших данных Big Data Conference 2018 участники научного трека будут рассказывать о своих исследованиях, основанных на больших данных, в различных научных сферах. Параллельно на технологическом и бизнес-треке будут обсуждать использование анализа данных для развития организаций.

Есть ли наука, в которой еще не назрела необходимость использовать большие данные?

Большие данные в субъядерной физике

В физике большие данные, например, широко используются для изучения элементарных частиц. В ЦЕРНе (CERN, Европейский центр ядерных исследований, Женева) с помощью технологий машинного обучения обрабатывают информацию, полученную с адронного коллайдера. Коллайдер сравнивают со 100-мегапиксельной цифровой камерой, которая за одну секунду делает 40 миллионов электронных «снимков» сталкивающихся протонных сгустков. Чтобы сохранить объем данных в разумных пределах, изображения, которые не содержат значимых сведений, немедленно выбрасываются. Перед исследователями стоит сложная задача сохранить только интересные картинки для дальнейшего анализа и фильтрации, и нужно быть очень осторожными при отсеивании. Например, бозон Хиггса может появиться только на одном снимке из 100 миллиардов, и как только он исчезнет, он исчезнет навсегда.

На следующем этапе необработанная информация преобразуется в данные, пригодные для физического анализа, и сохраняется на дисках и лентах для следующих поколений. Все эти данные помещаются во всемирную вычислительную сеть Большого адронного коллайдера (Worldwide LHC Computing Grid, WLCG), состоящую из 167 вычислительных сайтов, расположенных в 42 странах и содержащих более 200 петабайт (200 000 терабайт) в 1 миллиарде файлов.

Большие данные в материаловедении

Новые технологии работы с данными меняют и материаловедение. Всего лишь в 1998 году Вальтер Кон и Джон Поупл получили Нобелевскую премию за разработку алгоритма, моделирующего молекулы на основании законов квантовой механики и позволяющего повысить точность расчета их молекулярной структуры и химической реактивности. Эта методика позволяет предсказывать структуру и электрические свойства металлов и их оксидов, но точность резко падает в случае сложных соединений, а время расчета сложных соединений на суперкомпьютерах исчисляется месяцами и годами. А теперь те же самые задачи решаются на облачных данных и использованием технологий обработки больших объемов информации для выявления паттернов и закономерностей. Для желающих делать эксперименты «в цифре» уже доступны большие открытые массивы данных (например, в рамках американского Materials project и европейского проекта Novel Materials Discovery Laboratory).

Большие данные в астрофизике

Астрофизики тоже возлагают большие надежды на системы распознавания и анализа изображений. Ключевая проблема текущего состояния науки заключается в том, что в космос огромен, а возможности человека по обработке результатов наблюдений — ничтожно малы в сравнении с объемом данных. Для примера, строящийся в Чили телескоп будет производить порядка 15 терабайт информации за одну ночь наблюдений. Никакая команда ученых не сможет работать с таким количеством данных.

Одна из задач наблюдения за небом — поиск гравитационных линз. Хотя до недавних пор большинство линз обнаруживались по счастливой случайности, астроном Карло Энрико Петрилло с коллегами натренировали искусственный интеллект для поиска тех самых гравитационных линз, и результаты команды поражают. Очень внимательный и эффективный исследователь может просматривать порядка тысячи снимков в час, а нужный объект обнаруживается с частотой примерно один раз на 30 000 галактик. То есть человек, работающий неделю без сна и отдыха, смог бы найти порядка 5-6 линз за свою жизнь. Нейронная сеть команды Петрилло всего за 20 минут анализирует 21 789 снимков всего лишь на мощностях одного старенького компьютера. Конечно, пока точность компьютерного интеллекта не абсолютная. Но из отобранных компьютером 761 потенциальных гравитационных линз, люди выбрали 56 наиболее вероятных, после чего их уже проверяют посредством наблюдений. Предполагают, что до трети из них могут оказаться гравитационными линзами, то есть при работе в режиме нон-стоп нейронная сеть позволит находить одну линзу в минуту, при том, что за последние 40 лет ученые обнаружили всего чуть больше ста таких объектов.

Большие данные в генетике

В генетике работа дата-сайентистов (от англ. data science) становится определяющей в дальнейшем развитии проектов, от расшифровки человеческих генов для прогнозирования заболеваний или наклонностей к спорту до создания виртуальных (а после и реальных) моделей растений. Из последних достижений этой отрасли знаний можно отметить завершение расшифровки генома хлебной пшеницы. Этот злак оказался намного сложнее для расшифровки, чем, например, рис, соя или кукуруза, геном которых уже расшифрован. Работа над этой задачей продолжалась 13 лет. Не удивительно, ведь геном пшеницы состоит из 16 млрд. пар оснований, тогда как человеческий — всего из 3 млрд. Есть уже и первые практические наработки, использующие данные о геноме. Например, в одном из исследований ученые смогли определить гены, активные во время стрессовых ситуаций. Усиливая эти гены при селекции, возможно вывести сорта, дающие лучший урожай в плохих условиях — например, при засухе.

Большие данные в гуманитарных науках

Важную роль большие данные играют и в гуманитарных науках. Например, команда психолога из центра позитивной психологии университета Пенсильвании Мартина Селигмана провела несколько экспериментов по анализу сообщений в Facebook и Twitter. В ходе одного из исследований, ученые проанализировали 148 миллионов твитов для предсказания уровня смертности от сердечных заболеваний в одном из округов США. Слова, связанные со злостью и негативным отношением, оказались факторами риска. Более того, данный прогноз оказался точнее, чем тот, что был сделан на основе 10 обычных риск-факторов — таких как курение или сахарный диабет. В дальнейшем с помощью этой технологии была составлена карта рисков, где по округам отмечены уровни благополучия, депрессии, доверия и других состояний.

Анализ текстовых сообщений в интернете требует плотной работы с лингвистами, в свою очередь предоставляя им множество данных для анализа: изменение языка и стиля общения, проникновение сленгов и отмирание понятий. Всестороннее влияние больших данных на деятельность человека  часть новое глобальной эпохи «Индустрия 4.0».

Большие данные и сетевой эффект

Рост количества данных предъявляет новые требования не только к квалификации ученых, но и к материальному обеспечению исследований. Сохранение данных имеет решающее значение для воспроизводимости научных результатов, а также обеспечения их доступности для широкой аудитории. Это приводит к важным вопросам о том, кто несет ответственность за эти данные, где их хранить, кто будет платить за хранение, как обеспечить безопасное использование. Кроме того, сохранения данных недостаточно, они также должны оставаться пригодными для использования будущими исследователями. А это не всегда легко обеспечить во времена, когда аппаратное и программное обеспечение может устареть в течение нескольких месяцев.

По мере того, как наука интегрирует информационные технологии в свои составные части, она наращивает «сетевой эффект»: между узлами в сети образуется гораздо больше связей, чем в традиционной линейной схеме, при которой ученый изолированно создает свои собственные данные, программное обеспечение и идеи. Сетевой эффект позволяет ускорить научный прогресс с экспоненциальной скоростью: не только данные, созданные одной командой, могут использоваться всем миром, но и новые стороны могут вносить свой вклад в создание программ и развитие идей. Таким образом, анализ больших массивов данных в 21 веке станет обязательным компонентом науки.

Система Orphus Если Вы заметили ошибку, выделите её и нажмите Ctrl + Enter.

Материал подготовлен на основе сообщения пресс-службы Big Data Conference

Ctrl+Enter
Esc
?

Комментарии

Для того чтобы оставить комментарий, необходимо войти в систему или зарегистрироваться.