• Университет
  • Образование
  • Наука и инновации
  • Сотрудничество
  • Жизнь в ТПУ
115

Сегодня во всем мире наблюдается всплеск интереса к технологиям класса BIG DATA. Это связано с постоянным ростом объемов данных, которыми приходится оперировать и которые приходится контролировать крупным компаниям. Накопленная информация для многих организаций является важным активом, однако обрабатывать ее и извлекать из нее пользу с каждым днем становится все сложнее и дороже.

Под терминами «Big Data» или «Большие данные» скрывается огромный набор информации. Причем объем ее столь велик, что обработка больших объемов данных стандартными программными и аппаратными средствами представляется крайне сложной. Не менее остро стоит и проблема хранения гигантских объемов данных. Наиболее яркий пример больших данных – это информация, поступающая с различных физических экспериментальных установок, – например, с Большого адронного коллайдера.

На базе Томского политехнического университета функционирует Лаборатория обработки и анализа больших данных (Big Data Analytics and Technologies Laboratory). Ученые поставили перед собой задачу за два года разработать систему хранения больших объемов информации, которую опробуют в экспериментах ЦЕРНа (Европейского центра ядерных исследований) – система позволит за секунды получать ту информацию, на которую раньше уходили часы и сутки. Курирует работу новой современной лаборатории Алексей Климентов – ведущий мировой специалист в области современных методов сбора, хранения, обработки и анализа данных для экспериментов и установок мегасайнс класса, глава исследовательской группы по физическому программному обеспечению Национальной лаборатории Брукхэвен (США).

В ЦЕРНе, в крупном эксперименте «АТЛАС», он координирует вопросы обработки полученных данных и разработки, связанные с суперкомпьютерами. Во время визита в ТПУ представители ЦЕРНа провели собеседования со студентами вуза, и лучшие студенты смогли отправиться на стажировку в центр.

По словам специалиста кафедры прикладной математики Института кибернетики ТПУ, стажера в IT-департаменте проекта «АТЛАС» Валерия Парубца, в рамках работы в эксперименте ATLAS задачами политехника стали анализ и хранение данных большого объема (Big Data).

«Данные, которые поступают в систему с Большого адронного коллайдера, исчисляются терабайтами в секунду, и наша задача - получить уникальный практический опыт работы с информацией таких колоссальных объемов, а затем передать полученные знания в ТПУ».

— Валерий Парубец, специалист КПМ ИКТПУ

Он отмечает, что Big Data является на сегодняшний день ключевым направлением развития информационных технологий. Это серия подходов, инструментов и методов обработки структурированных и неструктурированных данных огромных объемов. И эти объемы с каждым годом увеличиваются в разы. Классические методы обработки, которые работали пять-десять лет назад, с таким потоком информации справляться уже не в состоянии, и сегодня специалисты в области IT ищут новые методы. Для решения этой глобальной задачи ЦЕРН является наилучшим местом. На сегодня там с разными задачами находятся около десятка политехников.

Объемы получаемых данных составляют петабайты в секунду.

Существенная часть столкновений частиц науке известна, и физикам важно запечатлеть необычные столкновения, подтверждающие ту или иную гипотезу. Это примерно 1 % от общего объема данных, получаемых с коллайдера.
Однако даже этот процент очень велик. Проводятся все новые эксперименты, в систему поступают все новые данные. Чтобы обработать всю собранную на сегодняшний день информацию, по примерным подсчетам ученым потребуется 100 лет, а то и больше, непрерывных вычислений на нынешних мощностях.

Поэтому очень важно придумать, как оптимизировать все необходимые подсчеты. Именно это и является задачей стажеров Томского политеха в рамках участия в эксперименте ATLAS работа над анализом и хранением данных большого объема (Big Data).

Пока же собранная с Большого адронного коллайдера информация «дожидается» обработки, эти массивы данных требуют сохранения. Ученым ЦЕРНа удалось решить задачу, разработав систему Grid (LHC Computing Grid). Это глобальная вычислительная сеть ЦЕРНа, место расположения которой – весь мир. В состав Grid входит 170 вычислительных центров из 36 стран. Они непрерывно получают, сохраняют и обрабатывают информацию из ЦЕРНа.
«Моя задача состоит как раз в том, чтобы доработать систему распределения данных. Проработать алгоритмы: куда и что следует отправлять. Большинство работников ЦЕРНа в итоге ничего и не заметит. Однако это избавит людей, которые занимаются хранением информации, от постоянных консультаций с экспертами о порядке приема этих данных, рассказывает о своей работе Валерий Парубец. С точки зрения «айтишника», это очень интересная задача, приходится оперировать колоссальными объемами информации, которая растекается по всему миру».

В дальнейшем полученный опыт работы политехник использует в своей научной работе по возвращении в Томский политехнический университет, где участники проекта «АТЛАС» продолжают удаленную работу с центром. Они будут работать в Лаборатории обработки и анализа больших объемов данных при центре RASA в Томск.

Эти и многие другие вопросы обсуждали в начале декабря в ТПУ на первой международной школе по Big Data. Ее участниками стали ведущие исследователи из России, Великобритании, США и Италии.Организаторами Международной молодежной научной конференции-школы по распределенным гетерогенным вычислительным инфраструктурам выступили Томский политехнический университет и Национальный исследовательский центр «Курчатовский институт», при поддержке центра RASA Томск. Это первое масштабное мероприятие за Уралом в сфере Big Data.

Во время работы школы все желающие смогли посетить выступления ученых, лекции и семинары. Ученые рассказали о применении нейронных сетей в индустриальной кибербезопасности, о методах поиска астероидов на околоземных орбитах, машинном обучении и работе с данными на Большом адронном коллайдере.

В будущем технологии Big Data позволят работать с еще большим объемом информации, и ученые надеются, что это позволит улучшить качество жизни людей, изменить транспортные условия, повысить точность прогнозов погоды и так далее.

«В России, по сравнению с США и Европой, пока реализовано достаточно мало систем, работающих с большими объемами данных. Потребность же в них есть у банковского сектора, нефтегазовой отрасли, сферы телекоммуникаций и так далее. Весь этот колоссальный объем данных нужно собирать, хранить и каким-то образом анализировать».

— Максим Иванов, и.о. заведующего кафедрой программной инженерии ТПУ

Оцените была ли информация на этой странице полезной?