Большие данные без большого шума

Александр Гурьянов

Анализ больших данных — это крупная компьютерная отрасль. Обычно речь идет о маркетинговых исследованиях, результаты которых должны помогать продавать больше товаров. Если разобраться, то наука всегда оперирует большими данными. Экспериментальные данные, которых, как правило, много, содержат артефакты и искажены шумом. Задача ученого выделить в них закономерности и выразить их в компактном виде, желательно на четком математическом языке. На это способен только человеческий интеллект.

Но и искусственный интеллект кое-что умеет. Компьютерные сети могут понизить неопределенность исходных данных эксперимента и представить их в удобном для анализа виде. Один из способов такого применения обучаемых нейронных сетей только что продемонстрировали физики Берлинского центра материалов и энергии имени Гельмгольца под руководством доктора Грегора Хартманна (Gregor Hartmann), заведующего лабораторией методов ИИ. С его помощью они измерили параметры излучения лазера на свободных электронах. Статья появилась в конце прошлого года в журнале Scientific Reports.

Ученые разработали программу, которая сжимала набор данных, а затем удаляла из них шум. Это стало возможным благодаря тому, что их сеть представляет собой комбинацию двух сетей, первая сжимает данные, вторая — восстанавливает. Обе их тренируют так, чтобы сжатые данные было удобно интерпретировать исследователю. В 2017 году, когда такие сети предложил Гугл, их широкое практическое применение не просматривалось.

Лазер на свободных электронах позволяет получать очень короткий импульс излучения, длящийся от фемто- до аттосекунд. Для его измерения обычно применяют газовые детекторы. В них импульс выбивает фотоэлектроны, характеристики которых затем анализируют приборы. Излучение лазера сильно меняется от импульса к импульсу, но экспериментаторам нужно точно знать параметры каждого из них.

Новая нейросеть как раз и решает эту задачу. Она успешно определяет энергию и интенсивность лазерного импульса по импульсу фотоэлектронов детектора излучения. ИИ извлекает ценную информацию из зашумленных данных о времени пролета фотоэлектронов и даже учитывает индивидуальные характеристики конкретного детектора. Программа делает это гораздо лучше других способов. Интересно, что она позволяет реконструировать сигналы, которые незаметны на фоне шума в первичных данных.

Доктор Хартманн говорит, что его ИИ сможет выявлять неожиданные физические эффекты и корреляции в больших наборах самых разных экспериментальных данных. Годы работы позволили немецким ученым создать очень удобную для пользователя программу. Ее мощный инструментарий годится не только для оптики и спектроскопии.


Scientific Reports, 2022; 12 (1)

Разные разности
Наука и техника на марше
В машиностроении сейчас наблюдается оживление. И то, о чем пойдет речь в этой заметке, это лишь малая толика новинок в области специального транспорта, который так необходим нам для освоения гигантских территорий нашей страны.
Пишут, что...
…даже низкие концентрации яда крошечного книжного скорпиона размером 1–7 мм (Chelifer cancroides) убивают устойчивый больничный микроб золотистый стафилококк… …скрученные углеродные нанотрубки могут накапливать в три раза больше энергии на еди...
Мамонты с острова Врангеля
Остров Врангеля открыл в 1707 году путешественник Иван Львов. А в конце XX века на острове нашли останки мамонтов. Их анализ показал, что эти мамонты дольше всего задержались на Земле. Но почему же они все-таки исчезли?
Марс: больше ударов метеоритов, чем предполагалось
Каждый год на Землю падает около 17 тысяч метеоритов. Замечаем мы их редко, потому что большинство из них сгорают в атмосфере Земли. Интересно, а как дела обстоят на Марсе, где атмосфера в сто раз тоньше и более разреженная? Значит ли это, что н...