Доля правильных ответов составила 51 процент и менее
Сгенерированные нейросетью микрофотографии материалов достигли такого уровня, что отличить подделку не могут даже профильные специалисты. Во всяком случае, к таком выводу пришли авторы статьи, в Nature Nanotechnology, после того, как разослали реальные и сгенерированные фотографии 250 ученым со степенью в области материаловедения.
Микрофотографиями материалов называют снимки, полученные с помощью микроскопа: просвечивающего, сканирующего или атомно-силового. На хорошей микрофотографии можно рассмотреть текстуру материала, кристалличность, размер пор, количество и разновидности дефектов. Без таких изображений не обходится сегодня ни одно исследование по материаловедению и нанотехнологиям. Удачные микрофотографии нередко попадают на обложки научных журналов, в научно-популярные публикации и учебники.
А еще такие изображения относительно просто подделать. Как правило, раньше авторы подделок брали за основу несколько изображений из чужих статей, вырезали из них фрагменты с нужной текстурой, формой наночастиц, а потом комбинировали их в графическом редакторе. Но сегодня развитие нейросетей может вывести эту проблему на новый уровень.
Ученые из пяти стран объединились под руководством Мэтью Фария (Matthew Faria) из Института Лейбница в Дрездене, чтобы разобраться, насколько хорошо нейросеть уже умеет подделывать микрофотографии. Сначала авторы обучили нейросеть getimg.ai рисовать микрофотографии на основе существующих. Обучение заняло менее часа. После этого они дали команду нейросети нарисовать изображение «по мотивам» микрофотографий из реальных статей. Всего получили шесть пар изображений, которые разослали 250 добровольцам — ученым со степенью в области материаловедения. Испытуемые заранее знали, что одно изображение в каждой паре имитировано нейросетью, их задачей было определить, какое именно. Даже для такой облегченной задачи доля правильных ответов оказалась невысокой — от 41 до 51 процентов.
Авторы особо отметили, что нейросеть не составляет имитированные изображения из фрагментов реальных, поэтому поиск по картинке и другие методы, применявшиеся для выявления подделок ранее, против такой сгенерированного изображения будут бессильны.
Вместо этого Фария и его коллеги предложили при подаче статьи прикладывать к каждой фотографии файл инструментальных данных (сырые данные прибора, raw data). Это массив данных, которые прибор использует при построении картинки — например координаты отклонения кантилевера для атомно-силового микроскопа, или массивы плотности электронов для электронных микроскопов. Но у предложенного подхода есть заметные минусы: такие файлы всегда имеют большой объем, а их формат может отличаться не только для разных видов микроскопии, но и для разных приборов в рамках одного вида. Поэтому отправка и проверка raw-данных сильно замедлит процесс рецензирования и подготовки публикаций. При этом вполне вероятно, что уже через несколько лет нейросеть научится имитировать и такие файлы тоже.
Проблема, которую обозначили Фара и его коллеги — часть большой проблемы фальсификаций в научных статьях. Одной из причин этого называют давление на ученых, особенно постдокторантов и молодых руководителей групп. Количество статей напрямую влияет на карьеру, поэтому соблазн сфальсифицировать данные, чтобы попасть в престижный журнал, всегда существует.
Помимо микрофотографий подделывают и другие экспериментальные данные. Например, в 2022 году в Кембриджской базе структурных данных обнаружили почти тысячу поддельных кристаллических структур. Подробнее об этих событиях можно почитать в нашем материале «Деплатформинг структур».