У человека, обучающегося решать головоломки, есть два пути — либо разбираться методом проб и ошибок, либо выяснить правила и методы решения. Аналогично ведет себя ИИ. Генеративные модели, такие как ChatGPT и Sora, основываются исключительно на данных и обучаются на собственных неудачах. Однако эти системы не могут учитывать законы природы, например механики или гидродинамики, поэтому с трудом справляются с данными, которые сильно отличаются от привычных для них.
При информированном машинном обучении специалисты знакомят ИИ с набором правил, направляющих процесс обучения. Включение правил, например, законов физики может сделать обучение более успешным. Но здесь для оптимальной работы нейросети надо найти правильный баланс данных и знаний. Ответы на вопросы о том, как оценить важность предварительных знаний, какова связь между данными и правилами и как заставить правила работать лучше, непросты и требуют отдельных исследований.
Китайские ученые, руководимые сотрудником Пекинского университета Сюй Хао (Hao Xu), разработали способ оценить относительную ценность правил и данных при машинном обучении. Исследование предлагает новый способ выявить эту пропорцию количественно. Экспериментальная задача состояла в том, чтобы обучить ИИ законам физики. Исследователи нашли метод расчета, который позволяет выяснить вклад каждого отдельного правила в точность результатов ИИ, а также количественно оценить влияние объема данных на их ценность.
Ученые также анализировали взаимодействие между различными правилами. Это важно, так как большинство моделей машинного обучения включает несколько правил и слишком большое их число приводит к разрушению модели. Оказалось, что правила взаимосвязаны по-разному. Некоторые из них работают совместно, некоторые полностью зависят от присутствия других правил. Изменяя относительный вес различных правил и отсеивая избыточные, ученые смогли оптимально балансировать модели с тем, чтобы ускорить их обучение и повысить точность результата. Китайские специалисты продемонстрировали потенциал метода на примере оптимизации ИИ для решения уравнений со многими переменными и для предсказания результатов хроматографических экспериментов.
Авторы исследования утверждают, что их метод найдет широкое применение в физике, химии и инженерном деле. Не зависящий от модели подход можно применять в междисциплинарных изысканиях к различным архитектурам сетей ИИ.
Теперь исследователи заявляют, что намерены обучить свои модели так, чтобы они могли извлекать правила непосредственно из данных и обнаруживали новые закономерности. Они хотят сделать ИИ настоящим ученым, который сможет обобщать данные и добывать из них знания в виде формальных законов. Можно только пожелать удачи на этом тернистом пути. Статья вышла в журнале Nexus.