
Исследователи Массачусетского технологического института (MIT) выявили критический недостаток в популярных моделях, связывающих обработку изображений с текстом (VLM — Vision-Language Models).
Эти системы, используемые в медицине для анализа снимков, некорректно интерпретируют слова отрицания, такие как «нет» или «не». Например, при поиске рентгеновских изображений с отёком тканей, но без увеличения сердца, модель может предложить случаи, где оба признака присутствуют.
Это чревато ошибками в диагностике: сочетание отёка и увеличенного сердца указывает на сердечное заболевание, а их разделение — на другие причины.
Кумайл Альхамуд, аспирант MIT и ведущий автор работы, отметил: «Игнорирование отрицаний может привести к катастрофическим последствиям, если модели внедряются без проверки».
Иллюстрация: Leonardo Для решения проблемы учёные создали специальный набор данных с 10 миллионами пар «изображение-подпись», включающих отрицания.
После переобучения на этих данных точность моделей возросла, особенно в задачах поиска изображений без определённых объектов.
Однако профессор Марзиех Гассеми предупредила: «Ошибки в столь базовых элементах, как отрицание, сигнализируют — внедрять VLM в критически важные сферы сейчас рискованно».
Причина уязвимости — в обучающих данных: классические VLM обучаются на наборах с утвердительными описаниями, почти не содержащими отрицаний.
Параллельно другое исследование предложило прорывную модель для нейронных сетей — сеть Хопфилда с пластичностью, управляемой входными данными (IDP).
Классическая модель Хопфилда, описывающая память как переход к ближайшему «устойчивому состоянию», не учитывала динамическое влияние внешних сигналов. Новая модель IDP позволяет входным данным напрямую менять синаптические связи, перестраивая энергетический ландшафт сети.
Это делает её устойчивой к шуму: помехи не мешают, а помогают системе выходить из локальных минимумов, находя более релевантные воспоминания.
Например, при сбоях во входных сигналах IDP-модель сохраняет стабильность, интегрируя прошлую информацию с текущей.
Учёные также обнаружили, что извлечение памяти в IDP зависит от «коэффициентов заметности» — меры соответствия входных данных сохранённым шаблонам. Если эти коэффициенты ниже порога, то сеть переходит в «состояние замешательства», не выдавая результатов.
Однако при достаточной заметности модель эффективно классифицирует даже смешанные сигналы.
Это открытие важно для разработки систем непрерывного обучения, где ИИ адаптируется к новым данным без потери предыдущих навыков. Оба исследования указывают на необходимость переосмысления подходов в ИИ.
Уязвимости VLM требуют более внимательного применения в медицине и промышленности, а модель IDP открывает путь к созданию адаптивных систем, имитирующих биологические механизмы памяти.
«Связь IDP с архитектурой трансформеров и механизмами внимания — ключ к будущим прорывам в машинном обучении», — заключили авторы.
Рубрика: Hi-Tech. Читать весь текст на www.ixbt.com.