Группа американских исследователей протестировала большие языковые модели Google Gemini 1.5 Pro и 1.5 Flash, проверив достоверность ответов ИИ на вопросы по усвоенной ранее информации. Для этого нейросетям «скормили» 520 страниц текста и попросили изложить его содержание «своими словами». Результаты оказались неутешительными.
В ходе эксперимента учёные протестировали «внимательность» нейросетей с помощью серии утверждений. От ИИ требовалось ответить на вопросы по только что усвоенному тексту, используя термины «правда» или «ложь». Доля правильных ответов Gemini 1.5 Pro составила лишь 46,7%, а Gemini 1.5 Flash справилась с заданием лишь в 20% случаев. По заключению учёных, в среднем точность обеих нейросетей не превысила уровня случайных показателей.
Кроме того, исследователи из Калифорнийского университета оценили способность Gemini 1.5 Flash усваивать визуальную информацию. Для этого нейросети предоставили 25 изображений и задали вопросы по каждому из них — и доля правильных ответов не превысила 50%. После увеличения числа изображений точность и вовсе упала до 30%.
Хотя в научном сообществе и остались вопросы к методике тестирования, само исследование подвергло заявленные возможности генеративного ИИ серьёзной критике.