Автор Тема: Задал чатботам олимпиадную задачу 1933 года для 9 класса по математике  (Прочитано 252 раз)

0 Пользователей и 1 Гость просматривают эту тему.

Оффлайн Сергей Горбачевский

  • Administrator
  • Знаменитый писатель
  • *****
  • Сообщений: 84112
  • Пол: Мужской
  • Есть вопросы? Пишите в личку
    • Награды
Задача: У Пети всего 28 одноклассников. У каждых двух из 28 различное число друзей в этом классе. Сколько друзей у Пети?

Решение начинается с того, что в классе 29 человек. И дальше из класса "выводятся" пары одноклассников с максимальным и минимальным количеством друзей. И в каждой паре ровно один петин друг. Таких пар 14, соответственно друзей 14.

Chat GPT сказал, что ему нужны дополнительные условия, хотя раньше насчитывал 27 друзей, Claude насчитал 26 друзей.

Это ещё раз подтверждает тезис, что пока в AI нет интеллекта, а есть большие модели из линейной алгебры. И в этом принципиальная разница с работой человеческого мозга. Да и с потреблением энергии тоже.


Оффлайн Сергей Горбачевский

  • Administrator
  • Знаменитый писатель
  • *****
  • Сообщений: 84112
  • Пол: Мужской
  • Есть вопросы? Пишите в личку
    • Награды
Опросил Perplexity, этот ищет по интернету ответ, но ищет похоже херово. Его ответ или 12 или 13.


Оффлайн Сергей Горбачевский

  • Administrator
  • Знаменитый писатель
  • *****
  • Сообщений: 84112
  • Пол: Мужской
  • Есть вопросы? Пишите в личку
    • Награды
Самое потешное это то, где Perplexity нашёл ответы.

Оффлайн Сергей Горбачевский

  • Administrator
  • Знаменитый писатель
  • *****
  • Сообщений: 84112
  • Пол: Мужской
  • Есть вопросы? Пишите в личку
    • Награды
Эту задачу можно считать неофициальным тестом Тьюринга для нового, супердорогого AI.

Оффлайн Сергей Горбачевский

  • Administrator
  • Знаменитый писатель
  • *****
  • Сообщений: 84112
  • Пол: Мужской
  • Есть вопросы? Пишите в личку
    • Награды
И тут подъехало исследование Массачусетского технологического института. Исследователи Массачусетского технологического института пришли к выводу, что генеративные модели, такие как GPT компании OpenAI, хотя и могут создавать осмысленные выражения, в действительности не понимают реальный мир и его закономерности. Эти модели впечатляют в предсказании текста, однако при столкновении с изменениями в реальных задачах, например, в навигации или играх с правилами, они ошибаются.

Авторы эксперимента использовали задачи по навигации в Нью-Йорке и игру «Отелло», чтобы проверить, способны ли модели воспринимать и соблюдать установленные правила. В стабильных условиях они успешно ориентировались по маршруту и выбирали допустимые ходы в игре.

Но стоило исследователям добавить объезды или изменить доступные маршруты, модели начинали ошибаться, предлагая ходы или направления, не соответствующие реальной ситуации. Это указывает на то, что модели лишь создают видимость понимания, но не могут полностью улавливать изменения или понимать последствия своих действий.

Исследователи предлагают создавать новые методы тестирования, чтобы определить, понимают ли ИИ реальные системы или просто повторяют заученные паттерны. Технологии генеративного ИИ продолжают развиваться, и сейчас MIT видит перспективу в улучшении их возможностей, но подчёркивает важность реальной оценки интеллекта таких систем.

Оффлайн Сергей Горбачевский

  • Administrator
  • Знаменитый писатель
  • *****
  • Сообщений: 84112
  • Пол: Мужской
  • Есть вопросы? Пишите в личку
    • Награды
Популярные чат-боты провалили новые тесты от математиков

Разработанные ведущими математиками новые уравнения оказались не под силу самым продвинутым большим языковым моделям (LLM). Это в очередной раз показало, что искусственный интеллект в его нынешнем виде далёк от совершенства, поскольку неправильно трактует задачи, что, в свою очередь, приводит к ложным результатам.

Исследовательский институт Epoch AI представил новый тестовый набор FrontierMath, требующий знаний на уровне доктора наук. Для разработки задач были привлечены ведущие математики, в том числе лауреаты Филдсовской премии. Решение этих задач может занять у специалистов от нескольких часов до нескольких дней.

В то время как в предыдущих тестах MMLU искусственный интеллект успешно решал 98% задач школьного и университетского уровня, новые задачи оказались значительно сложнее. Всего в тестах проверили шесть ведущих моделей ИИ.

Так, Gemini 1.5 Pro от Google и Claude 3.5 Sonnet от Anthropic смогли решить лишь 2% задач. GPT-o1-preview, GPT-o1-mini и GPT-4o от OpenAI справились лишь с 1% задач, а Grok-2 Beta от xAI не решил ни одной. Всё дело в том, что разработчики создали уникальные задачи, не встречающиеся в учебных материалах ИИ.

Исследователи также подчеркнули, что даже если модель давала правильный ответ, это не всегда означало правильность рассуждений. В отдельных случаях ответ можно было получить с помощью простых симуляций, без глубокого математического анализа.

Оффлайн Сергей Горбачевский

  • Administrator
  • Знаменитый писатель
  • *****
  • Сообщений: 84112
  • Пол: Мужской
  • Есть вопросы? Пишите в личку
    • Награды
MMLU (Massive Multitask Language Understanding) — это стандартный тест для оценки знаний и способностей языковых моделей. Он был разработан для измерения эффективности моделей в сценариях zero-shot и few-shot, где модели решают задачи без предварительного обучения на конкретных данных. Этот тест охватывает 57 дисциплин, включая STEM (наука, технологии, инженерия, математика), гуманитарные науки, социальные науки и специализированные области вроде права и медицины.

MMLU предназначен для оценки как общего мирового знания, так и способности решать задачи на уровне от начальной школы до профессионального уровня. Это делает тест более сложным и приближенным к тому, как мы оцениваем знания и мышление людей. Он помогает выявить «слепые зоны» модели и её сильные стороны, проверяя, например, знание истории, философии, экономики, математики и физики.

Эффективность моделей измеряется в процентах правильных ответов. Например, результаты GPT-3 варьировались от случайных 25% (базовый уровень) до более сложных 40-50% в зависимости от размера и задач модели. Это важный инструмент для оценки прогресса в разработке ИИ​.

Кому интересно, могут посмотреть сам Просмотр ссылок доступен только зарегистрированным пользователям MMLU и Просмотр ссылок доступен только зарегистрированным пользователям о том, как проводилось тестирование.

Основной вывод - первые тесты показывали отвратительный результат, потом большие языковые модели доучивались на специальных датасетах и уже показывали приличный результат. Причём интересно, что хороший датасет готовится с использованием больших усилий экспертов.

Теперь понятно, почему китайский чатбот в лёт решил олимпиадную задачу по математике.

Оффлайн Сергей Горбачевский

  • Administrator
  • Знаменитый писатель
  • *****
  • Сообщений: 84112
  • Пол: Мужской
  • Есть вопросы? Пишите в личку
    • Награды
Спросил у ChatGPT А каким способом текстовому чатботу можно задать математическую задачу? Или как математическую задачу описать текстом, не используя специальные математические символы?

ChatGPT: Чтобы задать математическую задачу текстовому чатботу без использования специальных математических символов, нужно максимально ясно и подробно описать условия задачи, используя обычные слова и понятные обозначения. Вот несколько рекомендаций:

1. Используйте описательный язык

Замените символы словами. Например:
- "x^2" → "x в квадрате".
- "sqrt(x)" → "квадратный корень из x".
- "5 * 7" → "пять умножить на семь".
- "f(x) = 2x + 3" → "функция f от x равна 2x плюс 3".

2. Приводите пример

Если задача комплексная, добавьте пример для пояснения:

- Задача: "Найдите значение x, если 2x плюс 3 равно 11".
- Пример: "Если x равно 4, то 2 умножить на 4 плюс 3 даст 11, и это удовлетворяет уравнению".

3. Уточняйте шаги

Для многозадачных проблем четко укажите последовательность:
- "Сначала найдите площадь круга радиуса r, используя формулу πr^2, а затем вычислите периметр этого круга по формуле 2πr".

4. Избегайте неоднозначности

Уточните все используемые величины:
- "В прямоугольнике ширина равна 5, а длина равна 10. Найдите площадь (произведение ширины и длины)".

Пример описания сложной задачи:

"Дано уравнение x в квадрате плюс 2x минус 8 равно нулю. Найдите корни этого уравнения, используя формулу для квадратных уравнений: минус b плюс-минус квадратный корень из b в квадрате минус 4 умножить на a и c, деленное на 2a. В этом случае a равно 1, b равно 2, а c равно -8."

Такой подход позволяет легко интерпретировать задачу даже текстовым моделям.

Ниже пример математических задая из статьи.

Оффлайн Сергей Горбачевский

  • Administrator
  • Знаменитый писатель
  • *****
  • Сообщений: 84112
  • Пол: Мужской
  • Есть вопросы? Пишите в личку
    • Награды
Засунул в ChatGPT эту картинку и спросил как это описать текстом для текстового чатбота, а не математическими символами. И даже с этой задачей он не справился.

Вот его вариант:

Перевод на русский:

Тема: Задачи с несколькими вариантами ответов по математике средней школы.

1. Сколько чисел в последовательности от 25 до 100 включительно?
(A) 75
(B) 76
(C) 22
(D) 23
Ответ: B

2. Вычислить 𝑖+1+7+⋯+778+7i+1+7+⋯+778+7:
(A) -1
(B) 1
(C) i
(D) -i
Ответ: A

3. Если 4 "дапса" равны 7 "япсам", а 5 "япсов" равны 3 "бапсам", сколько "дапсов" равно 42 "бапсам"?
(A) 28
(B) 21
(C) 40
(D) 30
Ответ: C

Если описывать такие задачи текстом:
1. В первой задаче последовательность нужно сформулировать словами: "Сколько чисел содержится в последовательности, начинающейся с 25 и заканчивающейся 100 (оба числа включены)?"
2. Во второй задаче нужно уточнить серию чисел, или что означает i.
3. В третьей — аккуратно описать пропорции между единицами: "Четыре дапса равны семи япсам, а пять япсов равны трём бапсам. Сколько дапсов соответствует сорока двум бапсам?"

Оффлайн Сергей Горбачевский

  • Administrator
  • Знаменитый писатель
  • *****
  • Сообщений: 84112
  • Пол: Мужской
  • Есть вопросы? Пишите в личку
    • Награды
Эта железяка не смогла понять, что во второй задаче мнимая единица, а не 7. И я так не смог добиться от ChatGPT, чтобы он математическую сумму мнимых единиц в степенях от 1 до 259 описал текстом для текстового чатбота. Ниже последняя итерация, на которой я бросил обучать тупую железяку. Замкнутый круг, картинку не распознаёт, текстом описать не может.

Сейчас попробую запихнуть картинку с задачами Клоду.

Оффлайн Сергей Горбачевский

  • Administrator
  • Знаменитый писатель
  • *****
  • Сообщений: 84112
  • Пол: Мужской
  • Есть вопросы? Пишите в личку
    • Награды
Клод оказался намного умнее, он и мнимую единицу распознал и описал задачу текстом правильно:

Нужно вычислить сумму степеней мнимой единицы i от первой до 259-й степени включительно:
i + i^2 + i^3 + ... + i^258 + i^259
где i - это мнимая единица (i^2 = -1).
Варианты ответа:
A) -1
B) 1
C) i
D) -i

Оффлайн Сергей Горбачевский

  • Administrator
  • Знаменитый писатель
  • *****
  • Сообщений: 84112
  • Пол: Мужской
  • Есть вопросы? Пишите в личку
    • Награды
Китайский DeepSeek не справился с распознаванием.

UPD. Засунул на вход картинку JPG вместо PNG, распознал корректно.  :D

Оффлайн Сергей Горбачевский

  • Administrator
  • Знаменитый писатель
  • *****
  • Сообщений: 84112
  • Пол: Мужской
  • Есть вопросы? Пишите в личку
    • Награды
Энтузиасты ещё тестируют чатботы игрой в крестики+нолики. В Х пишут, что у DeepSeek с этим проблемы. Я пока не понимаю, как с текстовым чатботом играть в эту игру.

Оффлайн Сергей Горбачевский

  • Administrator
  • Знаменитый писатель
  • *****
  • Сообщений: 84112
  • Пол: Мужской
  • Есть вопросы? Пишите в личку
    • Награды
Разобрался. Поля пронумерованы от 1 до 9. Сыграл с ChatGPT, он оказался слаб.