Автор Тема: О популярных китайских чатботах  (Прочитано 51 раз)

0 Пользователей и 1 Гость просматривают эту тему.

Оффлайн Сергей Горбачевский

  • Administrator
  • Знаменитый писатель
  • *****
  • Сообщений: 84112
  • Пол: Мужской
  • Есть вопросы? Пишите в личку
    • Награды
О популярных китайских чатботах
« : 23, Ноября 2024, Суббота, 12:15:05 pm »
Известно, что у китайцев свой интернет, свои социальные сети, свой AI и своя, довольно жёсткая интернет-цензура.

В Китае популярны несколько чатботов, которые ориентированы как на личное, так и на профессиональное использование. Основные особенности и представители китайских чатботов:

1. Xiaoice (微软小冰) 
- Разработчик: Microsoft China. 
- Описание: 
  - Xiaoice — один из самых известных китайских чатботов, ориентированный на эмоциональное взаимодействие. 
  - Способен поддерживать длительные разговоры, пишет стихи, рисует картины. 
  - Его часто используют как виртуального друга для общения. 

2. WeChat AI Chatbots 
- Разработчик: Tencent. 
- Описание:
  - WeChat (微信) — популярное китайское приложение для сообщений, которое поддерживает интеграцию различных AI-чатботов. 
  - Чатботы в WeChat включают в себя как бизнес-ориентированные, так и личные решения для автоматизации задач, ответов на вопросы или управления аккаунтами. 

3. Baidu’s ERNIE Bot (文心一言) 
- Разработчик: Baidu. 
- Описание: 
  - Запущен в 2023 году как ответ на ChatGPT. 
  - Используется для генерации текста, анализа данных и других задач. 
  - Поддерживает несколько языков и интеграцию с другими продуктами Baidu. 

4. AliGenie (天猫精灵) 
- Разработчик: Alibaba. 
- Описание: 
  - Чатбот встроен в смарт-динамики и приложения Alibaba. 
  - Ориентирован на управление умным домом и помощь в онлайн-покупках. 

5. iFLYTEK AI (科大讯飞)
- Разработчик: iFLYTEK. 
- Описание:
  - Известен своей технологией распознавания речи и голосового общения. 
  - Часто используется в образовательных и медицинских приложениях. 

6. Sogou’s AI Chatbot
- Разработчик: Sogou (принадлежит Tencent). 
- Описание:
  - Специализируется на поиске информации и генерации текстов. 
  - Используется для создания контента и автоматизации клиентских запросов. 

Особенности китайских чатботов:
- Фокус на локализации: Они ориентированы на китайский язык и культурные особенности. 
- Интеграция с экосистемами: Чатботы часто встроены в существующие экосистемы, такие как WeChat, Baidu или Alibaba. 
- Контроль контента: Поддерживают строгие правила модерации, соответствуя требованиям китайских регуляторов. 

Будущее:
Китайские компании активно развивают чатботы с применением больших языковых моделей (LLM) для конкуренции с западными аналогами, такими как ChatGPT.

Считается, что основными запретными темами являются события на площади Тяньаньмэнь 1989 года и схожесть Си с Винни-Пухом, но, на самом деле, тем для цензуры гораздо больше.

Китайские чатботы подчиняются строгим государственным регуляциям и контролю за контентом. Некоторые темы считаются запрещёнными для обсуждения, и их нельзя спрашивать у чатботов. Вот основные из них:



1. Политические темы 
Запрещено обсуждать: 
- Государственную политику и лидеров (например, критику Компартии Китая или председателя Си Цзиньпина). 
- Протесты, митинги и диссидентские движения (например, события на площади Тяньаньмэнь 1989 года). 
- Вопросы независимости Тайваня, Гонконга, Тибета или Синьцзяна. 
- Иностранные санкции против Китая или геополитические конфликты. 



2. Национальная безопасность 
Запрещено обсуждать: 
- Вопросы, связанные с обороной, военной стратегией или кибербезопасностью. 
- Конфиденциальные данные или информацию, угрожающую государственной безопасности. 



3. Социальные протесты и активизм 
Запрещено упоминать: 
- Любые формы социального активизма или протестных движений внутри Китая. 
- Деятельность организаций, признанных "враждебными" (например, Falun Gong или Amnesty International). 



4. Цензурируемые исторические события 
Запрещено спрашивать о: 
- Событиях, которые официально интерпретируются властями, например, Культурной революции, голоде 1959–1961 годов или антикитайских протестах. 



5. Порнография и ненормативный контент 
Запрещено: 
- Задавать вопросы о порнографическом, насильственном или оскорбительном контенте. 
- Использовать ненормативную лексику. 



6. Религиозные и этнические конфликты 
Запрещено спрашивать: 
- О религиозной дискриминации, в том числе о положении мусульман в Синьцзяне. 
- О проблемах этнических меньшинств или конфликтах между этническими группами. 



7. Критика правительственных решений 
Запрещено обсуждать: 
- Недостатки государственных инициатив, например, проект «Один пояс, один путь». 
- Последствия карантинных мер и политики «нулевого COVID». 



Что произойдет, если задать запрещённый вопрос: 
1. Автоматический отказ: Чатбот просто не ответит на вопрос или предложит сменить тему. 
2. Сообщение о недопустимости: Чатбот предупредит, что данный вопрос нарушает правила. 
3. Логирование: В некоторых случаях вопросы пользователей могут быть записаны и отправлены на проверку модератором. 



Причина запретов: 
Контроль информации обусловлен политикой государства, направленной на поддержание стабильности, предотвращение дезинформации и защиту государственной идеологии.


Оффлайн Сергей Горбачевский

  • Administrator
  • Знаменитый писатель
  • *****
  • Сообщений: 84112
  • Пол: Мужской
  • Есть вопросы? Пишите в личку
    • Награды
Re: О популярных китайских чатботах
« Ответ #1 : 23, Ноября 2024, Суббота, 12:29:23 pm »
Чтобы запретить китайским AI-ботам индексировать сайт или форум, можно использовать несколько подходов:



1. Идентификация User-Agent китайских ботов 
Китайские поисковые системы и AI-боты используют свои User-Agent строки. Вот некоторые популярные User-Agent, связанные с китайскими сервисами:

- Baidu: 
  - `Baiduspider` 
  - `Baiduspider-image` 
  - `Baiduspider-video` 
  - `Baiduspider-mobile` 

- Sogou: 
  - `Sogou web spider` 
  - `Sogou Pic Spider` 
  - `Sogou News Spider` 

- 360 Search: 
  - `360Spider` 

- Yisou: (часть Alibaba): 
  - `YisouSpider` 

- Shenma: (ориентирован на мобильные устройства): 
  - `Yodaobot` 

- Bing Китай (Microsoft): 
  - Иногда `Bingbot`, но часто модифицированная версия.



2. Запрет в robots.txt 
Добавьте в файл `robots.txt` директивы, блокирующие известных китайских ботов:

User-agent: Baiduspider
Disallow: /

User-agent: Sogou web spider
Disallow: /

User-agent: 360Spider
Disallow: /

User-agent: YisouSpider
Disallow: /

User-agent: Yodaobot
Disallow: /

Этот файл должен находиться в корне вашего домена (например, `example.com/robots.txt`).



3. Блокировка на уровне сервера 
Для усиления контроля можно добавить правила в конфигурацию сервера, чтобы отклонять запросы от этих User-Agent.

Для Apache:
<IfModule mod_rewrite.c>
    RewriteEngine On
    RewriteCond %{HTTP_USER_AGENT} Baiduspider [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} Sogou [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} 360Spider [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} Yisou [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} Yodaobot [NC]
    RewriteRule .* - [F]
</IfModule>

Для Nginx:
if ($http_user_agent ~* (Baiduspider|Sogou|360Spider|Yisou|Yodaobot)) {
    return 403;
}



4. Динамическое отслеживание 
Иногда китайские AI-боты используют неподписанные User-Agent строки или подменяют их. Для их выявления: 
- Используйте логи сервера для анализа подозрительного трафика. 
- Проверьте IP-адреса и принадлежность к китайским провайдерам (через базы данных GeoIP).



5. Блокировка по IP 
Если известны диапазоны IP-адресов, используемых китайскими ботами, можно блокировать их. Например: 
- Baidu: `220.181.0.0/16`, `123.125.0.0/16` 
- Sogou: `123.126.0.0/16` 

Для Apache:
<Directory />
    Deny from 220.181.0.0/16
    Deny from 123.125.0.0/16
</Directory>

Для Nginx:
deny 220.181.0.0/16;
deny 123.125.0.0/16;



Полезные ресурсы: 
- [Baidu’s Robots Specification](Просмотр ссылок доступен только зарегистрированным пользователям
- Проверяйте последние обновления User-Agent через [WhatIsMyUserAgent](Просмотр ссылок доступен только зарегистрированным пользователям).




Оффлайн Сергей Горбачевский

  • Administrator
  • Знаменитый писатель
  • *****
  • Сообщений: 84112
  • Пол: Мужской
  • Есть вопросы? Пишите в личку
    • Награды
Re: О популярных китайских чатботах
« Ответ #2 : 23, Ноября 2024, Суббота, 13:30:09 pm »
DeepSeek — это китайский чатбот, но его популярность остается ограниченной по сравнению с лидерами рынка, такими как Ernie Bot от Baidu или ChatGPT через прокси-сервисы.



Почему DeepSeek менее популярен: 
1. Конкуренция с крупными компаниями 
   Крупные игроки (Baidu, Tencent, Alibaba) давно укрепили свои позиции, предлагая продвинутые решения с поддержкой китайского языка и интеграцией в существующую экосистему.

2. Ограниченные функции или применение 
   Если DeepSeek не предлагает уникальных или значительно превосходящих функций, пользователи склонны выбирать проверенные бренды.

3. Недостаток продвижения 
   Для китайского рынка крайне важен маркетинг, особенно в социальных сетях (WeChat, Weibo, Xiaohongshu). Если DeepSeek не активно продвигается, его сложно заметить.

4. Государственные требования 
   Китайские регуляции очень строгие. Если DeepSeek недостаточно адаптирован к местным законам о цензуре, это ограничивает его доступность.



В каких нишах он может быть востребован? 
DeepSeek, возможно, нацелен на: 
- Научные или специализированные запросы. 
  Если чатбот ориентирован на узкую аудиторию, например, исследователей или студентов, его популярность ограничивается этой группой. 
- Встроенные решения для бизнеса. 
  Он может предоставлять корпоративные или отраслевые инструменты, которые менее заметны для широкой аудитории.



Оффлайн Сергей Горбачевский

  • Administrator
  • Знаменитый писатель
  • *****
  • Сообщений: 84112
  • Пол: Мужской
  • Есть вопросы? Пишите в личку
    • Награды
Re: О популярных китайских чатботах
« Ответ #3 : 24, Ноября 2024, Воскресенье, 08:16:38 am »
Китайские чатботы, как правило, обучаются на крупных англоязычных и китайских корпусах данных. Это связано с несколькими факторами:

  • Объём доступных данных: Англоязычные и китайские тексты составляют огромную долю общедоступных интернет-данных, что делает их естественным выбором для обучения моделей.
  • Технологическое развитие в Китае: Китай активно развивает свои собственные ИИ-системы, что требует обработки огромного количества китайских данных. Однако для повышения конкурентоспособности на мировом рынке часто добавляют англоязычные данные, чтобы чатботы могли взаимодействовать и с международными пользователями.
  • Качество англоязычных данных: Большая часть научной литературы, технической документации и популярных материалов доступна на английском, что делает этот язык важным для создания высококачественных моделей.
  • Политика цензуры: В китайских чатботах используется локализованный подход с фильтрацией или ограничением доступа к данным, противоречащим внутренним нормам. Однако обучение на английских данных позволяет компенсировать нехватку локального контента по некоторым темам.
 

Поэтому на нашем форуме я их ботов не вижу.

Оффлайн Сергей Горбачевский

  • Administrator
  • Знаменитый писатель
  • *****
  • Сообщений: 84112
  • Пол: Мужской
  • Есть вопросы? Пишите в личку
    • Награды
Re: О популярных китайских чатботах
« Ответ #4 : 29, Ноября 2024, Пятница, 11:01:20 am »
Alibaba представила новую языковую модель QwQ-32B-Preview, которая позиционируется как конкурент o1 от OpenAI в области "рассуждающего" ИИ. Модель содержит 32,5 млрд параметров и, по тестам Alibaba, превосходит o1-preview в некоторых математических тестах.

Разработанная командой Qwen из Alibaba, модель QwQ-32B-Preview содержит 32,5 миллиарда параметров и может рассматривать подсказки длиной около 32 000 слов; на некоторых тестах она работает лучше, чем o1-preview и o1-mini — две модели рассуждений, которые OpenAI выпустила на данный момент. (Параметры примерно соответствуют навыкам решения проблем модели, а модели с большим количеством параметров, как правило, работают лучше, чем модели с меньшим количеством параметров. OpenAI не раскрывает количество параметров для своих моделей.)

Согласно тестированию Alibaba, QwQ-32B-Preview превосходит модель OpenAI o1-preview на тестах AIME и MATH. AIME использует другие модели ИИ для оценки производительности модели, тогда как MATH представляет собой набор текстовых задач.

QwQ-32B-Preview может решать логические головоломки и отвечать на достаточно сложные математические вопросы благодаря своим возможностям «рассуждения». Но он не идеален. Alibaba отмечает в сообщении в блоге , что модель может неожиданно переключать языки, застревать в циклах и плохо справляться с задачами, требующими «здравого смысла».

В отличие от большинства ИИ, QwQ-32B-Preview и другие модели рассуждений эффективно проверяют факты. Это помогает им избегать некоторых  ловушек  , которые обычно мешают "не рассуждающим" моделям. Недостатком таких моделей является то, что им часто требуется больше времени, чтобы прийти к решениям. Подобно o1, QwQ-32B-Preview рассуждает о задачах, планируя заранее и выполняя ряд действий, которые помогают модели выдавать ответы.

QwQ-32B-Preview, которую можно запустить и загрузить с платформы разработки ИИ Hugging Face,  похожа на недавно выпущенную "рассуждающую" модель DeepSeek.

Как и другие китайские AI-модели, QwQ-32B-Preview очень осторожна в политических вопросах и строго следует официальной позиции Китая по таким темам, как Тайвань, избегая при этом обсуждения некоторых исторических событий вроде событий на площади Тяньаньмэнь.


Теги: