Лента новостей

19:12
НАТО готовится к военному конфликту с РФ
19:11
Le Monde: большинство населения оккупированного Украиной Донбасса за Россию
19:10
На Украине готовятся к блекауту. Мобильных операторов обязали обеспечить 10 часов работы сети без света
19:04
Угрозы Вэнса не пугают Китай
19:01
Еврокомиссия утвердила выплату Украине в размере 4,2 млрд евро
18:59
Выступление Лаврова на Совбезе ООН по Палестине пытались сорвать
18:40
Сеул: Северная Корея установила «десятки тысяч» новых мин
18:32
«Они отобрали весь наш чиповый бизнес». Трамп не намерен воевать с Китаем за Тайвань
18:31
Судная ночь. Машины ВСУ и ТЦК горели по всей Украине
18:27
Необычное изобретение русских. Боевые дроны из электроскейтов
18:26
На Украине уменьшилось число школьников, использующих государственный язык — исследование
18:25
Гимнастика как элемент борьбы с путинизмом
18:21
Те, кто, не задумываясь пустят в расход всех
18:18
Мэр Парижа искупалась в Сене из-за сомнений в чистоте воды
18:17
Reuters: акции микросхем рухнули после речи Трампа о Тайване
17:57
Комиссар выделил Украине помощь из фонда ООН
17:49
В Харькове увеличилось время отключений света
17:48
На Украине завели 19 тысяч уголовных дел о дезертирстве
17:40
В люксовом отеле Бангкока нашли шесть человек, отравленных цианидом
17:24
Тотальная украинизация терпит поражение
17:12
Минобороны России с помощью ОАЭ удалось освободить из застенок киевского режима 95 российских бойцов
17:11
Белоруссия ввела безвизовый режим с 35 странами Евросоюза
17:10
Украину готовят «к сливу»? Представителем НАТО на Украине назначен Патрик Тернер
16:36
Члены Европарламента поддержали продолжение конфликта на Украине и осудили мирные инициативы Орбана
16:28
Newsweek: Германия решила перебросить силы к границе с Россией
16:27
Украинцы выяснили причину поджогов машин в Одессе
16:26
«Азов» анонсировал тур по городам Европы
16:14
Крейсер Варяг и фрегат Маршал Шапошников перешли из Средиземного в Красное море
15:49
Путин заявил о риске нехватки электроэнергии в регионах РФ из-за майнинга
15:21
Дубинский сравнил вступление Украины в НАТО с колонизацией планеты Марс
15:19
Гражданские расплачиваются жизнями за призывы западных элит к войне, в которой невозможно победить
15:12
Жителей Молдавии призвали экономить воду из-за жары
15:11
Стало известно число пропавших без вести украинцев
14:48
Кто в ООН требует уничтожить все человечество
14:41
Агенты ФБР не смогли выяснить мотив стрелявшего в Трампа
14:40
Трамп намерен отменять ряд санкций против России
14:39
В Эстонии всего 20% преподавателей сдали экзамен по эстонскому языку
14:05
День рождения 3DNews — нам 27 лет!
14:01
Германия в два раза сокращает финансирование конфликта на Украине
14:00
«На ЕМЗ печь доменную запустили, а ДМЗ забыли». Работники Донецкого металлургического завода говорят о тяжелой ситуации на предприятии
13:52
Жители Одессы сожгли пять машин украинских военных
13:51
Венгрия решила возобновить поставки нефти из России
13:21
Почему Россия победит НАТО на Украине
12:39
Reuters: Германия в 2025 году вдвое сократит военную помощь Украине
12:38
Китай приостановил консультации с США по контролю над вооружениями
Все новости

Архив публикаций



Мировое обозрение»Технологии»Очная ставка: сравнительное тестирование диалоговых ИИ-моделей YandexGPT и GigaChat

Очная ставка: сравнительное тестирование диалоговых ИИ-моделей YandexGPT и GigaChat


Наш интерес к отечественным генеративным ИИ-моделям YandexGPT и GigaChat обусловлен несколькими факторами. Во-первых, на данный момент это два крупнейших проекта в сфере искусственного интеллекта на российском рынке, которые стартовали примерно в одно и то же время, активно развиваются и совершенствуются разработчиками. Во-вторых, по сравнению с зарубежными решениями они не испытывают трудностей с русским языком и по ряду характеристик не уступают иностранным аналогам. И наконец, YandexGPT и GigaChat доступны широкой аудитории в различных вариантах без ограничений — этим мы и воспользовались для сравнительного тестирования продуктов.

По данным поиска «Яндекса», с начала 2022 года интерес аудитории Рунета к нейросетям вырос более чем в пятнадцать раз (источник изображения: сервис «Нейростат», ya.ru/ai/stat)

#Технические аспекты

Для начала — немного справочной информации о том, что представляет собой каждая из рассматриваемых в обзоре ИИ-моделей.

YandexGPT. Нейросеть семейства Generative Pretrained Transformer (GPT) от компании «Яндекс». Впервые была выпущена в мае 2023 года в составе виртуального ассистента «Алиса» и впоследствии нашла применение во многих сервисах «Яндекса». Обучение YandexGPT производилось в два этапа. Сначала были использованы общедоступные тексты — материалы книг, сайтов, статей, отобранные с помощью поисковых технологий «Яндекса». Затем нейросеть была дообучена на сотнях тысяч примеров содержательных и хорошо написанных ответов, для сбора и подготовки которых компания «Яндекс» задействовала технологии краудсорсинга и команду ИИ-тренеров.

В настоящий момент представлено третье поколение YandexGPT. По заверениям разработчиков, новая генеративная нейросеть лучше обрабатывает инструкции с несколькими условиями, корректнее работает с фактами, даёт более точные и полные ответы, допускает меньше стилистических ошибок и по качеству работы в некоторых случаях превосходит зарубежные модели Llama-2 70B и ChatGPT-3.5 Turbo. Помимо «Алисы», YandexGPT интегрирована в поиск и мобильные приложения «Яндекса», в «Яндекс Браузер», «Яндекс Станцию» и прочие продукты компании. Для обучения нейросети используются суперкомпьютеры «Яндекса».

GigaChat. Разработка «Сбера», анонс которой состоялся в апреле 2023 года. Архитектура GigaChat основана на нейросетевом ансамбле NeONKA (NEural Omnimodal Network with Knowledge-Awareness), включающем различные ИИ-модели, в числе которых — RuGPT-3 для работы с текстами и Kandinsky 3.1 для генерации изображений. Взаимодействовать с GigaChat можно посредством браузера, а также ботов в мессенджере Telegram и социальной сети «ВКонтакте». Кроме того, сервис доступен в умных устройствах «Сбера» и мобильном приложении «Салют» на Android.

В развитии GigaChat и доработках положенных в его основу моделей задействованы команды SberDevices и Sber AI при поддержке Института искусственного интеллекта AIRI и ряда отраслевых экспертов, привлечённых для передачи GigaChat различных предметных знаний, настройки сервиса на корректное исполнение инструкций и точность. Обучение ИИ-моделей осуществляется на суперкомпьютере Christofari Neo.

#Сравнительные тесты

Для оценочных испытаний моделей YandexGPT и GigaChat нами были использованы построенные на их основе веб-сервисы a.ya.ru («Алиса») и developers.sber.ru/portal/products/gigachat. В каждом из перечисленных ниже сценариев применялся одинаковый запрос для разных сервисов, результат обработки которого оценивался по пятибалльной шкале с учётом критериев достоверности, полноты, точности и актуальности генерируемых искусственным интеллектом данных и соблюдения этических норм.

Работа в режиме «вопрос-ответ». Сильной стороной современных генеративных нейронных сетей является внушительная база знаний, позволяющая им ориентироваться в любых сферах человеческой деятельности и за считаные секунды находить ответ практически на любой вопрос. YandexGPT с GigaChat не стали исключением из правил и на наши контрольные вопросы «Какова протяжённость Байкало-Амурской магистрали?», «Где производили самолёт Ту-144?» ответили без ошибок. При этом сервис «Сбера» выдал развёрнутые ответы, а «Алиса» ограничилась скупыми фразами.

 Здесь и далее для просмотра полноразмерных изображений кликните мышью

Здесь и далее для просмотра полноразмерных изображений кликните мышью

С эрудицией у отечественных ИИ-разработок тоже порядок: обе сумели вжиться в роль знатоков интеллектуальной телевизионной игры «Что? Где? Когда?» и дали правильный ответ на взятый нами наугад вопрос, который был задан телезрителем в одном из эфиров передачи. Вопрос звучал так: «В одном чёрном ящике находится нечто прекрасное и живое, другом — нечто прекрасное, но мёртвое. Мёртвое, которое заменяло это живое в домах голландцев XVII века. Что в чёрных ящиках?» О том, что речь идёт о живых цветах и натюрморте, догадались оба сервиса, при этом GigaChat выдал более подробный ответ.

А вот с каверзными вопросами вроде «Почему Пушкин не любил смотреть телевизор?» и «Какой модели был смартфон у Льва Толстого?» не всё вышло так гладко. GigaChat сориентировался во временных рамках, обнаружил нестыковки, включил логику и ответил верно. «Алиса» же правильно ответила только на второй вопрос и не заметила подвоха в первом.

Итоговые оценки: YandexGPT — 4 балла, GigaChat — 5 баллов.

Генерация развёрнутых ответов. Данный сценарий, как правило, актуален в обстоятельствах, связанных с решением бытовых проблем и повседневных задач, которые требуют подробных инструкций и пояснений по принципу «здесь и сейчас». Это могут быть случаи, связанные с устранением сбоев Windows, удалением вирусов с компьютера, самостоятельным ремонтом внезапно переставшей работать техники, приготовлением блюд из имеющихся на руках продуктов и прочими жизненными ситуациями. Мы смоделировали одну из них и попросили искусственный интеллект помочь с устранением критической ошибки Windows Kernel Power. Оба сервиса справились с заданием, однако «Алиса», как обычно, оказалась скупа на слова, а GigaChat, напротив, выдал наиболее подробную инструкцию с перечислением возможных причин возникновения ошибки и предупреждением о важности создания резервных копий данных.

Итоговые оценки: YandexGPT — 4 балла, GigaChat — 5 баллов.

Генерация текстов. Ещё один часто используемый сценарий при работе с интеллектуальными чат-ботами, электронный разум которых способен выдавать на-гора тексты всевозможной тематической направленности, будь то сочинения, стихотворения, сказки, поздравления, статьи, деловые письма, курсовые работы, сценарии для мероприятий, резюме для приёма на работу и многое другое, что может взбрести в голову.

Вот так «Алиса» и GigaChat отреагировали на предложение придумать текст про отечественный автомобиль Lada Vesta для рекламного проспекта:

А так откликнулись на просьбу сочинить оригинальное поздравление с днём рождения:

В целом неплохо, но отчётливо видно, что полёт фантазии у ИИ-сервисов находится примерно на одном уровне, и в данной тестовой дисциплине у них явный паритет.

Итоговые оценки: YandexGPT — 5 баллов, GigaChat — 5 баллов.

Краткий пересказ содержимого веб-страниц. Анализировать и конспектировать размещённые в глобальной сети объёмные текстовые материалы умеет только сервис «Яндекса» — чат-бот «Сбера» честно признался, что лишён подключения к интернету и умеет работать только с загружаемыми вручную текстовыми данными, а также с документами форматов TXT (объёмом до 200 кбайт) и PDF (до 4 Мбайт). По части взаимодействия с сетевыми ресурсами в режиме онлайн GigaChat вчистую проигрывает конкуренту.

Итоговые оценки: YandexGPT — 5 баллов, GigaChat — 1 балл.

Перевод текстов. С переводом англоязычных документов на русский язык ни у «Алисы», ни у GigaChat проблем не возникло. Однако использование других направлений перевода показало полную несостоятельность сервиса «Яндекса»: выяснилось, что его знаний хватает только для перевода отдельных слов и небольших фраз. Это довольно странно, так как в активе компании имеется построенная на базе YandexGPT система автоматического перевода, знающая сотню языков и способная дать фору конкурирующим решениям. Возможно, в будущем в «Алису» интегрируют полноценный переводчик. Пока же преимущество на стороне GigaChat, способного переводить тексты в любых направлениях.

Итоговые оценки: YandexGPT — 2 балла, GigaChat — 5 баллов.

Решение математических уравнений. Если с переводом текстов на иностранные языки перевес сил был на стороне чат-бота GigaChat, то с решением алгебраических и прочих уравнений дело обстоит ровно наоборот. В нашем случае нейросеть «Алисы» в два счёта разобрала на составляющие уравнение x3–3x–2=0 и привела развёрнутое решение с точным ответом. Сервис «Сбера» тоже попытался блеснуть интеллектом, сгенерировал огромную «простыню» с математическими выкладками и умозаключениями, но правильного ответа на задачу уровня 10 класса так и не нашёл. Бывает.

Итоговые оценки: YandexGPT — 5 баллов, GigaChat — 1 балл.

Создание изображений по текстовому описанию. Функция, ставшая своеобразным стандартом де-факто в индустрии генеративного искусственного интеллекта. В GigaChat благодаря интеграции чат-бота с нейросетью Kandinsky она действительно работает и генерирует пусть далёкие от совершенства, но всё же соответствующие запросу пользователя картинки. YandexGPT такого делать не умеет, и в этом нет ничего удивительного: данная ИИ-модель «заточена» на работу с текстами, а для рисования в арсенале «Яндекса» предусмотрена отдельная нейросеть Yandex AI Rendering Technology (YandexART), которая интегрирована в «Шедеврум» и прочие сервисы компании, за исключением — увы! — «Алисы». Возможно, в будущем разработчики «Яндекса» привьют своему виртуальному ассистенту навыки рисования, пока же в данной дисциплине лидирует чат-бот «Сбера».

Итоговые оценки: YandexGPT — 1 балл, GigaChat — 4 балла.

Работа с актуальными сведениями. Номер один в этой категории — безоговорочно, ИИ-сервис «Алиса». Будучи подключённым к ресурсам глобальной сети, он умеет работать с новостными источниками (выбираются отдельно в настройках чат-бота), информировать о курсе валют и стоимости ценных бумаг, получать сведения о прогнозе погоды, стоимости тех или иных товаров в онлайн-маркете «Яндекса» и многое другое. GigaChat лишён доступа к интернету и оперировать актуальными данными не может.

Итоговые оценки: YandexGPT — 5 баллов, GigaChat — 1 балл.

Беседа с пользователем. Оба сервиса — и YandexGPT, и GigaChat — могут выступать в качестве виртуальных собеседников для душевных разговоров за чашкой чая. Достаточно отправить любому из чат-ботов фразу «Давай поболтаем» — и он автоматически подключится к беседе на отвлечённые темы. Поддерживаются диалоги с учётом контекста предыдущих сообщений и возможность задавать уточняющие вопросы по ходу разговора — это позволяет общаться с искусственным интеллектом, как с человеком, который следит за нитью разговора. В нашем случае GigaChat был более открыт, разговорчив и общителен, а «Алиса», как обычно, отвечала короткими и сухими фразами и не располагала к общению.

Итоговые оценки: YandexGPT — 4 балла, GigaChat — 5 баллов.

#Подводим итоги

Средний результат у нас получился следующим: YandexGPT в тестовых дисциплинах набрал 3,8 балла, GigaChat — 3,6 балла. Налицо паритет двух ИИ-сервисов — в чём-то схожих по концепции и реализованным функциональным возможностям, в чём-то кардинальным образом разнящихся друг с другом.

Сильными сторонами разработки «Яндекса» является умение черпать свежую информацию из сетевых источников, генерировать чёткие и выверенные ответы на запросы пользователя. В то же время «Алиса» зачастую немногословна, откровенно слаба в знании иностранных языков и уж никак не может претендовать на лавры маститого художника (точнее — художницы). Сервис «Сбера», в свою очередь, привлекателен своим творческим началом и привычкой докапываться до сути вещей — он общителен, даёт исчерпывающие ответы на вопросы и неплохо рисует. Однако склонен к так называемым галлюцинациям с убедительными, но полностью выдуманными ответами, что отчётливо проявляется при решении GigaChat математических задач.

Как бы то ни было, оба продукта находятся в начале пути своего развития. И нет никаких сомнений в том, что в ближайшем будущем YandexGPT и GigaChat ждут новые высоты, возможности и широкие перспективы, ключевую роль в реализации которых сыграет конкуренция, являющаяся двигателем прогресса в любой сфере, в том числе в области искусственного интеллекта.



Опубликовано: Мировое обозрение     Источник

Подпишись:





Напишите ваш комментарий к статье:

Информация
Посетители, находящиеся в группе Гости, не могут оставлять комментарии к данной публикации.

Новости партнеров

Наверх