Новости | Secuteck.Ru

Команда MERA Альянса в сфере ИИ провела митап по оценке и сравнению ИИ-моделей

Written by Анна Миронова | 22/04/25

В штаб-квартире Т-Банка – T-Space – состоялся митап бенчмарка MERA от Альянса в сфере ИИ. На мероприятии ведущие специалисты в области искусственного интеллекта обсудили перспективы оценки больших языковых моделей и узкоспециализированных бенчмарков.

Ключевыми спикерами выступили авторы бенчмарка MERA — стандарта для автоматического тестирования русскоязычных LLM, а также создатели российской LLM Arena — ведущей платформы для сравнения языковых моделей в реальном времени.

В ходе дискуссии участники обменялись идеями по развитию следующих направлений:

  • принципы построения бенчмарков для текстовых и мультимодальных моделей;
  • критерии оценки качества генерации кода LLM;
  • бенчмаркинг ИИ-агентов;
  • методы сравнения специализированных ML-моделей.

Виктор Тарнавский, директор AI-центра Т-Банка:

"Сильные бенчмарки это win-win для всех компаний в индустрии. Бенчмарки — это способ понять, кто действительно сильный игрок на рынке, а также способ для новых компаний заявить о себе. Что ещё важнее, хорошие бенчмарки развивают сами модели: люди из индустрии знают, что сначала создается новый непреодолимый бенчмарк, и только потом приходят сложные решения, которые его преодолевают. Развивать их нужно совместно, и мы очень рады такому обсуждению в нашем HQ".

Алена Феногенова, исполнительный директор, TeamLead команды AGI NLP, Сбер:

"Спасибо команде Т-банка за организацию митапа! Было здорово собрать в одном месте экспертов и пользователей MERA. Такие встречи помогают обмениваться опытом и вместе делать наши инструменты для бенчмаркинга лучше.

Все проекты MERA (Code, Text, Multimodal) — открытые, и мы будем рады, если участники нашего сообщества MERA будут добавлять свои тесты или делиться идеями. Чем больше практических кейсов — тем полезнее решения для всех. Присоединяйтесь к развитию проекта!"

Роман Куцев, основатель LLM Arena:

"На митапе собрались ключевые эксперты GenAI-отрасли — концентрация лидеров мнений на площадке Т-банка была по-настоящему впечатляющей. Особенно приятно было осознавать, что внутри профессионального сообщества сформировалось единое понимание основных векторов развития в области бенчмарков ИИ-агентов. Мы подробно обсудили переход от оценки отдельных LLM к комплексной оценке ИИ-агентов, способных действовать в интерактивной среде, принимать решения, работать с интерфейсами и инструментами, а также два подхода к их созданию — UI based и Text based.

Конечно, не обошли стороной один из ключевых вопросов повестки: стоит ли разрабатывать собственные бенчмарки ИИ-агентов в России и чем они могли бы отличаться от зарубежных аналогов."

Валерия Занина, технический руководитель доменного обучения GigaСhat, Сбер:

"Благодарю команду Т-банка и Альянса в сфере ИИ за приглашение на митап и интерес к теме индустриальных бенчмарков!

Развитие отраслевых бенчмарков — важная задача, ведь именно реальные задачи бизнеса и отрасли двигают AI вперед. MERA уже сейчас объединяет экспертов и компании, а наша цель — развивать платформу через партнерство с ведущими вузами и промышленными игроками для более узкой и экспертной оценки. Мы уверены, что вместе сможем создать максимально полезные и прикладные бенчмарки, которые будут отвечать на реальные вызовы отраслей, в медицине и сельском хозяйстве, строительстве, компьютерных науках и многих других."

Бенчмарк MERA, созданный при участии команд Сбербанка, MTS AI, Skoltech AI и НИУ ВШЭ, был представлен на международной конференции AI Journey в 2023 году. Впоследствии методологию теста также презентовали на ACL, ведущей научной конференции по компьютерной лингвистике, которая проводится с 1963 года и пользуется поддержкой крупнейших IT-компаний со всего мира, в числе которых Apple, Google Deep Mind, Baidu, IBM и другие. В прошлом году бенчмарк для русскоязычных LLM стал еще лучше: в него добавились новые датасеты, поддержка API и особенностей SFT-моделей, а также обновленный лидерборд с удобной системой фильтрации результатов.

Источник: пресс-служба Альянса в сфере ИИ

Изображение от rawpixel.com на Freepik