Классифицируем тексты и ускоряем модели для поддержания диалога

Привет, друзья!

В последние годы технологии больших данных и машинного обучения развиваются семимильными шагами, а инструменты, которые ещё недавно казались недостижимыми, теперь доступны почти каждому. Однако чем дальше, тем больше задач требуют более тонкого и комплексного подхода.

На этой неделе мы сфокусируемся на Big Data и инфраструктуре машинного обучения. Если вы задумывались о том, как оптимизировать ваши модели, улучшить качество данных или построить эффективные пайплайны, вы находитесь в нужном месте.

Что важного?

📅 С 1 сентября цены на участие в HighLoad++ 2024 вырастут и станут максимальными. Если вы ещё не приобрели билет, самое время сделать это — так вы сэкономите и получите доступ ко всем докладам и воркшопам.

Купить билет

Полезные материалы этой недели

Новый подход для классификации текста в чат-ботах

До нейросетей задачи по классификации текста были сложными, ресурсоёмкими и дорогими. Сейчас подобные решения внедряются практически из коробки. Но потребность в классификации входящего текста для дальнейшей обработки продолжает увеличиваться и требует новых подходов и решений.

Архитектор ИИ-направления в компании Raft поделится своим опытом подобных проектов для чат-ботов. Сравнит три подхода к реализации классификатора: классический ML-классификатор, LLM-классификатор и библиотеку semantic-router. Поделится рекомендациями и стоимостью внедрения этих решений.

Читать →

Ускорение и облегчение моделей для поддержания диалога виртуальных ассистентов Салют

Обучение огромной core-модели, построенной на архитектуре Transformer, может занимать очень много времени. Inference потребует большого количества памяти компьютера, поэтому перед разработчиками машинного обучения, особенно теми, кто оптимизирует работу моделей в продакшне, встаёт проблема оптимизации и ускорения. ML Lead продукта в SberDevices Александр Абрамов расскажет, как при таких вводных обучать core-модели и какие хаки использовать для их облегчения и ускорения. Речь пойдёт о ML с позиции пайплайнов и продакшна виртуального ассистента Салют.

Читать →


Доклады HighLoad++ 2024

Богдан Володарский, Wildberries

В своём докладе Богдан расскажет о том, как в компании создали собственное BLOB-хранилище и какие вызовы они преодолевали на пути к совершенству. Если ваша компания рассматривает разработку внутренних инструментов, не пропустите эту сессию.

Иван Красников, wikilect.com

Погрузитесь в практические кейсы внедрения LLM и узнайте, какие сложности возникают при разработке и тестировании моделей.

Александр Маркачев, билайн

Оптимизация Spark-приложений — это не просто искусство, а необходимый навык в мире больших данных. Александр поделится своим опытом и конкретными примерами того, как можно улучшить производительность Spark-приложений.


Приглашаем экспертов в data science на закрытую встречу сообщества

Встреча типовых Data scientists

📅 29 августа онлайн в 18:00 по Мск.

Будем обсуждать горизонты профессионального развития в DS и машинном обучении. Темы встречи:

⚡️Как развиваться внутри data science?

⚡️Какие интересные прикладные задачи стоят перед лидерами индустрии?

⚡️Перспективы для сеньора: расти вверх по карьерной лестнице или углубляться внутри своей специализации? Поговорим про вертикальное и горизонтальное развитие

⚡️ Где получать практические навыки и обмениваться опытом и связями?

Участники встречи:

  • Андрей Кузнецов (AIRI)
  • Евгений Смирнов (АЛЬФА-БАНК)
  • Роман Поборчий (self-employed)
  • Дани Эль-Айясс (Self-employed)
  • Владимир Ершов (Яндекс)
  • Никита Зелинский (МТС)
  • Александр Самойлов (Wildberries)
  • Иван Бондаренко (Новосибирский государственный университет)

Встреча пройдет в формате открытой дискуссии, где каждый желающий сможет задать интересующие его вопросы. Участие бесплатное.

Регистрируйтесь на встречу и зовите коллег!


На сегодня всё! До встречи