Классифицируем тексты и ускоряем модели для поддержания диалога
Привет, друзья!
В последние годы технологии больших данных и машинного обучения развиваются семимильными шагами, а инструменты, которые ещё недавно казались недостижимыми, теперь доступны почти каждому. Однако чем дальше, тем больше задач требуют более тонкого и комплексного подхода.
На этой неделе мы сфокусируемся на Big Data и инфраструктуре машинного обучения. Если вы задумывались о том, как оптимизировать ваши модели, улучшить качество данных или построить эффективные пайплайны, вы находитесь в нужном месте.
Что важного?
📅 С 1 сентября цены на участие в HighLoad++ 2024 вырастут и станут максимальными. Если вы ещё не приобрели билет, самое время сделать это — так вы сэкономите и получите доступ ко всем докладам и воркшопам.
Купить билет
Полезные материалы этой недели
До нейросетей задачи по классификации текста были сложными, ресурсоёмкими и дорогими. Сейчас подобные решения внедряются практически из коробки. Но потребность в классификации входящего текста для дальнейшей обработки продолжает увеличиваться и требует новых подходов и решений.
Архитектор ИИ-направления в компании Raft поделится своим опытом подобных проектов для чат-ботов. Сравнит три подхода к реализации классификатора: классический ML-классификатор, LLM-классификатор и библиотеку semantic-router. Поделится рекомендациями и стоимостью внедрения этих решений.
Читать →
Обучение огромной core-модели, построенной на архитектуре Transformer, может занимать очень много времени. Inference потребует большого количества памяти компьютера, поэтому перед разработчиками машинного обучения, особенно теми, кто оптимизирует работу моделей в продакшне, встаёт проблема оптимизации и ускорения. ML Lead продукта в SberDevices Александр Абрамов расскажет, как при таких вводных обучать core-модели и какие хаки использовать для их облегчения и ускорения. Речь пойдёт о ML с позиции пайплайнов и продакшна виртуального ассистента Салют.
Читать →
Доклады HighLoad++ 2024
В своём докладе Богдан расскажет о том, как в компании создали собственное BLOB-хранилище и какие вызовы они преодолевали на пути к совершенству. Если ваша компания рассматривает разработку внутренних инструментов, не пропустите эту сессию.
Погрузитесь в практические кейсы внедрения LLM и узнайте, какие сложности возникают при разработке и тестировании моделей.
Оптимизация Spark-приложений — это не просто искусство, а необходимый навык в мире больших данных. Александр поделится своим опытом и конкретными примерами того, как можно улучшить производительность Spark-приложений.
Приглашаем экспертов в data science на закрытую встречу сообщества
📅 29 августа онлайн в 18:00 по Мск.
Будем обсуждать горизонты профессионального развития в DS и машинном обучении. Темы встречи:
⚡️Как развиваться внутри data science?
⚡️Какие интересные прикладные задачи стоят перед лидерами индустрии?
⚡️Перспективы для сеньора: расти вверх по карьерной лестнице или углубляться внутри своей специализации? Поговорим про вертикальное и горизонтальное развитие
⚡️ Где получать практические навыки и обмениваться опытом и связями?
Участники встречи:
- Андрей Кузнецов (AIRI)
- Евгений Смирнов (АЛЬФА-БАНК)
- Роман Поборчий (self-employed)
- Дани Эль-Айясс (Self-employed)
- Владимир Ершов (Яндекс)
- Никита Зелинский (МТС)
- Александр Самойлов (Wildberries)
- Иван Бондаренко (Новосибирский государственный университет)
Встреча пройдет в формате открытой дискуссии, где каждый желающий сможет задать интересующие его вопросы. Участие бесплатное.
Регистрируйтесь на встречу и зовите коллег!