Highload++ 2017 завершён!

Профессиональная конференция разработчиков высоконагруженных систем

СКОЛКОВО, Москва 7 и 8 ноября

11-я ежегодная конференция для разработчиков highload-систем, которая соберет   2 700 участников из разных регионов России и мира. Мероприятие направлено на обмен знаниями о технологиях, позволяющих одновременно обслуживать многие тысячи и миллионы пользователей.

Программа охватывает такие аспекты веб-разработок, как архитектуры крупных проектов, базы данных и системы хранения, системное администрирование, нагрузочное тестирование, эксплуатация крупных проектов и другие направления, связанные с высоконагруженными системами.

Как мы переводили ETL процессы в хранилище из ручных загрузок на коробочное решение от Informatica Power Center
BigData и машинное обучение

Программный комитет ещё не принял решения по этому докладу
Теле2

Аналитик данных. Более 8 лет занимался корпоративными хранилищами данных и ETL-процессами в одном из мобильных операторов большой четверки. Последние 2 года развиваю хранилище в одном из крупнейших микрофинансовых компаний в России.

Тезисы

Несколько лет назад в одном из крупных мобильных операторов переживали рост в части аналитики данных. В компании внедрялись BigData технологии и мы переводили ETL-процессы в хранилище DWH на коробочное решение от Informatica. Изначально у нас были классические ETL-процессы в хранилище DWH на Oracle c ночной загрузкой из источников с помощью настроенных db-link-ов и Oracle Loader.
Объем данных - 10-30 Гб/день. После этого мы начали внедрять большое хранилище с МРР архитектурой (Teradata) размером 150ТБ. А в качестве архитектурного решения для ETL-процессов купили инструмент репликации данных Golden Gate(GG) и Informatica Power Center( IPC ). И настраивали отказоустойчивую систему интеграции данных (High Availability)


В этом докладе хочу поделится:
- причинами внедрения Golde Gate и его преимущества
--специфика промежуточного(STAGE) слоя при загрузке в DWH
- преимущества и недостатки ручных и коробочных ETL решений (на примере Informatica Power Center)
- реальные кейсы ETL процессов загрузки "больших" объемов данных в хранилища. И примеры масштабирования загрузок на IPC.
- с какими сложностями столкнулись при переходе на GG и IPC
- технической архитектурой решения отказоустойчивой системы для IPC.
- архитектура движения потоков данных dataflow от источников к хранилищам
- сформированная методология разработки, отладки и деплоя на IPC и добавления новых источников в Golden Gate

Цель доклада:
--рассказать основные преимущества и недостатки разных ETL-решений и частично помочь зрителю с выбором инструмента интеграции данных.
--Дать представление зрителю с какими вопросами придется столкнутся при переходе на решение IPC
--Показать примеры реальных кейсов загрузки "больших" объемов
--Показать текущий процесс движения потоков данных в хранилище

PostgreSQL
,
Oracle
,
MSSQL
,
Базы данных / другое
,
Отказоустойчивость
,
MySQL (MariaDB, Percona Server)
,
Hadoop
,
ETL
,
Agile / Scrum
,
Базы знаний / wiki

Другие доклады секции
BigData и машинное обучение

Лаборатория Касперского
Rambler's Top100