Разработчик Big Data [МФТИ] [Олег Ивченко, Николай Анохин, Мурат Апишев]

Джокер

Администратор
Регистрация
1 Янв 2015
Сообщения
127.070
Реакции
75.928
Складчина: Разработчик Big Data [МФТИ] [Олег Ивченко, Николай Анохин, Мурат Апишев]



Станьте специалистом, который проектирует системы сбора и обработки больших массивов данных. Получите диплом о профессиональной переподготовке МФТИ

Обучение проводится совместно с основной магистратурой Алгоритмы и технологии программирования.
- среда обучения приближенная к реальной работе
- преподаватели и студенты занимают топовые позиции в крупных IT-компаниях
Вас ждут сложные задачи, интенсивная самостоятельная работа.
Выбрав программу профессиональной переподготовки, Вы присоединяетесь к группе и проходите обучение вместе с основной магистратурой.

Кому подойдет профессия разработчик Big Data

Разработчик
сможете совершенствовать навыки программирования, расширить и получить новые знания в desktop, web разработки, а также в работе с большими данными.
Аналитик
сможете проводить аналитику с помощью SQL и NoSQL инструментов, визуализировать данные и отчеты на основе больших массивов информации.
Data engineer
курсы помогут увеличить свой рабочий арсенал прикладных знаний в работе с данными.
Data scientist
получите знания по современным инструментам и подходам, необходимым для сбора, хранения и обработки данных. Изучите модели машинного обучения в применении к большим данным.
Программа Разработчик Big Data
Чтобы получить Профессию Разработчик Big Data, подтвержденную Дипломом о профессиональной переподготовке МФТИ установленного образца, необходимо пройти обучение на трех самостоятельных курсах

Курс Хранение и обработка больших объёмов данных
Старт: февраль 2026 года

Распределённые файловые системы (GFS, HDFS)
Её составляющие. Их достоинства, недостатки и сфера применения. Чтение и запись в HDFS. HDFS APIs: Web, shell, Java.

Парадигма MapReduce
Основная идея, формальное описание. Обзор реализаций. Виды и классификация многопроцессорных вычислительных систем. Hadoop. Схема его работы, роли серверов в Hadoop-кластере. API для работы с Hadoop (Native Java API vs. Streaming), примеры. MapReduce, продолжение. Типы Join'ов и их реализации в парадигме MR. Паттерны проектирования MR (pairs, stripes, составные ключи).

Управление ресурсами Hadoop-кластера. YARN
Hadoop MRv1 vs. YARN. Нововведения в последних версиях Hadoop. Планировщик задач в YARN. Apache Slide.
SQL over BigData: Apache Drill, Cloudera Impala, Presto, Hive
SQL over BigData: Apache Drill, Cloudera Impala, Presto, Hive. Повторение SQL. HiveQL vs. SQL. Виды таблиц в Hive, типы данных, трансляция Hive-запросов в MapReduce-задачи. Аналитические функции в Hive. Расширения Hive: Streaming, User defined functions. Оптимизация запросов в Hive.

Технологии обработки данных в распределенной оперативной памяти. Apache Spark
Spark RDD vs Spark Dataframes
Spark SQL
Spark GraphFrames

Обработка данных в реальном времени. Kafka, Spark Streaming
Распределённая очередь Apache Kafka. Kafka streams.

BigData NoSQL, Key-value базы данных
HBase. NoSQL подходы к реализации распределенных баз данных, key-value хранилища. Основные компоненты BigTable-подобных систем и их назначение, отличие от реляционных БД. Чтение, запись и хранение данных в HBase. Minor- и major-компактификация. Надёжность и отказоустойчивость в HBase. Cassandra. Основные особенности. Чтение и запись данных. Отказоустойчивость.
Примеры применения HBase и Cassandra.
Отличие архитектуры HBase от Сassandra.

Курс технологии программирования и операционные системы
Старт: сентябрь 2026 года

Семейство ОС Unix. Современные инструменты для работы в консоли
Семейство ОС Unix, основные дистрибутивы и их отличия. Основные командные интерпретаторы, их отличия. Утилита sed, язык awk. Использование Python как заменителя shell. Jupyter Notebook. Терминальные мультиплексоры, автоматизация работы с ними.

Системы контроля версий
Системы контроля версий в современных проектах. Разновидности VСS. Git и работа с ним. Работа над проектами в команде. Автоматизация работы с Git.

Контейнеризация и виртуализация
Что это такое? Чем отличаются? Современные платформы и работа с ними. Автоматизация работы с виртуальными окружениями.

Непрерывная интеграция
Методология гибкой разработки. Непрерывная интеграция (continuous integration) и её этапы. Основные инструменты CI и их связь с VCS.

Оркестрация контейнеров. Kubernetes
Основные задачи и концепции. Модель безопасности и контроллеры задач. Архитектура, компоненты. Хранение данных. Взаимодействие по сети. CI/CD в Kubernetes.

Курс Машинное обучение на больших объёмах данных
Старт: сентябрь 2026 | сентябрь 2027 года

Рекомендательные системы
Рекомендательные сервисы в продакшене.
Метрики и базовые подходы
Классические алгоритмы.
Нейросетевые рекомендеры.
Нерешенные проблемы и новые направлени.
Рекомендации и Reinforcement Learning.

Анализ эпидемиологических графов
Foundations & Preliminaries
Characterization of common graph types
Notable results
Advanced topics

Большие языковые модели
Обучение LLM
Длинный контекст + позиционное кодирование. Архитектурные модификации Transformer

Преподаватели программы
- Олег Николаевич Ивченко
Разработчик системы HJudge - системы автоматизированного тестирования Hadoop-приложений, системный администратор инфраструктуры больших данных в группе Яндекс-CERN, преподаватель курсов по обработке больших данных в МФТИ, ВШЭ, ШАД, Harbour.Space
- Николай Анохин
Программист-исследователь VK, специалист в области машинного обучения и обработки больших данных
- Мурат Апишев
Руководитель направления RnD в сфере NLU/NLP компании Just AI, старший преподаватель МФТИ, лектор онлайн-курсов "Нетология"
- Никита Честнов
Аспирант. Преподаватель курсов Практикум Python и Технологии программирования и операционных систем,
Deep learning исследователь

Стоимость: 156000 руб.




СКАЧАТЬ СЛИВЫ КУРСОВ