Аналіз і візуалізація даних в R
Цей курс - ідеальний вибір для всіх, хто прагне засвоїти один із ключових інструментів аналізу даних в наш час. R — це потужний і універсальний інструмент, який знаходить своє застосування у багатьох сферах бізнесу, не обмежуючись виключно ІТ.
Під час курсу ви отримаєте можливість ознайомитися з основами роботи в R та засвоїти ключові принципи аналізу даних. Вас чекають теми, пов'язані із регресійним аналізом, дозволяючи вам вивчити методи прогнозування та розуміти їх застосування в практиці.
Під час навчання Ви зможете зробити власний невеличкий проєкт на основі даних, об'єднавшись в команди з іншими учасниками курсу. Ви використовуватимете вивчені матеріали на практиці. Це прекрасна можливість зробити цікавий для Вас проєкт або, навіть, проєкт з роботи. Також це можливість мати нетворкінг з іншими учасниками й, потенційно, продовжити співпрацю поза межами курсу. Також Ви отримаєте фідбек від лектора по Вашому проєкту з додатковими пропозиціями як його поліпшити та зробити якіснішим.
Ви освоїте основні пакети для візуалізації даних, навчившись представляти ваші відкриття у зрозумілий спосіб. Цей курс допоможе вам стати впевненими у використанні R для вирішення складних завдань аналізу даних та візуалізації інформації, незалежно від галузі вашої діяльності.
Кому буде цікаво
Програмувати мовою R для статистичних та аналітичних задач
Вести аналітичний проєкт від початку й до кінця: пошук та обробка даних, візуалізація, побудова статистичних моделей, аналіз та оформлення
Створювати лінійні, логістичні моделі та моделі часових рядів, розуміти яка саме потрібна у вашому випадку
Знаходити потрібні пакети в R, а також зразки кодів для адаптації до своїх задач
Усвідомлювати останні тренди та state-of-the-art техніки в побудові звітів, як розставляти фокус та акценти
Хто викладає
Дмитро Круковець
— Головний економіст відділу моделювання Департаменту монетарної політики та економічного аналізу в НБУ
— Випускник KSE
Як проходить навчання
Щоб почати навчання на курсі, вам потрібно
Програма
Модуль І: Базове програмування мовою R
офлайн
Заняття 1
Теорія: Мотивація (опис навичок та результатів у підсумку курсу); опис структури курсу та модулів; детальний опис важливості кожного з модулів та що ми вивчимо у підсумку; приклади аналітичних робіт (50 хвилин)
Практика: Ознайомлення з інтерфейсом R та RStudio, перші спроби кодінгу з арифметичними операціями та збереженням простих змінних (30 хвилин)
Модуль І: Базове програмування мовою R
офлайн
Заняття 2
Теорія: функції з точки зору математика та програміста, параметри функції (30 хв)
Практика: використання простих функцій; вбудована допомога по функціям; зміна параметрів з «за замовчуванням» на інші; написання власних простих функцій (50 хв)
Модуль І: Базове програмування мовою R
офлайн
Заняття 3
Теорія: Огляд класів та типів даних: вектори, матриці, фактори, дата фрейми (20 хв)
Практика: продовження освоєння R; створення та операції з векторами, факторами та дата фреймами (60 хв)
Модуль ІІ: Підготовка даних та статистика
офлайн
Заняття 1
Теорія: Вступ до модулю; ключові проблеми підготовки даних та методи їх вирішення; ключові проблеми з даними; .csv та .xlsx (50 хв)
Практика: Читання та запис файлів з даними в різних форматах (.csv, .xlsx) (30 хв)
Модуль ІІ: Підготовка даних та статистика
офлайн
Заняття 2
Теорія: статистика для аналітиків даних (40 хв)
Практика: використання статистичних функцій, інтерпретація результату summary() на реальних даних (40 хв)
Модуль ІІ: Підготовка даних та статистика
офлайн
Заняття 3
Теорія: вступ до dplyr; основні концепції; пайп оператор %>% (20 хв)
Практика: класичні функції select(), filter(), arrange(), mutate(), count(), group_by(), summarize() (60 хв)
Модуль ІІІ: Візуалізація даних
офлайн
Заняття 1
Теорія: Теоретичні концепції візуалізації даних; опис пакету ggplot2 та його різниця з класичним підходом (40 хв)
Практика: Базові (вбудовані) методи візуалізації, функції plot() та lines(), параметри для різних кольорів, ширини тексту, заголовку графіка.
Модуль ІІІ: Візуалізація даних
офлайн
Заняття 2
Теорія: Скаттерплот та барчарт та лінійні графіки: що це та коли їх використовуємо, приклади (30 хв).
Практика: Скаттерплот, барчарт та лінійні графіки в ggplot2 (50 хв)
Модуль ІІІ: Візуалізація даних
офлайн
Заняття 3
Теорія: Інтуіція за елементами в ggplot2 (прямокутники, тексти) та як їх змінювати (30 хв)
Практика: майстер-клас по змінам оформлення графіків в ggplot2 (50 хв)
Модуль ІV: Лінійна та логістична регресія
офлайн
Заняття 1
Теорія: Навіщо треба моделювання, приклади використання в реальному житті (20 хв)
Практика: Вступ до лінійної регресії, приклади саме регресії, коефіцієнти, їх значущість та концепція гіпотези (60 хв)
Модуль ІV: Лінійна та логістична регресія
офлайн
Заняття 2
Практика: використання лінійної регресії з пакетом glmnet, інтерпретація результатів summary(), оцінка якості, побудова тренувального та тестувального датасету, вивід результату та побудова графіків (80 хв)
Модуль ІV: Лінійна та логістична регресія
офлайн
Заняття 3
Теорія: Вступ до логістичної регресії, концептуальні відмінності від лінійної, концепція шансів, оцінка якості (точність та інші) (40 хв)
Практика: використання логістичної регресії з пакетом glmnet, інтерпретація результатів summary(), графіки (40 хв)
Модуль V: Аналіз часових рядів та прогнозування
офлайн
Заняття 1
Теорія: В чому різниця між лінійною регресією та часовими рядами, приклади в різних сферах (50 хв)
Теорія: проблематика часових рядів: сезонність, тренди; як це допомагає аналізувати; концепція згладжування (30 хв)
Модуль V: Аналіз часових рядів та прогнозування
офлайн
Заняття 2
Теорія: Вступ до концепцій шуму, випадкового блукання, AR та MA процесів (50 хв)
Практика: побудова простого шуму та випадкового блукання (30 хв)
Модуль V: Аналіз часових рядів та прогнозування
офлайн
Заняття 3
Теорія: ARMA модель для прогнозування, оцінка її якості за допомогою RMSE (30 хв)
Практика: Побудова ARMA моделі та прогнозу, оцінка якості моделі (50 хв)
Модуль VІ: Цикл розробки аналітичного проєкту та кейс-стаді
офлайн
Заняття 1
Теорія: Проєкт на основі аналізу даних та візуалізації, висновки, дискусія про основні проблеми та помилки що можна допускати в подібних проєктах (50 хв)
Практика: розбір програмної складової за проєктом (30 хв)
Модуль VІ: Цикл розробки аналітичного проєкту та кейс-стаді
офлайн
Заняття 2
Теорія: Проєкт на основі лінійної регресії, висновки, дискусія про основні проблеми та помилки що можна допускати в подібних проєктах (50 хв)
Практика: розбір програмної складової за проєктом (30 хв)
Модуль VІ: Цикл розробки аналітичного проєкту та кейс-стаді
офлайн
Заняття 3
Теорія: Проєкт на основі аналізу даних та візуалізації, висновки, дискусія про основні проблеми та помилки що можна допускати в подібних проєктах (50 хв)
Практика: розбір програмної складової за проєктом (30 хв)
Поспілкуватись з менеджером
Телефон: 38 050 151 17 45Email: au.gro.esk%40sesruoc