DATA FUSION И РАБОТА С КЛИЕНТАМИ (КОНФЕРЕНЦИЯ DATA FUSION 30/04/2021)
Основные тренды в Объединении данных и машинном обучении в предприятиях
Hype cycle for AI
Цикл состоит из 5 частей
– Триггер инноваций - первичное появление идей в новых областях
– Пик раздутых ожиданий/ажиотажа – ожидания выше возможностей
– Появление разочарования – осознание реальности и возможностей проектов
– Понимание применения
– Развитие конкретных идей в реализацию – до этого периода доходят ~ 20 % организаций
Синтетические данные – класс данных, производимые с помощью машинного обучения и симуляции возможных ситуаций с целью снизить уровень неопределённости. (текст, изображения, табличные массивы данных)
Полуфабрикаты данных или управляемые представления данных
– позволяют соблюдать законодательные ограничения и privacy клиентов
– сохраняют максимальную ценность для задач моделирования
– эффективно "распределяют" компетенции команд
Mao-matching - способ взять исходные данные и соединить это с граф-дорогами. Точный метод определения наиболее вероятного маршрута передвижения людей в сети GSM, приземлённый на географическую карту с помощью использования графа транспортной сети.
Фактор 1 – отдаленность вершины от базовой станции в момент регистрации
Фактор 2 – расстояние между вершинами, между которыми произошло перемещение
Защищённые обезличенные данные
Embedding – представление входных данных в виде вектора чисел фиксированного размера