Оценка эффекта от внедрения ИИ


О чем это

В мире куча бизнесов, в которые Искусственный Интеллект еще внедрен не до конца. Хочется внедрить до конца, приходим к бизнесу и говорим - давайте сделаем систему машинного обучения, которая предсказывает, оттечет клиент или нет. Бизнес отвечает - а зачем? Переводя на русский язык, нас только что спросили:

  • Каков будет экономический эффект от внедрения вот этого всего?
  • Сколько денег придется выбросить в трубу, чтобы заработало?

Ответа на оба вопроса не знает никто.

Это нормально. Бизнес тоже понимает, что вы ничего не знаете, поэтому точечной оценке "оно обойдется вам в миллион и будет экономить пять миллионов в год" не поверит.

Нужна правдоподобная модель - откуда и почему образуется польза. Бизнес вам поможет подкрутить и уточнить модель - он и сам хочет чтобы ему стало хорошо, просто помогите ему.

Что полезного может принести Искусственный Интеллект в бизнес?

Каждая крупная корпорация разрабатывает какую-нибудь "Методику оценки эффективности инвестиционных проектов". Попробуйте ее добыть, там все есть.

Если такого документа добыть не удалось, можно ориентироваться на Методику оценки фин эффективности внедрения ИИ от Альянса в сфере Искусственного Интеллекта и Ассоциации ФинТех. На сегодняшний день это лучшая и открытая методика оценки эффекта от внедрения ИИ.

Мы сначала рассмотрим оценку эффекта в принципе, затем посмотрим на несколько примеров и контрпримеров, а в конце разберем "Методику" на простые предложения.

Где есть люди, есть и политика

У больших и маленьких компаний есть владельцы, управленцы и собственно бизнес. Их интересы иногда совпадают.

Разрабатываемая вами система может улучшить что-то в бизнесе (будем зарабатывать больше, тратить меньше). Еще она может что-то улучшить в жизни управленцев (например, создать новый отдел и новое место руководителя отдела). Может поднять стоимость акций ("компания XYZ внедрила ChatGPT, а компания ZYX внедрила Excel" - два года назад акции первой компании выросли бы, а сегодня, возможно, наоборот. Еще в некоторых странах бывают налоговые льготы для тех, кто внедряет AI - неважно какой и зачем. Это все сложно, и никто вам про это не расскажет, надо смотреть что происходит и делать выводы самим.

В идеале ваш лучший друг - финансовый или генеральный директор. Они точно знают, что и кому нужно. Проблема в том, что они про это не рассказывают. А если и рассказывают, то не всё и не всем.

Про что прилично говорить вслух

  • эффект от операционной деятельности
    • реализация товаров и услуг. Продали больше, дороже, быстрее
    • экономия текущих расходов на сырьё, материалы, заработную плату, налоги и сборы и проч.
  • эффект от инвестиционной деятельности
    • доходы от выбывающих основных средств (сможем продать в основном простаивающий XXX)
    • экономия на альтернативных инвестициях (не пришлось покупать XXX)
    • расходы на модернизацию, строительство, приобретение, замещение основных средств
  • эффект от финансовой деятельности.
    • заемные средства и проценты по ним (внезапно и тут вы можете повлиять - например, предсказывая спрос и оптимизируя закупки)
    • снижение финансовых резервов (не нужно держать резерв на XXX, можно пустить деньги в оборот)

список неполный и неточный.

Деньги сейчас дороже, чем деньги потом (дисконтированные денежные потоки). То есть вместо того, чтобы потратить миллион на внедрение вашей системы, бизнес мог бы провернуть его и получить какую-то прибыль, или просто сложить на депозит или дать в долг. Поэтому миллион сейчас стоит больше чем миллион через год.

Четыре всадника плохой оценки

  • каннибализация
  • неполная замена
  • не весь жизненный цикл
  • ... не весь бизнес-процесс

Пример каннибализации

Эффект частично обусловлен не созданием стоимости, а перераспределением ее в то место, где вы ее считаете.

Стартап "Впарим Всё" (имя выдумано, ситуация реальная) предлагает вам разместить на главной странице сайта рекомендательный блок, который будет продавать больше. Оплата - процент от продаж.

Вы смотрите статистику - блок отлично продает. Клиенты, которые раньше нашли бы товар поиском по сайту (бесплатно), теперь находят его поиском от "Впарим Всё". Клиентов осталось столько же, продажи такие же, просто теперь вы должны стартапу.

Пример неполной замены

Мы снимаем часть нагрузки, но полностью заменить человека или оборудование не можем.

Ваш инновационный продукт для поддержки пользователей снижает нагрузку на оператора поддержки на 30%. Вы ожидаете экономии фонда оплаты труда на 30%, но в результате скорее всего он вырастет.

К сожалению, у бизнеса только десять операторов службы поддержки - они работают круглосуточно по двое в шестичасовых сменах (8 человек), еще двое в среднем болеют или в отпуске. Уволить никого нельзя, а систему кто-то должен поддерживать и внедрять.

Пример неполного жизненного цикла

Предположим, мы решили автоматизировать работу наших продавцов. Пусть мы создадим систему, которая будет подсказывать продавцу фразы во время разговора. Сделки закрываются на 5% чаще (в пересчете на один разговор). В PnL не видим прибылей, видим убытки:

  • Это B2B, общее число сделок могло и не измениться (просто закрываются быстрее)
  • Модель нужно переобучать, корректировать, анализировать - у нас появились новые бизнес-процессы по обучению персонала, поддержке модели, оценке качества работы и мониторинга модели
  • Теперь каждый раз, как у нашего поставщика IP телефонии меняется API, нам нужно корректировать еще одну интеграцию

Еще вариант - мы поставляем программно-аппаратный комплекс, который делает из тупого старого станка умный старый станок. Станок работает лучше - но теперь нам нужно поддерживать эти комплексы, монтировать эти комплексы, учить работе с ними, устанавливать обновления. Возможно, наши покупатели станков вообще не имели IT-службы в цеху, а теперь имеют - и платят за это.

Пример неполного учета влияния на бизнес-процессы

Предположим, что мы внедряем искусственный интеллект в анализ запросов клиентов. Робот отвечает на запросы клиентов, выставляет счета, клиенты по ним платят, все хорошо. Робот отвечает клиенту за 3 минуты, тогда как человек говорил с клиентом в среднем 15 минут.

Потом к вам приходит производство и сообщает, что клиенты массово отказываются от оборудования - потому что оно "не подходит".

Оказывается, раньше во время длинного диалога с покупателем выяснялось, что ему нужно не то, что он заказывает (т.е. происходило уточнение потребности опытным инженером). Инженеров бесила необходимость общаться с заказчиками, поэтому вы и смогли внедрить систему. Но теперь это бесит заказчиков.

Потом к вам приходит отдел маркетинга и спрашивает, что нового в запросах клиентов. Оказывается, раньше маркетинг мониторил рынок по замечаниям клиентов, а теперь клиент получает ровно то, что попросил - и информация теряется.

Потом к вам приходят из отдела продажи расходников, и спрашивают - почему расходники перестали продаваться. Пока вы говорите с ними, вы замечаете, что к вам стоит очередь со всего завода, и лица у них недобрые.

Итого - эффект от искусственного интеллекта обычно не заключается в экономии на фонде оплаты труда.

Перейдем к Методике

Принципы

  1. Принцип максимальной объективности - избегать экспертных оценок, не подкрепленных расчетами
  2. Принцип измеримости - можно измерить метрики, на которые вы собираетесь влиять - и по ним оценить эффект
  3. Принцип консерватизма - доходы оцениваем по минимуму, расходы по максимуму
  4. Принцип связи с инициативой - если кроме вашей системы кто-то еще будет влиять на бизнес-процесс, нельзя все успехи приписывать себе.
  5. Принцип полноты - учитывать все меняющиеся доходы-расходы, в т.ч. каннибализацию и изменение расходом на поддержку
  6. Принцип материальности - точность должна быть такой, которую вы сможете обосновать. Не считайте до копейки, если эффект плюс-минус миллион.
  7. Принцип учета консолидированного эффекта - оценивать эффект по всей компании целиком

Этапы оценки

Есть общепринятые системы оценки уровня готовности продукта к внедрению, см ГОСТ Р 58048-2017

  • УГИ - уровень готовности интеграции (наверное, CRL);
  • УГП - уровень готовности производства, он же MRL;
  • УГС - уровень готовности системы;
  • УГТ - уровень готовности технологии, он же TRL;

Уши растут из NASA, там используют английский, поэтому термины типы TLR CRL общеупотребимы даже в оборонке и ФИПС

Например, Yandex AI Startup Lab берет проекты с уровня TLR3.

Чем ниже TLR, тем меньше у вас оснований для оценки. Некоторые организации на низких уровнях TLR вообще не оценивают деньги - а только осуществимость и соответствие стратегии.

Рассматриваемая методика определяет пять этапов оценки:

  1. Формулировка бизнес-идеи. Тут вы объясняете, почему у вашей модели вообще может быть положительный эффект, грубых оценок вроде "оно снизит поездки ремонтной бригады на объект на 30%, что сэкономит нам 700 тысяч в месяц на каждый объект" достаточно. Нам нужно показать, что бизнес-возможность существует, чтобы начать ее обсуждать

  2. Первичная оценка финансового эффекта. На этом этапе мы смотрим на весь жизненный цикл, на весь бизнес-процесс и на всю организацию. Тут нам нужно убедить, что можно запустить пилот - попробовать на маленьком участке, одном магазине, одном товаре, в однмо цеху. Если по политическим причинам ваш проект захотят вежливо похоронить, вы получите в пилот магазин посреди сибирской тайги - и не сможете там показать эффект. Будьте внимательны.

  3. Проведение пилота. Тут проверяются гипотезы, и вы показываете что ваш продукт может. Важно заранее понять, как будет оцениваться пилот.

  4. Оценка эффекта. Повторяется моделирование из пункта 2, но только на основе результатов пилота. Тут, скорее всего, принимается решение - внедрять или нет, и в разных организациях может быть по-разному. Скорее всего в большой организации тут будет какой-нибудь инвесткомитет. У всех по-разному, см например инвестиционный цикл от Ирины Голощаповой

  5. Мониторинг эффекта - мало прорваться в прод, надо еще там удержаться.

Минутка рекламы нашего дизайндока

Объект и задача оценки

Объект финансовой оценки - изменения процессов.

Задача оценки - оценить прямые и косвенные последствия изменений. Нужно быть готовым ответить на вопросы:

  • Как устроен улучшаемый процесс сейчас?
  • Какой показатель процесса изменится?
  • Как будет собираться статистика процесса до и после внедрения?
  • Как будет выглядеть процесс после внедрения?
  • Какие могут быть риски?
  • Какие будут финансовые и нефинансовые эффекты?
  • На какие еще процессы повлияет изменение?

К сожалению, пока вы не погрузитесь в реальности клиента, вы это не узнаете.

Основные метрики и эффекты (для банков):

  • Рост доходов
  • Снижение операционных расходов
  • Высвобождение штатной численности (кого уволят или переведут)
  • Снижение операционных рисков
  • Высвобождение ликвидности (уменьшение запасов, залогов, сбор дебиторки и проч)
  • Восстановление/недосоздание резервов (снижаем показатели, влияющие на размер резерва, работа с рисками)
  • Высвобождение резервов (перенос расходов на другой этап жизненного цикла)
  • Снижение расходов на капитал (снижение потребности в капитале)

Рост доходов

Это в первую очередь:

  1. Изменение количества продаж
  2. Изменение маржинальности/прибыльности

За счет чего достигнуто:

  1. Повышение производительности/автоматизация
  2. Запуск новых продуктов
  3. Изменение отклика продаж / рост эффективности коммуникаций
  4. Изменение среднего чека и т.д.
  5. Снижение текучки продавцов и повышение эффективности найма
  6. Рост активности клиентов (прогрев клиентов)
  7. Изменение структуры расходов на маркетинг
  8. Удержание клиентов
  9. Расширение клиентской базы
  10. Снижение уровня отказов (рост конверсии, ускорение принятия решений)
  11. Повышение операционной эффективности за счет выявления и устранения отклонений и ошибок в бизнес-процессах.

Побочные эффекты:

  1. Каннибализация продуктов, времени сотрудников и клиентов, внимания, каналов коммуникации (например не более 3-х звонков клиенту в квартал)
  2. Кросс-продажи (обратный к каннибализации эффект)

Снижение операционных расходов

Затраты на топливо, электричество, электроэнергию и проч

Высвобождение штатной численности

Количество высвобожденных ПШЕ (полных штатных единиц). Полземлекопа ничего не экономят.

  1. Фактические сокращения
  2. Ненайм

Доказывается хронометражом, проверяется по всем бизнес-процессам, в которых задействован сотрудник.

Эффект от увольнений смазан выплатами увольняемым сотрудникам. Уволить людей не так просто. С ненаймом еще сложнее - заказчик должен быть вынужден расти в численности (не просто расти, а вынужденно расти), что не так часто бывает.

Человек, кроме зарплаты, занимает еще и офисное или рабочее пространство, требует какого-то начальства для управления, ему нужны инструменты, средства индивидуальной защиты, обучение и проч. Все это стоит учесть.

Снижение операционных рисков

  1. Снижение дефектов
  2. Снижение фрода/мошенничества

Финансовый эффект, помимо снижения прямых убытков - в высвобождении ПШЕ, занимающихся отловом фродеров. Если таких единиц нет - возможно, фрод заказчика не беспокоит.

Инкремент

Далее в Методике есть много специфических для финтеха методик, но инкремент - более-менее универсальная идея.

У нас есть какой-то бейзлайн (как бизнес-процесс развивался бы без нашей инновации).

У нас есть прогноз, как бизнес-процесс будет работать с нашим продуктом.

И вот мы берем самый лучший бейзлайн и сравниваем его с самым худшим нашим прогнозом. Это и есть инкремент.

Так нечестно, надо интегрировать матожидание по вероятностям - но в ваш интеграл мало кто поверит. Все равно попробуйте. Например, разбейте на отдельные сценарии развития ситуации, и в каждом из сценариев покажите инкремент, а потом взвесьте инкремент вероятностью реализации именно этого сценария.

Затраты

Внедрение требует расходов. Даже если вы внешний подрядчик и "просто продаете коробку", у заказчика возникают затраты:

  1. Фонд оплаты труда, налоги, отпускные, премии, оборудование рабочих мест
  2. Серверная инфраструктура
  3. Лицензии, консалтинг, аудит, аутсорс и так далее

Метрики

Что именно считаем?

  • Прямые финансовые результаты с влиянием на PnL - выручка, снижение затрат
  • Прямые финансовые результаты без влияния на PnL - потом когда-нибудь
  • Косвенные финэффекты - например, снижение расходов на капитал
  • Сэкономленные деньги (ненайм, снижение потребности в оборудовании и материалах)
  • Косвенные эффекты (предотвращение потерь и проч)

Последний пункт открывает самые большие возможности для фантазий. Наше программное обеспечение отвело от главного офиса астероид, вероятность падения была 1%, стала 0,1%, офис стоил миллиард, девять миллионов эффекта мы принесли. Не делайте так, побьют и выгонят.

На какой период считаем?

В некоторых организациях эффект для оборудования нужно считать на 15 лет, а эффект от оргпроцессов и офисной автоматизации - на 3 года.

Если считаете PnL - имеет смысл считать на год, например. Тогда можно не считать приведенную стоимость денег.

Если считаете больше чем на год - считайте NPV

Если влияете на удержание или монетизацию клиентов - считайте влияние на LTV (про него напишу методичку, чуть позже)

Чужие бенчмарки

Используя чужие бенчмарки для обоснования эффекта, имейте в виду:

  1. Разницу в зрелости бизнес-процессов и технологических процессов. Возможно, Сберу это было выгодно, а местная шаурмячная эффект не увидит.
  2. Специфику бизнес-модели. Если по вашим счетам платит страховая - зачем снижать затраты?
  3. Разная методология подсчета. Тот же LTV считают как попало.

Подсчет эффекта

По степени убывания доверия

  1. А/Б тесты и другие RCT. Бизнес верит, надо делать аккуратно, много подводных камней. См подробности в Методике.
  2. Квазиэксперименты - Causal Inference во всей своей красе. Бизнес сомневается - вроде убедительно, но непонятно.
  3. Альтернативное моделирование (цифровой двойник процесса в excel). Тут надо, чтобы очень хотели поверить.

Если нет денежной метрики

Могут быть косвенные стратегические метрики. Индекс клиентской лояльности, показатель удержания, % детекций фрода, % внедрения, количество обращений на сотрудника и проч.

Если метрика измеряется не в деньгах - нужно найти, в чьем она KPI. Если ни у кого в KPI ее нет, ищите другую метрику.

Типичные ошибки

  1. Учет только доходов, игнорирование расходов.
  2. Оценка "виртуальной экономии". Мы сгенерировали AI моделью 1000 изображений, раньше за каждое платили 30000 руб, имеем 30М эффекта - но он виртуальный. Мы бы не стали генерировать изображения, если бы за них надо было платить.
  3. Неправильный выбор бейзлайна. Например, создался новый процесс, использующий наш продукт - и мы приписываем все заслуги себе, хотя основная польза - от процесса, который, может, и без нашего продукта работал бы. Например, часто внедрение какого-то инструмента приводит к ревизии данных, исправлению ошибок и повышению эффективности - но инструмент тут не при чем.
  4. Игнорирование каннибализации
  5. Игнорирование долгосрочных эффектов (как например поддержка в чат-боте - люди просто реже обращаются в поддержку и в результате чаще уходят от нас)
  6. Кривые А/Б тесты. У нас в ReliableML про это был митап
  7. Оценка неправильного эффекта - т.е. эффект есть, но он и без нас был, просто медленнее-меньше-хуже, мы фактически сэкономили трудозатраты.
  8. Ошибочно выбраны факторы, на которые мы влияем. Например, мы считаем, на сколько звонков ответила модель. Если клиенты будут часто бросать трубку, модель сможет ответить на большее количество звонков.
  9. Эффект снятия словок (низкой базы) - когда первые же усилия приносят основной результат, а дальше эффекта уже нет
  10. Выборочное смещение. Вам на пилот достался магазин, которого не жалко - все равно там ничего не срабатывает. И ващ пилот тоже провалится. Или наоборот, вам в пилот дали трех самых красивых клиентов - а дальше начнется настоящая жизнь.

Кейсы

В Методике есть кейсы с примерами расчета финэффектов.

Прекрасный пример - отчет о внедрении системы датчиков на фотоэлектрической станции SolarTech. Хорошо разобран экономический эффект.

Ищите такие примеры в своей отрасли, и ссылайтесь на оценку эффекта. К сожалению, таких отчетов мало в открытом доступе, шлите мне - если найдете еще. Вот еще хороший кейс AES, тоже из энергетики.