Сектор клиентской поддержки и обслуживания является одним из самых перспективных направлений для голосового искусственного интеллекта (ИИ) в настоящее время. Однако создание продукта, который звучит естественно и реагирует без заметных задержек, оказывается гораздо сложнее на некоторых рынках. Большинство крупных игроков индустрии не учитывали специфику Африки и Ближнего Востока при разработке своих решений.
Стартап AethexAI, основанный в прошлом году с целью восполнить этот пробел, привлёк 3 миллиона долларов США в рамках предпосевного раунда финансирования. Лидером раунда стала венчурная компания 4DX Ventures, при участии Enza Capital, Dorm Room Fund, Mojo Ventures и Stanford GSB 26 Fund. Среди индивидуальных инвесторов — преподаватели Стэнфорда, руководители телекоммуникационных компаний и исследователи ИИ из Anthropic.
Вместо использования существующих инструментов оркестрации, таких как Vapi и LiveKit, AethexAI разработала собственную небольшую модель и уровень оркестрации с нуля. Это позволяет обрабатывать местные диалекты английского, французского и арабского языков, распространённые на целевых рынках. Такое решение было обусловлено особыми требованиями работы в регионе.
Компания также запускает свою платформу, предлагая предприятиям протестировать технологии и воспользоваться услугами, а также предоставляя API-интерфейсы и комплекты разработки ПО (SDK) для разработчиков, желающих экспериментировать с их моделями.
Стартап основан Мариамой Диалло и Айюлувой Одемуйивой. Генеральный директор Диалло ранее работала в Goldman Sachs, а затем присоединилась к ModelML, поддерживаемой акселератором Y Combinator, в качестве специалиста по развитию продуктов и росту. Технический директор Одемуйива окончил Калтех, работал в Meta* и учился в Стэнфордской школе бизнеса, прежде чем стать соучредителем компании. Основатели стремились создать что-то для развивающихся рынков и активно искали возможности.
Проблемы регионального рынка
Компании по всему миру активно внедряют ИИ-инструменты для автоматизации части своих операций. Однако это не всегда приводит к успеху. В Египте один из колл-центров автоматизировал значительную долю звонков, но впоследствии отказался от системы из-за неудовлетворительных результатов, как выяснилось в ходе анализа рынка основателями. Несколько центров поддержки клиентов в Африке сообщили, что поиск и найм инженеров для автоматизации звонков по приемлемой цене является постоянной проблемой.
Как сообщил Айюлува Одемуйива изданию TechCrunch, "задержки и нестабильность сигнала, которые были зафиксированы на автоматизированных звонках в этом регионе, оказались неприемлемыми. Если бы мы использовали сторонние инструменты оркестрации, нам, возможно, пришлось бы применять крупные модели, размещённые за пределами региона, что привело бы к ещё большим задержкам. Мы осознали, что для успешной работы необходимо использовать очень небольшие модели и минимизировать задержки на каждом этапе". Это стало причиной решения компании разрабатывать собственные модели и уровень оркестрации.
Технологии и обучение
Лаборатории ИИ, внедряющие свои новейшие модели, обычно тратят миллионы долларов на их обучение и сбор данных. AethexAI нашла решение для обеих задач. Вместо погони за максимально крупными моделями, компания пришла к выводу, что небольших моделей достаточно для решения проблемы задержек при сохранении точности. Она разработала собственную серию Kora с числом параметров от 300 миллионов до 1,7 миллиарда. Это лишь малая часть размера крупномасштабных языковых моделей (LLM), что и является ключевым преимуществом.
Для обучения этих моделей стартап использовал обезличенные записи от партнёрского колл-центра. Компания также отправляла жёсткие диски на радиостанции по всей Африке для сбора дополнительных аудиоданных. Чтобы снизить затраты, она создала сеть волонтёров из числа студентов университетов для разметки данных и записи произношения местных имён. В результате, по данным стартапа, сейчас система обрабатывает более 17 000 звонков в день.
Внедрение и развитие бизнеса
В сфере бизнеса компания тщательно консультирует клиентов, которые только начинают знакомиться с голосовым ИИ. AethexAI предлагает демонстрации на месте и семинары, чтобы помочь им определить наилучшие варианты использования автоматизации.
Как заявила Диалло, компания всегда подчёркивает клиентам: "Мы не можем быть всем для всех прямо сейчас. Мы небольшой стартап. Когда мы начинаем переговоры с компанией, мы просим их выбрать один наиболее важный вариант использования для начала работы".
Стартап открыт для работы во всех отраслях, но на данный момент большая часть его кейсов связана со звонками для взыскания задолженностей, активации клиентов или верификации KYC ("Знай своего клиента") — стандартной процедуры проверки личности, используемой банками и телекоммуникационными компаниями. Компания нанимает удалённых инженеров на контрактной основе для обслуживания местных рынков и налаживает партнёрские отношения с телекоммуникационными провайдерами для обеспечения телефонии для голосовых ИИ-звонков. Готовые решения ("plug-and-play"), по мнению компании, здесь просто не сработают.
Особенности рынка Африки и Ближнего Востока
Уолтер Баду, соучредитель и управляющий партнёр 4DX Ventures, считает, что рынок Африки и Ближнего Востока принципиально отличается от рынков, для которых создавалось большинство компаний, занимающихся голосовым ИИ.
"Предприятия в Африке и на Ближнем Востоке обрабатывают примерно в три раза больше звонков, чем их западные аналоги, поскольку голосовая связь по-прежнему остаётся доминирующим каналом взаимодействия с клиентами, — отметил он. — Существующие системы были разработаны для западных рынков, характеризующихся высокопроизводительной инфраструктурой на базе графических процессоров, стандартными англоязычными и европейскими речевыми средами, а также стандартными бизнес-процессами, распространёнными в США и Европе. Это создаёт реальные пробелы, когда предприятиям требуются системы, способные обрабатывать диалекты, переключение кодов (смену языка или стиля речи) и неформальные речевые особенности, а также работать в рамках существующей телефонной инфраструктуры и их реальными ценовыми ожиданиями".
Иными словами, в то время как такие компании, как ElevenLabs, Deepgram, Sierra и Cognigy, активно расширяются по всему миру, рынки, для которых они были созданы, и рынки, на которые они выходят, не всегда совпадают. Стартапы, подобные AethexAI, делают ставку на то, что существующие пробелы — модели, специализированные на местных диалектах, партнёрства на местах, инфраструктура, созданная для региона — представляют собой рыночную нишу, которую гиганты не имеют ни стимулов, ни архитектурных возможностей заполнить.
* — деятельность компании запрещена на территории РФ