Система дає змогу налаштовувати як сам голос, так і його стиль звучання, тембр і емоційність
OpenAI оновила моделі ШІ для транскрипції та генерації голосу / фото Dall-E
Розробник ChatGPT OpenAI представив голосові моделі нового покоління для перетворення тексту в мову і назад. У компанії кажуть, що ці моделі засновані на «передових алгоритмах машинного навчання».
Система дає змогу не тільки конвертувати текст у мову, а й налаштовувати як сам голос, так і його стиль звучання, тембр і емоційність. Наприклад, можна змусити модель говорити «як пірат» або оповідач дитячих казок. Доступні пресети, але є і можливість вводити інструкції вручну.
Крім цього, OpenAI поліпшила свою технологію розпізнавання мови. Нові моделі gpt-4o-transcribe і gpt-4o-mini-transcribe тепер припускаються менше помилок при перетворенні мовлення на текст навіть у складних умовах, як-от сильний акцент, галаслива обстановка і різна швидкість мовлення.
Відео дня
Розробка орієнтована на підвищення інтуїтивності взаємодії зі штучним інтелектом, роблячи її більш інтуїтивною і наближеною до реального спілкування. Оновлені голосові моделі можна легко інтегрувати в різні додатки та сервіси.
Нові моделі вже доступно розробникам через API, також є можливість протестувати його на спеціальному сайті всім охочим.
Раніше ЗМІ дізналися, що OpenAI планує стягувати до 1 мільйона гривень на місяць за доступ до найпотужнішого та найпередовішого ШІ. Такі моделі буду націлені на підтримку «досліджень рівня доктора наук».
Далі в планах в OpenAI випуск GPT-5. Очікується, що це буде не просто нова мовна модель, а революція у світі ШІ. Вона буде здатна вивчити будь-яке завдання, які люди зможуть придумати. Це зробить її не відрізнятиметься від людини.