Нейросетям нашлось новое применение — сжимать звук в десятки раз лучше, чем MP3

2 года назадИИ

Французский математик Фабрис Беллар создал новый звуковой формат — TSAC. Он ориентирован на потоковую передачу аудио с очень низким битрейтом и показывает себя намного эффективнее, чем MP3 и другие популярные форматы.

Беллар — один из создателей технологий QEMU, FFmpeg, BPG, QuickJS, TinyGL и TinyCC, и он использовал часть своих наработок при программировании стандарта TSAC. В качестве основы был взят кодек Descript, переведённый на использование в стереорежиме и дополненный моделями машинного обучения на базе нейросети. Это позволило получить очень высокую степень сжатия с реконструкцией утерянных нюансов звучания с учётом слухового восприятия человеком.

TSAC предусматривает кодирование аудиосигнала с шириной потока 5,5 кбит/с для моно и 7,5 кбит/с для стерео. Для сравнения: несжатый звук на компакт-диске передаётся в потоке 1411,2 кбит/с. Кодировщик формата TSAC может задействовать вычислительные мощности центрального процессора, а для достижения максимальной эффективности необходимы ИИ-ресурсы видеокарты (поддерживаются ускорители NVIDIA на микроархитектур Ampere, ADA и Hopper — RTX 3090, RTX 4090, RTX A6000, A100 и H100). Модель кодировщика занимает в памяти компьютера всего 200 МБ.

TSAC может составить конкуренцию MP3, AAC, Vorbis OGG и другим популярным форматам. Несмотря на использование с крайне низким битрейтом, он подходит для потоковой передачи не только голоса, но и музыки.

Подписаться на iGuides в Telegram, чтобы узнать обо всем первым

Виталий Показать другие его статьи Подписаться на RSS