Джокер
Администратор
- Регистрация
- 1 Янв 2015
- Сообщения
- 124.776
- Реакции
- 75.716
Складчина: Инструмент для быстрой и качественной транскрибации аудио в текст на основе современной ИИ
Приветствую коллег складчиков. Предлагаю вашему вниманию складчину на инструмент который может быть полезен многим. Он не разрабатывался специально на продажу для складчика. Потребность возникла спонтанно во время работы по своим направлениям. Но почему бы не поделиться эффективным решением с коллегами?
Старые искатели методов заработка в интернет еще помнят те времена когда на сайтах фриланса были вакансии работы по транскрибации (превращение аудио в текст). Технический прогресс не стоит на месте. И теперь личного фрилансера транскрибатора можно поселить у себя в компьютере и нагружать его по полной.
Предлагаю вашему вниманию софт с помощью которого можно, загрузив видео или аудио, получить качественную текстовую расшифровку. Чтобы понять о чем мы говорим, можно зайти на сервис turboscribe.ai и авторизировавшись с аккаунтом google попробовать 3 транскрибации которые бесплатно доступны в сутки. Мое решение это приблизительный аналог который разрабатывался для собственных нужд, без необходимости грузить файлы в интернет. Загрузка требует времени и может быть принципиальным фактором для скорости в работе. Софт использует Faster Whisper от OpenAI.
Подробнее о функциях. В начале работы требуется добавить нужное количество видео или аудио файлов в исходную папку следующих доступных форматов, они будут обработаны по очереди:
Видео: .mp4, .mov, .mkv, .webm, .avi, .flv, .wmv
Аудио: .mp3, .wav, .m4a, .aac, .ogg, .flac
Доступен такой формат вывода результатов:
1. Обычный текст в файле .txt (без таймкодов).
2. Текст с таймкодами фраз в файле .txt.
3. Текст с таймкодами слов в файле .txt.
4. SRT субтитры (для видеоплееров).
5. Все форматы сразу (1, 2, 3, 4).
Вывод доступен в одном из двух вариантов:
1. В оригинальном языке видео или аудио.
2. В переводе на английский язык.
Для работы используется одна из моделей Faster-Whisper которую нужно выбрать. Она скачивается один раз и сохраняется в C:\Users\Username\.cache\huggingface\hub\
где Username - имя пользователя компьютера (задается при установке системы). Во время следующего запуска, если модель уже скачана, то работа по транскрибации начинается сразу и не тратится время на скачивание.
Доступны следующие модели и указано сколько места они занимают на диске:
1. tiny - самая быстрая, базовое качество (~75MB)
2. base - быстрая, хорошее качество (~140MB)
3. small - средняя, отличное качество (~460MB)
4. medium - медленная, превосходное качество (~1.5GB) [РЕКОМЕНДУЕТСЯ]
5. large-v2 - очень медленная, лучшее качество (~3GB)
6. large-v3 - новейшая, максимальное качество (~3GB)
(если выбирать между large-v2 и large-v3, то стоит выбрать large-v3 так как она новее и работает лучше, при этом занимает места так же. Я на постоянной основе использую модель medium, которая мне подходит как по качеству так и скорости.
Рассмотрим самый больной вопрос. Это быстродействие.
Предлагаю два варианта софта:
1. LITE. Занимает 1 Гб на диске. (Не считая модели которые будут скачиваться отдельно). Эта версия использует только процессор (CPU) для транскрибации.
2. FULL. Занимает 4,9 Гб на диске. (Не считая модели которые будут скачиваться отдельно). Эта версия использует видеокарту NVIDIA для ускоренной транскрибации. Для ускорения используются только современные видеокарты NVIDIA. Это очень важно.
ПОДДЕРЖИВАЕМЫЕ ВИДЕОКАРТЫ:
Отлично работают:
• RTX 50 серия (5050, 5060, 5070, 5080, 5090)
• RTX 40 серия (4050, 4060, 4070, 4080, 4090)
• RTX 30 серия (3050, 3060, 3070, 3080, 3090)
• RTX 20 серия (2060, 2070, 2080)
Работают хорошо (теоретически):
• GTX 16 серия (1650, 1660)
• GTX 10 серия (1050, 1060, 1070, 1080)
НЕ поддерживаются:
• AMD/Radeon видеокарты
• Intel встроенная графика
• Apple M1/M2/M3/M4
Естественно, что возможности тестирования на разных машинах с разными видеокартами нет. Поэтому гарантировать что FULL версия будет работать с вашей видеокартой я не могу. Точнее FULL версия будет работать в любом случае. Но если она не сможет задействовать видеокарту, то будет использовать только процессор и следовательно скорость обработки будет приблизительно в 5 раз меньше.
LITE версия отличается от FULL только размерами. LITE версия для работы выбирается на случай если ваша видеокарта не подходит для FULL, но транскрибация нужна, и при этом не хочется чтобы на диске было занято лишнее место.
Резюмирую еще раз. Для ускоренной транскрибации с FULL версией нужна современная видеокарта NVIDIA. Если у вас более менее современный и мощный процессор но нет дискретной видеокарты то LITE версия будет делать нужную работу, но приблизительно от 5 раз медленнее.
Софт разрабатывался для личного использования и для машины которая есть в наличии.
Приведу примеры характеристик своего железа и скорости обработки аудио файла:
1. Проц - Core i7-13700HX 16 ядер
2. Оператиная память - 32 ГБ
3. Видеокарта - GeForce RTX 5050 8 ГБ
Аудио файл длительностью 9.5 минут был обработан на модели medium:
LITE версия - за 5 минут.
FULL версия - за 1 минуту.
Аудио файл длительностью 1 час был обработан на модели medium:
LITE версия - за 32 минуты.
FULL версия - за 6 минут.
Также проведено тестирование FULL версии на не намного более слабой машине с видеокартой GeForce RTX 4050 6 ГБ. Аудио файл длительностью 9.5 минут был обработан на модели medium FULL версией также за 1 минуту. Результаты у вас могут значительно отличаться в зависимости от используемой модели и от железа вашей машины. Древние машины со слабым железом для работы софта рассматривать не следует.
Чтобы максимально избежать не досказанности сейчас и избежать претензий и возврата средств после покупки было принято решение разработать ДЕМО FULL версию которой можно протестировать скорость обработки аудио или видео файлов.
Для этого нужно: скачать софт - распаковать - добавить файл (ы) для обработки - скачать нужную модель во время первого запуска - протестировать как быстро происходит обработка.
Для ДЕМО доступна обработка 5 файлов. Если кто желает тестировать перед покупкой, то прошу оставить заявку ниже в обсуждении. На этом описание заканчиваю. Кому интересен функционал и возможность экономии времени и денег милости просим.
Уточнения:
1. Привязка осуществляется на 2 компьютера. Перепривязка возможна по запросу.
2. Работа тестировалась на Windows 10/11. На более ранних версиях и на Mac не тестировалась, поэтому гарантию по работе дать не могу.
3. Поддержка осуществляется бессрочно, но с условием пока есть возможность использовать Faster-Whisper бесплатно.
СКАЧАТЬ СЛИВЫ КУРСОВ
Приветствую коллег складчиков. Предлагаю вашему вниманию складчину на инструмент который может быть полезен многим. Он не разрабатывался специально на продажу для складчика. Потребность возникла спонтанно во время работы по своим направлениям. Но почему бы не поделиться эффективным решением с коллегами?
Старые искатели методов заработка в интернет еще помнят те времена когда на сайтах фриланса были вакансии работы по транскрибации (превращение аудио в текст). Технический прогресс не стоит на месте. И теперь личного фрилансера транскрибатора можно поселить у себя в компьютере и нагружать его по полной.
Предлагаю вашему вниманию софт с помощью которого можно, загрузив видео или аудио, получить качественную текстовую расшифровку. Чтобы понять о чем мы говорим, можно зайти на сервис turboscribe.ai и авторизировавшись с аккаунтом google попробовать 3 транскрибации которые бесплатно доступны в сутки. Мое решение это приблизительный аналог который разрабатывался для собственных нужд, без необходимости грузить файлы в интернет. Загрузка требует времени и может быть принципиальным фактором для скорости в работе. Софт использует Faster Whisper от OpenAI.
Подробнее о функциях. В начале работы требуется добавить нужное количество видео или аудио файлов в исходную папку следующих доступных форматов, они будут обработаны по очереди:
Видео: .mp4, .mov, .mkv, .webm, .avi, .flv, .wmv
Аудио: .mp3, .wav, .m4a, .aac, .ogg, .flac
Доступен такой формат вывода результатов:
1. Обычный текст в файле .txt (без таймкодов).
2. Текст с таймкодами фраз в файле .txt.
3. Текст с таймкодами слов в файле .txt.
4. SRT субтитры (для видеоплееров).
5. Все форматы сразу (1, 2, 3, 4).
Вывод доступен в одном из двух вариантов:
1. В оригинальном языке видео или аудио.
2. В переводе на английский язык.
Для работы используется одна из моделей Faster-Whisper которую нужно выбрать. Она скачивается один раз и сохраняется в C:\Users\Username\.cache\huggingface\hub\
где Username - имя пользователя компьютера (задается при установке системы). Во время следующего запуска, если модель уже скачана, то работа по транскрибации начинается сразу и не тратится время на скачивание.
Доступны следующие модели и указано сколько места они занимают на диске:
1. tiny - самая быстрая, базовое качество (~75MB)
2. base - быстрая, хорошее качество (~140MB)
3. small - средняя, отличное качество (~460MB)
4. medium - медленная, превосходное качество (~1.5GB) [РЕКОМЕНДУЕТСЯ]
5. large-v2 - очень медленная, лучшее качество (~3GB)
6. large-v3 - новейшая, максимальное качество (~3GB)
(если выбирать между large-v2 и large-v3, то стоит выбрать large-v3 так как она новее и работает лучше, при этом занимает места так же. Я на постоянной основе использую модель medium, которая мне подходит как по качеству так и скорости.
Рассмотрим самый больной вопрос. Это быстродействие.
Предлагаю два варианта софта:
1. LITE. Занимает 1 Гб на диске. (Не считая модели которые будут скачиваться отдельно). Эта версия использует только процессор (CPU) для транскрибации.
2. FULL. Занимает 4,9 Гб на диске. (Не считая модели которые будут скачиваться отдельно). Эта версия использует видеокарту NVIDIA для ускоренной транскрибации. Для ускорения используются только современные видеокарты NVIDIA. Это очень важно.
ПОДДЕРЖИВАЕМЫЕ ВИДЕОКАРТЫ:
Отлично работают:
• RTX 50 серия (5050, 5060, 5070, 5080, 5090)
• RTX 40 серия (4050, 4060, 4070, 4080, 4090)
• RTX 30 серия (3050, 3060, 3070, 3080, 3090)
• RTX 20 серия (2060, 2070, 2080)
Работают хорошо (теоретически):
• GTX 16 серия (1650, 1660)
• GTX 10 серия (1050, 1060, 1070, 1080)
НЕ поддерживаются:
• AMD/Radeon видеокарты
• Intel встроенная графика
• Apple M1/M2/M3/M4
Естественно, что возможности тестирования на разных машинах с разными видеокартами нет. Поэтому гарантировать что FULL версия будет работать с вашей видеокартой я не могу. Точнее FULL версия будет работать в любом случае. Но если она не сможет задействовать видеокарту, то будет использовать только процессор и следовательно скорость обработки будет приблизительно в 5 раз меньше.
LITE версия отличается от FULL только размерами. LITE версия для работы выбирается на случай если ваша видеокарта не подходит для FULL, но транскрибация нужна, и при этом не хочется чтобы на диске было занято лишнее место.
Резюмирую еще раз. Для ускоренной транскрибации с FULL версией нужна современная видеокарта NVIDIA. Если у вас более менее современный и мощный процессор но нет дискретной видеокарты то LITE версия будет делать нужную работу, но приблизительно от 5 раз медленнее.
Софт разрабатывался для личного использования и для машины которая есть в наличии.
Приведу примеры характеристик своего железа и скорости обработки аудио файла:
1. Проц - Core i7-13700HX 16 ядер
2. Оператиная память - 32 ГБ
3. Видеокарта - GeForce RTX 5050 8 ГБ
Аудио файл длительностью 9.5 минут был обработан на модели medium:
LITE версия - за 5 минут.
FULL версия - за 1 минуту.
Аудио файл длительностью 1 час был обработан на модели medium:
LITE версия - за 32 минуты.
FULL версия - за 6 минут.
Также проведено тестирование FULL версии на не намного более слабой машине с видеокартой GeForce RTX 4050 6 ГБ. Аудио файл длительностью 9.5 минут был обработан на модели medium FULL версией также за 1 минуту. Результаты у вас могут значительно отличаться в зависимости от используемой модели и от железа вашей машины. Древние машины со слабым железом для работы софта рассматривать не следует.
Чтобы максимально избежать не досказанности сейчас и избежать претензий и возврата средств после покупки было принято решение разработать ДЕМО FULL версию которой можно протестировать скорость обработки аудио или видео файлов.
Для этого нужно: скачать софт - распаковать - добавить файл (ы) для обработки - скачать нужную модель во время первого запуска - протестировать как быстро происходит обработка.
Для ДЕМО доступна обработка 5 файлов. Если кто желает тестировать перед покупкой, то прошу оставить заявку ниже в обсуждении. На этом описание заканчиваю. Кому интересен функционал и возможность экономии времени и денег милости просим.
Уточнения:
1. Привязка осуществляется на 2 компьютера. Перепривязка возможна по запросу.
2. Работа тестировалась на Windows 10/11. На более ранних версиях и на Mac не тестировалась, поэтому гарантию по работе дать не могу.
3. Поддержка осуществляется бессрочно, но с условием пока есть возможность использовать Faster-Whisper бесплатно.
СКАЧАТЬ СЛИВЫ КУРСОВ
Для возможности скачивать складчины и сливы курсов нужно зарегистрироваться
Возможно, Вас ещё заинтересует:
- Другие сладости (январь 2026) [Школа Низкоуглеводных Десертов] [ketocake39] [Ася Гильмутдинова]
- Осенний Бог: Анатомия хандры + Наша песня. Дуэт с Фальшивой Нотой [Николай Щербатюк]
- Зеркало Иллюзий: Искусство видеть сквозь мифы [Николай Щербатюк]
- Как перепрограммировать свой мозг, чтобы взять контроль над жизнью [Николай Щербатюк]
- Просмотр дерева метаданных изменений модулей всех расширений с возможностью увидеть конфликты [Инфостарт]
- Клуб легкость и сила (январь 2026) [Анастасия Лунегова]
- Удобная консоль регламентных и фоновых заданий (Speedy) [Инфостарт]
- Калевала — воспоминание о будущем [liveclasses] [Алексей Шадрин]
- Строим LLM с нуля [Питер] [Себастьян Рашка]
- [Шитье] СП Январь 2026 [Сумочный Рай] [Светлана Костина]