Meta випустила новий інструмент штучного інтелекту з відкритим кодом — NotebookLlama, який може створювати подкасти на основі PDF-файлів, ніби дві людини вільно спілкуються на задану тему. Детальну інструкцію опублікували на GitHub.
Для перетворення тексту на подкаст NotebookLlama використовує три різні моделі Llama 3.1, випущені в липні цьогоріч. Отже, як це працює:
- Meta пропонує використовувати маленьку модель 1B, щоб обробити PDF і зберегти його в текст;
- Далі потужніша 70B напише сценарій та репліки майбутнього подкасту.
- На третьому етапі модель 8B додасть реплікам жартів і драматизму;
- Потім Parler і Suno перетворять цей текст на аудіо.
У примітках Meta каже, що не обов’язково на другому етапі використовувати саме 70B (для її запуску потрібен графічний процесор з агрегованою пам’яттю близько 140 ГБ). Натомість можна спробувати замінити її на меншу 8B.
Загалом розробники кажуть, що запропоновані моделі — це лише рекомендації, і можна експерементувати з іншими на кожному кроці, але тоді результати відрізнятимуться.
Один із користувачів Х уже затестив NotebookLlama та опублікував результат. Він каже, що є недоліки, але звучить досить добре. А журналісти TechCrunch порівняли результат ШІ-інструмента Meta з конкурентом від Google — NotebookLM.
Пишуть, що NotebookLlama проявив себе гірше за конкурента, адже голоси «мають явно роботизовану якість і мають тенденцію перекрикувати один одного в незрозумілих місцях». Ну і ще одна проблема, яку поки не вирішила жодна компанія — це галюцинації, які можуть траплятися також і в подкастах.