Американська компанія Hugging Face повідомила про поповнення сімейства SmolVLM новими ШІ-моделями SmolVLM-500M та SmolVLM-256M. Остання, як стверджується у їхньому блозі, найменша Vision Language Model модель у світі.

У Hugging Face кажуть, що їхню попередню модель з відкритим вихідним кодом SmolVLM 2B спільнота прийняла «фантастично». Тож вони вирішили застосувати такий підхід для людей «з обмеженими пристроями». Наприклад, із звичайними ноутбуками.

«Наша нова модель 256M є найменшим VLM, який коли-небудь випускався, але вона перевершує продуктивність нашої моделі Idefics 80B, випущеної всього 17 місяців тому», — стверджує компанія.

SmolVLM-256M може виконувати багато завдань, заявляють у Hugging Face: робити субтитри, описувати зображення, відповіді на запитання про PDF-файли, відсканований текст, про графіки чи діаграми.

Для більшої продуктивності компанія пропонує SmolVLM-500M, яка також краще реагує на підказки.

Зображення Hugging Face

Команда використовувала для навчання нових моделей колекцію з 50 наборів зображень і текстів The Cauldron та набір сканів файлів з детальними підписами Docmatix, що були створені Hugging Face.