Что такое видение ChatGPT? 7 способов, которыми люди используют эту дикую новую функцию

ChatGPT теперь может читать изображения и отвечать на них, и в отличие от мрачности и уныния, которые обычно сопровождают новости о том, что ИИ становится более мощным, эта новая возможность, похоже, привлекла интерес пользователей ИИ.

OpenAI называет эту функцию GPT-4 с видением (GPT-4V). Способность интерпретировать изображения, а не только текстовые подсказки, делает чат-бота с искусственным интеллектом «мультимодальной» моделью большого языка (потому что нам действительно нужно больше жаргона искусственного интеллекта) и потенциально может изменить то, как люди используют ИИ. Вот все, что мы знаем об этом на данный момент.

Что такое GPT-4V и как мне получить к нему доступ?

Имея учетную запись ChatGPT Plus за 20 долларов в месяц, вы можете загрузить изображение в приложение ChatGPT на iOS или Android и задать ему вопрос. Например, дайте ему фотографию еды в ресторане и спросите: «Как мне это приготовить?» Чат-бот отсканирует изображение и вернет предложенный рецепт.

Приложения кажутся бесконечными. ОпенАИ говорит мультимодальности являются «ключевым рубежом в исследованиях и разработках в области искусственного интеллекта», поскольку они расширяют круг задач, в решении которых эти системы могут помочь пользователям. Группа исследователей Microsoft называется GPT-4V стал «рассветом LLM» и пришел к выводу, что GPT-4V может «дать начало новым методам взаимодействия человека и компьютера».

Как OpenAI создала GPT-4V?

Хотя GPT-4V является новой для публики, OpenAI работает над ним с прошлого года, возможно, до того, как чат-бот был публично выпущен в ноябре 2022 года, согласно сообщению технический документ. Тестирование и обучение пользователей началось в марте 2023 года.

«Поскольку GPT-4 — это технология, лежащая в основе визуальных возможностей GPT-4V, процесс ее обучения был таким же», — говорит OpenAI. Компания передавала ему все более и более сложные данные, используя ту же технику, что и текстовые подсказки — обучение с подкреплением на основе обратной связи человека (RLHF), — чтобы научить его давать ответы, которые нравятся людям.

В ходе этого процесса OpenAI обнаружила достаточно проблем, из-за которых запуск этой функции был отложен на данный момент. К чести компании, она попыталась найти способы, при которых система может дать сбой или действовать неэтично. Сюда входят запросы на вредоносный или незаконный контент, неточности, основанные на демографических данных, таких как раса и пол, а также нарушения кибербезопасности, такие как решение CAPTCHA и взлом тюрьмы.

Внешне OpenAI привлекла ученых и врачей для проверки рекомендаций GPT4-V, обнаружив многочисленные неточности.

GPT-4V неточно идентифицирует химические структуры и ядовитые продукты. (Фото: OpenAI)

Что касается дезинформации и социального вреда, ранние версии GPT-4V содержали неуместные комментарии по деликатным темам, например, следует ли нанимать на работу беременную женщину или кого-то из определенной страны. Система также не распознает символы, используемые группами ненависти, или вредоносные фразы.

После всех этих испытаний OpenAI заявляет, что ей удалось улучшить систему настолько, чтобы она стала приемлемой для публичного использования, ссылаясь на тот факт, что, например, 97,2% запросов на «незаконные советы» теперь отклоняются.

Ранние версии GPT-4V повторяют «необоснованные» стереотипы, но стартовая версия отклоняет запрос. (Фото: OpenAI)

Работа все еще продолжается. OpenAI заявляет, что у нее есть «фундаментальные вопросы относительно поведения, в котором моделям следует или не следует разрешать участвовать». Это включает в себя, следует ли ему идентифицировать общественных деятелей на изображениях и делать выводы о расе, поле или эмоциях людей на изображении (и может ли он сделать это точно). Его производительность на языках, отличных от английского, также находится на низком уровне.

Пользователи также могут заметить неточности. Например, исследовательская группа Microsoft обнаружила, что GPT-4V неправильно отвечал на некоторые простые графические запросы, например, неправильно считывал показания спидометра.

(Фото: The Dawn of LMM: предварительные исследования с GPT-4V(ision), https://arxiv.org/abs/2309.17421)

Как использовать GPT-4V

Хотя мы можем ожидать, что GPT-4V со временем будет продолжать совершенствоваться, то, на что он способен сегодня, просто невероятно. Вот несколько способов, с которыми пользователи ChatGPT Plus уже экспериментируют.

1. Получите второе мнение

Эта художница спросила, как сделать ее работы более реалистичными. Вы даже можете попросить ChatGPT раскритиковать собственные творения ИИ от Dall-E.

Твитнуть

Дизайнер продукта представил веб-макет, и GPT-4V заметил несколько сильных и слабых сторон, например отсутствие панели навигации вверху.

Твитнуть

2. Отвечайте на извечные вопросы, например: «Где Уолдо?»

Бонусные баллы, если вы найдете кого-нибудь в настоящий жизнь по имени Уолдо. Интересный факт: использование имени резко упал с момента своего пика 1915 года.

Твитнуть

3. Определите неясные изображения

Один пользователь превратил GPT-4V в младшего картографа, попросив его идентифицировать старую карту.

4. Напишите код

Возьмите сеанс работы с доской от концепции к реальности или попросите его создать веб-страницу, вдохновленную изображением. (Можем ли мы добавить парикмахеров с искусственным интеллектом в следующий раз?)

Твитнуть

5. Интерпретируйте сложные диаграммы

Приложения для выполнения домашних заданий и работы-работы могут быть бесконечными.

Твитнуть

6. Избегайте штрафов за парковку

Следующее, что мы узнаем, скриншоты ChatGPT могут оказаться в суде: «ChatGPT сказал, что я могу припарковаться здесь!»

Твитнуть

7. Определите ориентиры

Приложение ChatGPT может помочь вам получить максимальную пользу от путешествий или, по крайней мере, помочь ответить на вопросы ваших детей.

(Фото: The Dawn of LMM: предварительные исследования с GPT-4V(ision), https://arxiv.org/abs/2309.17421)

Являются ли мультимодальные LLMS будущим искусственного интеллекта?

Несмотря на весь ажиотаж вокруг ИИ за последний год, становится все труднее сказать, какие тенденции сохранятся. Последнее «изменяющее правила игры» обновление OpenAI для ChatGPT — плагины — изначально вызвало в социальных сетях такой же шторм людей, публикующих свои примеры, но с тех пор утих. Другие функции, такие как функция «Просмотр с помощью Bing», которая предоставляет чат-боту доступ к данным до 2021 года, были включены, затем отключены после использования для незаконной деятельности и теперь снова включены.

Ориентировочно то, что мы видим на GPT-4V, кажется многообещающим. ” [AI] сообщество может больше перейти к видению/восприятию», — говорит Хао Чжан, профессор Калифорнийского университета в Сан-Диего (UCSD), который занимается оценкой программ LLM.

OpenAI также недавно инвестировала в улучшенную версию своего генератора изображений Dall-E и объявила о планах интегрировать его в ChatGPT.

Следите за конкурирующими чат-ботами. Будет ли Google интегрировать Lens в Bard? Возможно, это еще одна вспышка, но это может быть верхушка айсберга ИИ.

Что такое видение ChatGPT? 7 способов, которыми люди используют эту дикую новую функцию

Что такое GPT-4V и как мне получить к нему доступ?

Как OpenAI создала GPT-4V?