Исследователь поисковых систем объясняет перспективы и опасности предоставления ChatGPT и его «родственникам» возможности искать информацию в Интернете за вас.
До того, как поисковые системы стали нормой, известная модель поиска информации была в виде библиотекарей и экспертов по поиску, предоставляющих необходимую информацию. Информация в свою очередь была интерактивной, персонализированной, прозрачной и авторитетной. Сегодня поисковые системы являются основным способом доступа к информации для большинства людей, но введение нескольких ключевых слов и получение списка результатов, ранжированных по какой-то неизвестной функции, не является идеальным.
Новое поколение систем доступа к информации на основе искусственного интеллекта, к которым относятся Bing/ChatGPT от Microsoft, Google/Bard и Meta/LLaMA, меняет традиционный способ ввода и вывода информации с помощью поисковых систем. Эти системы способны искать по целым предложениям и даже абзацам и генерировать персонализированные ответы на естественном языке.
На первый взгляд, это может показаться лучшим вариантом: индивидуальные ответы в сочетании с широтой и глубиной знаний в Интернете. Но как исследователь, изучающий поисковые и рекомендательные системы, я считаю, что ситуация в лучшем случае неоднозначна.
Системы искусственного интеллекта, такие как ChatGPT и Bard, построены на больших языковых моделях. Языковая модель — это метод машинного обучения, который использует большой объем доступных текстов, таких как статьи из Википедии и PubMed, для изучения закономерностей. Проще говоря, эти модели определяют, какое слово, скорее всего, будет следующим, учитывая набор слов или фразу. Таким образом, они могут генерировать предложения, абзацы и даже страницы, соответствующие запросу пользователя. 14 марта 2023 года OpenAI анонсировала следующее поколение этой технологии, GPT-4, которая работает как с текстом, так и с изображениями, а Microsoft объявила, что ее разговорный Bing основан на GPT-4.
Далее рассмотрим, что было озвучено в онлайн программе «60 минут«, где разобрали положительные и отрицательные стороны ChatGPT
Благодаря обучению на больших массивах текста, тонкой настройке и другим методам машинного обучения, этот тип информационного поиска работает достаточно эффективно. Системы на основе больших языковых моделей генерируют персонализированные ответы на информационные запросы. Результаты оказались настолько впечатляющими, что ChatGPT достиг 100 миллионов пользователей за треть времени, которое потребовалось TikTok для достижения этого рубежа. Люди использовали его не только для поиска ответов, но и для постановки диагнозов, составления планов диеты и рекомендаций по инвестициям.
Непрозрачность ChatGPT и «галлюцинации» ИИ
Однако есть и множество минусов. Во-первых, рассмотрим, что лежит в основе большой языковой модели. Это механизм, с помощью которого она соединяет слова и предположительно их значения. В результате у ИИ часто получаются ответы которые кажутся интеллектуальными, однако известно, что системы с большими языковыми моделями могут выдавать почти пересказанные тексты без реального понимания сути. Таким образом, хотя генерируемый такими системами результат может показаться умным, он является лишь отражением базовых моделей слов, которые ИИ нашел в соответствующем контексте.
Это ограничение делает большие системы языковых моделей восприимчивыми к выдумыванию или «галлюционированию» ответов. Системы также недостаточно умны, чтобы понять неверно поставленный вопрос и в любом случае отвечают, даже на ошибочные вопросы. Например, на вопрос, лицо какого президента США изображено на 100-долларовой купюре, ChatGPT отвечает Бенджамин Франклин, не понимая, что Франклин никогда не был президентом и что предпосылка о том, что на 100-долларовой купюре изображен президент США, неверна.
Проблема в том, что даже если эти системы ошибаются только в 10% случаев, вы не знаете, какие именно это случаи. Также у людей нет возможности быстро проверить ответы систем ИИ. Это происходит потому, что этим системам не хватает прозрачности — они не раскрывают, на каких данных они обучаются, какие источники они использовали для получения ответов и как эти ответы генерируются.
Например, вы можете попросить ChatGPT написать технический отчет с цитатами. Но часто он придумывает эти цитаты — придумывая названия научных статей, а также их авторов. Также системы не проверяют точность своих ответов и она остается на усмотрение пользователя, а у пользователей может не быть мотивации или навыков для этого, или даже осознания необходимости проверки ответов ИИ. ChatGPT не знает, когда вопрос не имеет смысла, потому что он не знает никаких фактов.
ИИ крадет контент и трафик
ChatGPT не знает, когда вопрос не имеет смысла, потому что он не знает никаких фактов. Хотя отсутствие прозрачности может быть вредным для пользователей, оно также несправедливо по отношению к авторам, художникам и создателям оригинального контента, из которого системы черпают информацию, поскольку системы не раскрывают свои источники и не предоставляют подтверждения почему они уверены в истинности предоставляемой информации. В большинстве случаев авторам контента не выплачивают компенсацию, не ставят в заслугу и не дают возможности дать свое согласие на использование контента.
В этом есть и экономический аспект. В типичной среде поисковых систем результаты показываются со ссылками на источники. Это не только позволяет пользователю проверить ответы и указать источники, но и генерирует трафик для этих сайтов. Многие из этих источников полагаются на этот трафик для получения дохода. Поскольку системы с большими языковыми моделями дают прямые ответы, но не указывают источники, из которых они черпают информацию, есть предположение, что эти сайты, скорее всего, столкнутся с уменьшением своих доходов.
Большие языковые модели могут лишить нас способности к обучению и интуиции
Наконец, этот новый способ доступа к информации также может лишить людей возможности учиться. Обычный процесс поиска позволяет пользователям изучить спектр возможностей для удовлетворения своих информационных потребностей, часто заставляя их корректировать то, что они ищут. Он также дает им возможность узнать, что существует и как связать различные части информации между собой для удовлетворения потребностей пользователей. Это в свою очередь дает возможность случайного нахождения информации или поиска с помощью интуиции.
Это очень важные аспекты поиска, но когда система выдает результаты, не показывая своих источников и не дает управлять пользователю поисковым процессом, она лишает его этих возможностей. Большие языковые модели — это огромный шаг вперед для доступа к информации, они предоставляют людям возможность взаимодействовать на естественном языке, получать персонализированные ответы и обнаруживать ответы и закономерности, которые обычному пользователю зачастую трудно придумать. Но у ИИ есть серьезные ограничения, связанные с тем, как они учатся и строят ответы. Их ответы могут быть неправильными, токсичными или предвзятыми.
В то время как другие системы доступа к информации тоже могут страдать от этих проблем, системы ИИ на основе больших языковых моделей также не обладают прозрачностью. Хуже того, их ответы на естественном языке могут способствовать возникновению ложного доверия и авторитетности, что может быть опасно для неосведомленных пользователей.
Перевод статьи: Is ChatGPT Closer to a Human Librarian Than It Is to Google?