ИИ-поисковики поймали на лжи
|
Поисковые инструменты с использованием искусственного интеллекта быстро набирают популярность, и почти каждый четвертый американец в настоящее время говорит, что использовал искусственный интеллект вместо традиционных поисковых систем. Ценность этих инструментов заключается в поиске в Интернете актуальной информации - контента, который часто создается издателями новостей. |
Однако возник тревожный дисбаланс: в то время как традиционные поисковые системы обычно выступают в роли посредника, направляя пользователей на новостные сайты и другой качественный контент, инструменты генеративного поиска сами анализируют и переупаковывают информацию, перекрывая поток трафика к оригинальным источникам. За диалогами, которые выводят эти чат-боты, часто скрываются серьезные проблемы с качеством информации. Существует настоятельная необходимость оценить, как эти системы получают доступ к новостному контенту, представляют его и цитируют. |
Основываясь на нашем предыдущем исследовании, Центр цифровой журналистики Tow провел тестирование восьми инструментов генерирующего поиска с функциями живого поиска, чтобы оценить их способность точно извлекать новостной контент и цитировать его, а также то, как они ведут себя, когда не могут этого сделать. |
![]() |
Мы обнаружили, что… |
- Чат-боты, как правило, не умели отвечать на вопросы, на которые они не могли ответить точно, предлагая вместо этого неверные или спекулятивные ответы. |
- Чат-боты премиум-класса давали более достоверные неверные ответы, чем их бесплатные аналоги. |
- Многочисленные чат-боты, похоже, обходили настройки протокола исключения роботов. |
- Инструменты генеративного поиска создавали ссылки и цитировали синдицированные и скопированные версии статей. |
- Соглашения о лицензировании контента новостных источников не гарантировали точного цитирования в ответах чат-ботов. |
Наши результаты соответствовали результатам нашего предыдущего исследования, доказывая, что наши наблюдения являются не просто проблемой ChatGPT, а скорее повторяются во всех известных инструментах генеративного поиска, которые мы тестировали. |
Методология |
Мы случайным образом отобрали по десять статей от каждого издателя, затем вручную отобрали прямые выдержки из этих статей для использования в наших запросах. Предоставив каждому чат-роботу выбранные выдержки, мы попросили его указать заголовок соответствующей статьи, оригинального издателя, дату публикации и URL-адрес, используя следующий запрос: |
Мы намеренно выбрали отрывки, которые при вводе в традиционный поиск Google выдавали бы первоисточник в первых трех результатах. В общей сложности мы выполнили тысячу шестьсот запросов (двадцать издательств умножить на десять статей и восемь чат-ботов). Мы вручную оценивали ответы чат-бота на основе трех атрибутов: получение (1) правильной статьи, (2) правильного издателя и (3) правильного URL-адреса. В соответствии с этими параметрами каждый ответ был помечен одной из следующих меток: |
- Правильно: все три атрибута были правильными. |
- Правильный, но неполный: некоторые атрибуты были правильными, но в ответе отсутствовала информация. |
- Частично неверный: Некоторые атрибуты были правильными, в то время как другие были неправильными. |
- Полностью неверный: Все три атрибута были неправильными и/или отсутствовали. |
- Не предоставлено: информация не была предоставлена. |
- Поисковый робот заблокирован: Издатель запрещает поисковый робот чат-бота в своем robots.txt. |
Источник |
При использовании материалов с сайта активная ссылка на него обязательна
|