Вторник 02 июня 2026 года

 

Вы здесь:  Главная» Все новости» Технологии» К 2026 году могут закончиться данные для обучения искусственного интеллекта


К 2026 году могут закончиться данные для обучения искусственного интеллекта

Суббота, 11 Ноября 2023 21:11

Искусственный интеллект (ИИ) достигает пика своей популярности, а исследователи предупреждают, что в отрасли, возможно, заканчиваются обучающие данные – топливо, на котором работают мощные системы ИИ. Это может замедлить развитие моделей ИИ, особенно моделей больших языков, и даже изменить траекторию революции ИИ.

 

Но почему потенциальная нехватка данных является проблемой, учитывая их количество в сети? И есть ли способ устранить риск?

 

Нам нужно много данных для обучения мощных, точных и качественных алгоритмов ИИ. Например, ChatGPT обучался на 570 гигабайтах текстовых данных, или около 300 миллиардов слов.

 

Аналогичным образом, алгоритм стабильной диффузии (который лежит в основе многих приложений для создания изображений искусственного интеллекта, таких как DALL-E, Lensa и Midjourney) был обучен на наборе данных LIAON-5B, состоящем из 5,8 миллиардов пар «изображение-текст». Если алгоритм обучен на недостаточном объеме данных, он будет выдавать неточные или некачественные результаты.

 

Качество обучающих данных также важно. Данные низкого качества, такие как сообщения в социальных сетях или размытые фотографии, легко получить, но их недостаточно для обучения высокопроизводительных моделей ИИ.

 

Текст, взятый с платформ социальных сетей, может быть предвзятым или предвзятым или содержать дезинформацию или незаконный контент, который может быть воспроизведен моделью. 

 

Вот почему разработчики ИИ ищут высококачественный контент, такой как текст из книг, онлайн-статей, научных работ, Википедии и определенный отфильтрованный веб-контент. Google Assistant был обучен на 11 000 любовных романах, взятых с сайта самостоятельной публикации Smashwords, чтобы сделать его более разговорным.

 

Индустрия искусственного интеллекта обучает системы искусственного интеллекта на все более крупных наборах данных, поэтому теперь у нас есть высокопроизводительные модели, такие как ChatGPT или DALL-E 3. В то же время исследования показывают, что запасы онлайн-данных растут гораздо медленнее, чем используемые наборы данных. обучать ИИ.

 

Группа исследователей предсказала, что у нас закончатся высококачественные текстовые данные до 2026 года, если текущие тенденции обучения искусственному интеллекту сохранятся. По их оценкам, низкокачественные языковые данные будут исчерпаны где-то между 2030 и 2050 годами, а низкокачественные изображения — между 2030 и 2060 годами.

 

По данным бухгалтерской и консалтинговой группы PwC, к 2030 году искусственный интеллект может внести в мировую экономику до 15,7 триллиона долларов США. Но нехватка полезных данных может замедлить его развитие.

 

Хотя вышеперечисленные моменты могут встревожить некоторых поклонников ИИ, ситуация может быть не такой плохой, как кажется. Есть много неизвестного о том, как модели ИИ будут развиваться в будущем, а также о некоторых способах устранения риска нехватки данных.

 

Одна из возможностей для разработчиков ИИ — улучшить алгоритмы, чтобы они могли более эффективно использовать уже имеющиеся данные.

 

Вполне вероятно, что в ближайшие годы они смогут обучать высокопроизводительные системы искусственного интеллекта, используя меньше данных и, возможно, меньшую вычислительную мощность. Это также поможет уменьшить углеродный след ИИ.

 

Другой вариант — использовать ИИ для создания синтетических данных для обучения систем. Другими словами, разработчики могут просто генерировать необходимые им данные, подобранные в соответствии с их конкретной моделью ИИ.

 

Несколько проектов уже используют синтетический контент, часто получаемый из сервисов генерации данных. В будущем это станет более распространенным явлением.

 

Разработчики также ищут контент за пределами бесплатного онлайн-пространства, например, хранящийся у крупных издателей и в автономных репозиториях. Подумайте о миллионах текстов, опубликованных до появления Интернета. Доступные в цифровом формате, они могут стать новым источником данных для проектов ИИ.

 

News Corp, один из крупнейших в мире владельцев новостного контента (большая часть контента которого защищена платным доступом), недавно заявила, что ведет переговоры о сделках по контенту с разработчиками искусственного интеллекта. Такие сделки заставят компании, занимающиеся искусственным интеллектом, платить за обучающие данные, тогда как до сих пор они в основном собирали их из Интернета бесплатно.

 

Создатели контента протестовали против несанкционированного использования их контента для обучения моделей искусственного интеллекта, при этом некоторые подали в суд на такие компании, как Microsoft, OpenAI и Stability AI. Вознаграждение за свою работу может помочь частично восстановить дисбаланс сил, существующий между креативщиками и компаниями, занимающимися искусственным интеллектом.

 
 

 

 
Николаева Мария Опубликовано в Технологии   Теги Новости
Читайте также
Возрастную слепоту может предотвратить лазерный нагрев глаз Возрастную слепоту может предотвратить лазерный нагрев глаз Группа ученых разработала экспериментальный метод, позволяющий предотвратить возрастную макулярную дегенерацию. С помощью деликатного нагрева задней стенки глаза инфракрасным светом происходит активация собственных систем очистки и восстановления клеток до наступления слепоты.…
В Китае создали волокна из лунного грунта для строительства баз В Китае создали волокна из лунного грунта для строительства баз Эксперимент по тестированию волокон, что изготовлены из лунного грунта, запущен в Китае. Образцы доставил на национальную космическую станцию грузовой корабль «Тяньчжоу‑10». Целью исследования стало понять, годится ли материал для возведения…
Пластиковые бутылки удалось превратить в молочную кислоту Пластиковые бутылки удалось превратить в молочную кислоту Исследователями из Пекинского университета разработан новый метод переработки отходов из полиэтилентерефталата (ПЭТ) — например, из бутылок или пищевых контейнеров. Методика даёт возможность трансформировать пластик в более ценные химические вещества: молочную…
Интернет и СМИ
Главное за сутки
МО: за ночь над регионами России сбили 72 украинских БПЛА МО: за ночь над регионами России сбили 72 украинских БПЛА Российские средства ПВО за ночь перехватили и уничтожили над регионами РФ и Черным морем 72 украинских БПЛА. Об этом сообщили в Минобороны России. "В течение прошедшей ночи в период с…
Ребенок погиб, 11 человек пострадали. Последствия удара украинских БПЛА по Геническу Херсонской области Ребенок погиб, 11 человек пострадали. Последствия удара украинских БПЛА по Геническу Херсонской области ВСУ вечером 31 мая ударили беспилотником по многоквартирным домам в Геническе Херсонской области. В результате погиб ребенок 2020 года рождения, 11 человек пострадали. ТАСС собрал основное об атаке. Последствия удара…
ВСУ атаковали Белгородскую область более 50 раз за сутки, ранен мирный житель ВСУ атаковали Белгородскую область более 50 раз за сутки, ранен мирный житель Вооруженные силы Украины за минувшие сутки атаковали территорию Белгородской области 52 раза. В результате атак ранен мирный житель, сообщил врио губернатора Александр Шуваев в "Максе". "За минувшие сутки ВСУ 52…
Тема дня
Европа не может ответить на четыре главных вопроса о переговорах с Россией Европа не может ответить на четыре главных вопроса о переговорах с Россией

Европе нужно садиться за стол – однако проблема в том, что для целого ряда европейских политиков ест...

Фото
Nature: Назван орган, в первую очередь влияющий на продолжительность жизни Nature: Назван орган, в первую очередь влияющий на продолжительность жизни

Команда исследователей из Mass General Brigham выяснила, что вилочковая железа, или тимус, играет ва...

Опрос

Что будет с дальнейшими поставками российского газа в Армению?

 

Анекдот дня

- Дорогая, только послушай, что пишут: "Ученые выяснили, что базовая температура тела у женщин постепенно растет в период с 18 до 42 лет. Причины этого явления пока изучаются".

 

- Дорогой, не доводи меня до кипения! Я тебе еще два часа назад сказала: пойди, вынеси мусор! А ты в интернете торчишь.

Еще »

Этот сайт использует файлы «cookie» с целью повышения удобства его использования. Во время посещения сайта вы соглашаетесь с тем, что мы обрабатываем ваши персональные данные с использованием сервиса «Яндекс. Метрика». Продолжая использовать сайт, вы соглашаетесь с Политикой конфиденциальности.

Интересные материалы
МЫ ВКОНТАКТЕ

Зарегистрировано Федеральной службой по надзору в сфере связи, информационных технологий и массовых коммуникаций

(Роскомнадзор). Реестровая запись от 07.06.2022 серия ЭЛ № ФС 77 – 83392. При использовании, полном или частичном

цитировании материалов planet-today.ru активная гиперссылка обязательна. Мнения и взгляды авторов не всегда совпадают с

точкой зрения редакции. На информационном ресурсе применяются рекомендательные технологии (информационные технологии

предоставления информации на основе сбора, систематизации и анализа сведений, относящихся к предпочтениям пользователей

сети "Интернет", находящихся на территории Российской Федерации)".