08.08.2023 - 12:22

Олена Каганець

Відвідувань: 7
Переглядів: 7

Нейромережевий колапс: чому незабаром може зупинитися розвиток алгоритмів штучного інтелекту

За оцінкою низки вчених, вже незабаром якість нейромереж може швидко деградувати. Причиною цього стане велика кількість у мережі контенту, раніше згенерованого моделями штучного інтелекту.

230808ai-2.jpg

Ілюстративне фото

Про те, чи стануть марними нейромережі в майбутньому, міркують на Forbes керівник напряму фундаментальних досліджень MTS AI Сергій Загоруйко та технічний лідер групи NLP Platform Олексій Малафєєв.

Останнім часом в IT-спільноті тільки й розмов, що про долю нейромереж. У нещодавно опублікованій науковій статті група британських і канадських дослідників дійшла резонансного висновку: якщо навчити нейромережу на матеріалах, згенерованих іншою ШІ-моделлю, це призведе до технічного колапсу, який полягає у неминучому падінні якості роботи нейромережі.

Ключове побоювання гравців ринку полягає в тому, що генеративні моделі можуть заглушити своїм контентом «оригінальний» контент, згенерований людьми. В результаті інтернет може заповнитися штучно згенерованими текстами або зображеннями, а в майбутньому навіть відеороликами, які не тільки не несуть цінності, а і якимось чином спотворюють реальність, містять фактичні помилки. Людина їм може й не повірить, але нейромережа прийме за чисту монету.

Це, своєю чергою, може призвести до того, що наступні моделі штучного інтелекту, які навчатимуться на цих синтезованих даних, будуть видавати ще більш спотворений результат. І той контент, який згенерують вони, виявиться ще більш зіпсованим і далеким від реальності.

Поки що оцінити ступінь серйозності проблеми складно, оскільки нема надійних відомостей про кількість опублікованих у мережі даних, згенерованих моделями. Однак сама по собі проблема забруднення даних стоїть дуже гостро – інфополе засмічуватиметься, сміттєві дані потраплять у навчальні вибірки й сервіси, що працюють на таких моделях, почнуть функціонувати все гірше і гірше.

Побачити результат такого забруднення можна вже сьогодні. Мовні моделі дозволяють створювати контент, який виводить із ладу системи моніторингу публікацій у мережі. Через нього ламаються алгоритми контролю громадської думки, а це призводить до ситуацій, коли думали, що буде Клінтон, а вийшов Трамп.

Насправді такі проблеми властиві й людям. Якщо людина з дитинства виховується на певній літературі, наприклад, на філософських екзистенційних творах, це напевно дуже сильно вплине на її погляди та на думки, які вона генеруватиме протягом життя. До певної міри моделі штучного інтелекту схожі на дітей – вони навчаються і дізнаються щось про світ з різних текстів, звуків або зображень, і результат сильно залежить від того, які матеріали використовувалися для навчання. Найчастіше батьки стежать за тим, щоб дитина не читала невідповідну літературу, яку вона може випадково знайти в інтернеті. Чимось схожим належить займатися й ШІ-розробникам.

До того ж сучасні алгоритми машинного навчання все ще дуже недосконалі. Щоб навчити мовну модель генерувати текст на прийнятному рівні, її доводиться навчати на величезній кількості текстів – набагато більшому, ніж потрібно людині. Попри те, що сучасні ШІ-моделі набагато потужніші, ніж людський мозок, вони все ще поступаються людям в якості написання текстів, сприйняття світу і логічні судження.

Тому розробникам належить пройти великий шлях: необхідно зробити навчання ШІ-моделей більш ефективним, тобто скоротити кількість матеріалів, які необхідні нейромережам для якісної роботи. І тоді, можливо, й не доведеться навчати їх на всьому інтернеті.

Проблема забруднення даних має цікавий нюанс – вона більшою мірою властива нейромережам, які навчаються на матеріалах англійською мовою, адже на ній написана набагато більша кількість текстів. Тому для мов, які не такі популярні, ця проблема буде менш вираженою, і в якийсь момент локальні ШІ-моделі можуть стати навіть якіснішими, ніж англомовні.

Попри всі недоліки, синтетичні (тобто згенеровані штучним інтелектом) матеріали можуть бути корисними у ситуаціях, коли даних дуже мало або їх нема зовсім. Дуже багато тут залежить від кількості згенерованих даних, які використовувалися для навчання, і їх якості, відповідності задачі, що вирішується, і нормам етики, безпеки тощо.

Рано чи пізно економічна палиця вдарить по компаніях, які роблять сервіси на ШI-моделях, навчених за допомогою згенерованих нейромережами даних. Корпоративні клієнти та звичайні користувачі почнуть предʼявляти претензії до розробників через неякісну роботу таких сервісів, а потім почнуть відмовлятися від них. Тому розробники таких нейромереж самі почнуть шукати способи підтримувати якість своїх моделей на належному рівні.

Таким чином, механізми ринку створюють певний баланс. І ще одним перспективним напрямом для досліджень стане розробка підходів, які дозволять користуватися синтетичними даними без будь-яких збитків.

Вже зараз варто подумати про те, як уникнути можливих наслідків нейроколапсу. Насамперед для цього потрібно намагатися не змішувати людський та згенерований контент – варто ретельно підходити до вибору даних, які беруть участь у навчанні моделі.

Крім цього, допомогти у розв'язанні проблеми може сам штучний інтелект, а точніше – ШІ-детектори згенерованого контенту. На них можна буде перевіряти дата-мережі до навчання нейромереж, наче просівати дані через сито, і, таким чином, відсікати все те, що було згенероване ШІ. Правда, цей метод теж покладається на моделі, що навчаються, які будуть помилятися. Отже, розв'язати проблему вони повністю не зможуть.

Також ШІ-компаніям варто розвивати методи очищення дата-мереж від шуму, які використовуються для виявлення серед даних спамерських текстів, реклами, текстів, що повторюються і т. д. Інтуїтивно здається, що якщо штучно згенерований контент нижчої якості, ніж контент, згенерований людиною, то можна навчитися автоматично це визначати й таким чином очищати дані від корисного вмісту.

Є і найбільш очевидний та радикальний варіант розв'язання проблеми – зупинити розвиток мовних моделей на поточному рівні та дотримуватися принципу «працює – не чіпай». У такому разі нейромережі застрянуть у 2023 році й не знатимуть нічого, що сталося пізніше, через це з часом вони просто втратять застосування. Далі настане розчарування інвесторів та нова зима ШІ. Це – потенційно можливий сценарій, але навряд чи він зараз розглядається серйозно.

Наші інтереси:

Підтримувати чистоту українського інформаційного простору, уникати машинного генерування текстів для нашого сайту.

В тему:

Занадто брехливий: Meta закрила публічний тест Galactica – свого «ШІ для наукових завдань»ChatGPT як прихований інструмент лівої пропаганди та дезінформації – дослідження Замінити обличчя заборонених акторів і зекономити. Як штучний інтелект змінює кіно, рекламу та креатив В Німеччині відбулася церковна служба з проповідями ChatGPT – декому сподобалось Штучний інтелект став невід'ємною частиною світової економіки. А що Україна?

Якщо ви помітили помилку, то виділіть фрагмент тексту не більше 20 символів і натисніть Ctrl+Enter

Теги:

українська мова штучний інтелект

Зверніть увагу

25 Січ

Біла книга «Третій ϟ Гетьманат»: Заснування держави без бюрократії та податків – архітектура, технологія, традиція (версія 1.0)

Третій Гетьманат пропонує альтернативу «цифровому концтабору» та ліволіберальному хаосу. Дана праця призначена для стратегів, інвесторів, розробників та всіх Людей Волі, які розглядають Україну як...

Останні записи

15 Тра

Як і коли в тіло людини втілюються божественні сутності?

15 Тра

Комітет міністрів Ради Європи ухвалив ключове рішення, необхідне для запуску Спеціального трибуналу щодо злочину агресії РФ

15 Тра

Українські оператори дронів показали слабкі місця військ НАТО на навчаннях у Швеції

15 Тра

205 українських військовослужбовців повернулися з російського полону: Зеленський підтвердив початок обміну “1000 на 1000”

14 Тра

«Маніфест Палантір», філософія Ніцше, код Гітлера та індульгенція Алекса Карпа – частина 3 (подкаст)

14 Тра

«Або ми, або вони»: Україною керує етнічна мафія, яка вже ніколи не домовиться з НАБУ – Олена Вострова, політичний психолог (+відео)

12 Тра

Пентагон оптимістично налаштований на поліпшення кіберзахисту за допомогою ШІ в стилі Mythos

12 Тра

НАБУ та САП вручили підозру ексочільнику ОП Андрію Єрмаку. Що далі? – Коментарі

11 Тра

Як Palantir допомагає Україні: війна, ідеологія та модель нового соціального устрою

10 Тра

Маніфест Palantir: відродження націоналізму, повернення Німеччини та Японії – частина 2 (подкаст)

Кращий коментар

Опубліковано Ігор Каганець 8 Серпень, 2023 - 14:42 посилання

Ще не підтримано

Описана тенденція розвитку машинного генерування текстів підштовхує нас формувати мову Сенсар, творити на ній власний корпус літератури і навчати на ньому моделі генерування текстів.

Все, що робиться з власної волі, – добро!

Коментарі

Опубліковано Ігор Каганець 8 Серпень, 2023 - 14:42 посилання

Ще не підтримано

Все, що робиться з власної волі, – добро!

Опубліковано Зірка 8 Серпень, 2023 - 14:44 посилання

Ще не підтримано

Обнадійлива інформація !

Творимо разом Ельфійську Вільну Церкву!

Нейромережевий колапс: чому незабаром може зупинитися розвиток алгоритмів штучного інтелекту

Категорія:

Світ:

Спецтема:

Зверніть увагу

Останні записи

Кращий коментар

Коментарі