Про те, чи стануть марними нейромережі в майбутньому, міркують на Forbes керівник напряму фундаментальних досліджень MTS AI Сергій Загоруйко та технічний лідер групи NLP Platform Олексій Малафєєв.
Останнім часом в IT-спільноті тільки й розмов, що про долю нейромереж. У нещодавно опублікованій науковій статті група британських і канадських дослідників дійшла резонансного висновку: якщо навчити нейромережу на матеріалах, згенерованих іншою ШІ-моделлю, це призведе до технічного колапсу, який полягає у неминучому падінні якості роботи нейромережі.
Ключове побоювання гравців ринку полягає в тому, що генеративні моделі можуть заглушити своїм контентом «оригінальний» контент, згенерований людьми. В результаті інтернет може заповнитися штучно згенерованими текстами або зображеннями, а в майбутньому навіть відеороликами, які не тільки не несуть цінності, а і якимось чином спотворюють реальність, містять фактичні помилки. Людина їм може й не повірить, але нейромережа прийме за чисту монету.
Це, своєю чергою, може призвести до того, що наступні моделі штучного інтелекту, які навчатимуться на цих синтезованих даних, будуть видавати ще більш спотворений результат. І той контент, який згенерують вони, виявиться ще більш зіпсованим і далеким від реальності.
Поки що оцінити ступінь серйозності проблеми складно, оскільки нема надійних відомостей про кількість опублікованих у мережі даних, згенерованих моделями. Однак сама по собі проблема забруднення даних стоїть дуже гостро – інфополе засмічуватиметься, сміттєві дані потраплять у навчальні вибірки й сервіси, що працюють на таких моделях, почнуть функціонувати все гірше і гірше.
Побачити результат такого забруднення можна вже сьогодні. Мовні моделі дозволяють створювати контент, який виводить із ладу системи моніторингу публікацій у мережі. Через нього ламаються алгоритми контролю громадської думки, а це призводить до ситуацій, коли думали, що буде Клінтон, а вийшов Трамп.
Насправді такі проблеми властиві й людям. Якщо людина з дитинства виховується на певній літературі, наприклад, на філософських екзистенційних творах, це напевно дуже сильно вплине на її погляди та на думки, які вона генеруватиме протягом життя. До певної міри моделі штучного інтелекту схожі на дітей – вони навчаються і дізнаються щось про світ з різних текстів, звуків або зображень, і результат сильно залежить від того, які матеріали використовувалися для навчання. Найчастіше батьки стежать за тим, щоб дитина не читала невідповідну літературу, яку вона може випадково знайти в інтернеті. Чимось схожим належить займатися й ШІ-розробникам.
До того ж сучасні алгоритми машинного навчання все ще дуже недосконалі. Щоб навчити мовну модель генерувати текст на прийнятному рівні, її доводиться навчати на величезній кількості текстів – набагато більшому, ніж потрібно людині. Попри те, що сучасні ШІ-моделі набагато потужніші, ніж людський мозок, вони все ще поступаються людям в якості написання текстів, сприйняття світу і логічні судження.
Тому розробникам належить пройти великий шлях: необхідно зробити навчання ШІ-моделей більш ефективним, тобто скоротити кількість матеріалів, які необхідні нейромережам для якісної роботи. І тоді, можливо, й не доведеться навчати їх на всьому інтернеті.
Проблема забруднення даних має цікавий нюанс – вона більшою мірою властива нейромережам, які навчаються на матеріалах англійською мовою, адже на ній написана набагато більша кількість текстів. Тому для мов, які не такі популярні, ця проблема буде менш вираженою, і в якийсь момент локальні ШІ-моделі можуть стати навіть якіснішими, ніж англомовні.
Попри всі недоліки, синтетичні (тобто згенеровані штучним інтелектом) матеріали можуть бути корисними у ситуаціях, коли даних дуже мало або їх нема зовсім. Дуже багато тут залежить від кількості згенерованих даних, які використовувалися для навчання, і їх якості, відповідності задачі, що вирішується, і нормам етики, безпеки тощо.
Рано чи пізно економічна палиця вдарить по компаніях, які роблять сервіси на ШI-моделях, навчених за допомогою згенерованих нейромережами даних. Корпоративні клієнти та звичайні користувачі почнуть предʼявляти претензії до розробників через неякісну роботу таких сервісів, а потім почнуть відмовлятися від них. Тому розробники таких нейромереж самі почнуть шукати способи підтримувати якість своїх моделей на належному рівні.
Таким чином, механізми ринку створюють певний баланс. І ще одним перспективним напрямом для досліджень стане розробка підходів, які дозволять користуватися синтетичними даними без будь-яких збитків.
Вже зараз варто подумати про те, як уникнути можливих наслідків нейроколапсу. Насамперед для цього потрібно намагатися не змішувати людський та згенерований контент – варто ретельно підходити до вибору даних, які беруть участь у навчанні моделі.
Крім цього, допомогти у розв'язанні проблеми може сам штучний інтелект, а точніше – ШІ-детектори згенерованого контенту. На них можна буде перевіряти дата-мережі до навчання нейромереж, наче просівати дані через сито, і, таким чином, відсікати все те, що було згенероване ШІ. Правда, цей метод теж покладається на моделі, що навчаються, які будуть помилятися. Отже, розв'язати проблему вони повністю не зможуть.
Також ШІ-компаніям варто розвивати методи очищення дата-мереж від шуму, які використовуються для виявлення серед даних спамерських текстів, реклами, текстів, що повторюються і т. д. Інтуїтивно здається, що якщо штучно згенерований контент нижчої якості, ніж контент, згенерований людиною, то можна навчитися автоматично це визначати й таким чином очищати дані від корисного вмісту.
Є і найбільш очевидний та радикальний варіант розв'язання проблеми – зупинити розвиток мовних моделей на поточному рівні та дотримуватися принципу «працює – не чіпай». У такому разі нейромережі застрянуть у 2023 році й не знатимуть нічого, що сталося пізніше, через це з часом вони просто втратять застосування. Далі настане розчарування інвесторів та нова зима ШІ. Це – потенційно можливий сценарій, але навряд чи він зараз розглядається серйозно.
Підтримувати чистоту українського інформаційного простору, уникати машинного генерування текстів для нашого сайту.
Описана тенденція розвитку машинного генерування текстів підштовхує нас формувати мову Сенсар, творити на ній власний корпус літератури і навчати на ньому моделі генерування текстів.
Все, що робиться з власної волі, – добро!
Коментарі
Описана тенденція розвитку машинного генерування текстів підштовхує нас формувати мову Сенсар, творити на ній власний корпус літератури і навчати на ньому моделі генерування текстів.
Все, що робиться з власної волі, – добро!
Обнадійлива інформація !
Творимо разом Вільну Українську Державу Гартленд !