14.06.2024 - 15:07

Олена Каганець

Відвідувань: 0
Переглядів: 0

Навушники зі штучним інтелектом дозволяють чути голос однієї людини в натовпі

Чи хотіли ви коли-небудь, перебуваючи в переповненому, галасливому середовищі, відключити всі фонові розмови і зосередитися виключно на людині, яку ви намагаєтеся слухати?

24061402.jpg

Хоча навушники з функцією шумозаглушення досягли значних успіхів у створенні чистого слухового простору, вони все ще пропускають конкретні звуки з оточення, в якому перебуває користувач. А що як ваші навушники можна навчити вловлювати та посилювати голос однієї людини, навіть коли ви пересуваєтеся по кімнаті, наповненій іншими розмовами?

Target Speech Hearing (TSH), новаторська система штучного інтелекту, розроблена дослідниками з Вашингтонського університету, робить успіхи в цій галузі, повідомляє Unite.ai.

Як працює Target Speech Hearing

Щоб скористатися TSH, людині, яка носить спеціальні навушники, потрібно просто подивитися на людину, яку вона хоче почути, протягом декількох секунд. Цей короткий період "реєстрації" дозволяє системі штучного інтелекту вивчити та зафіксувати унікальні вокальні патерни цільового мовця.

Ось як це працює:

Користувач натискає кнопку, спрямовуючи голову на потрібного спікера на 3-5 секунд.
Мікрофони з обох боків гарнітури одночасно вловлюють звукові хвилі голосу мовця (з похибкою в 16 градусів).
Навушники передають цей аудіосигнал на вбудований комп'ютер.
Програмне забезпечення для машинного навчання аналізує голос і створює модель чітких голосових характеристик мовця.
Система штучного інтелекту використовує цю модель для виділення та посилення голосу зареєстрованого мовця в режимі реального часу, навіть коли користувач рухається в шумному середовищі.

Чим довше говорить цільовий диктор, тим більше навчальних даних отримує система, що дозволяє їй краще фокусуватися на потрібному голосі та чіткіше розпізнавати його. Цей інноваційний підхід до "вибіркового слуху" відкриває світ можливостей для покращення комунікації та доступності в складних слухових умовах.

Шьям Голлакота, старший автор статті та професор Університету Вірджинії в Школі комп'ютерних наук та інженерії ім. Пола Аллена каже:

"Зараз ми схильні думати про ШІ як про веб-чат-ботів, які відповідають на запитання. Але в цьому проекті ми розробляємо ШІ, щоб змінювати слухове сприйняття будь-кого, хто носить навушники, з огляду на їхні вподобання. З нашими пристроями тепер ви можете чітко чути одного спікера, навіть якщо ви перебуваєте в шумному середовищі з великою кількістю інших людей, які розмовляють".

Тестування навушників зі штучним інтелектом за допомогою TSH

Щоб перевірити ефективність технології Target Speech Hearing, команда дослідників провела дослідження за участю 21 учасника. Кожен піддослідний одягав навушники з підтримкою TSH і прослуховував цільового диктора в галасливому середовищі. Результати були вражаючими – в середньому користувачі оцінили чіткість голосу зареєстрованого спікера майже вдвічі вище порівняно з нефільтрованим аудіопотоком.

Цей прорив ґрунтується на попередній роботі команди над "семантичним слухом", який дозволив користувачам фільтрувати своє слухове середовище на основі попередньо визначених звукових класифікацій, таких як щебетання птахів або людські голоси. TSH просуває цю концепцію на крок далі, дозволяючи вибірково посилювати голос конкретної людини.

Наслідки є значними – від покращення розмов у гучних місцях до покращення доступності для людей з вадами слуху. З розвитком технології вона може докорінно змінити те, як ми сприймаємо і взаємодіємо зі слуховим світом.

Вдосконалення навушників зі штучним інтелектом і подолання обмежень

Хоча Target Speech Hearing є значним кроком вперед у розвитку слухового ШІ, система має деякі обмеження в її нинішньому вигляді:

Реєстрація одного диктора: наразі TSH можна навчити фокусуватися лише на одному мовцеві за раз. Одночасна реєстрація декількох спікерів поки що неможлива.
Перешкоди від схожих джерел звуку: якщо під час процесу реєстрації інший гучний голос лунає з того ж напрямку, що й цільовий співрозмовник, системі може бути складно виокремити вокальні патерни потрібної людини.
Повторна реєстрація вручну: якщо користувач незадоволений якістю звуку після початкового тренування, він повинен вручну повторно зареєструвати цільового мовця, щоб покращити чіткість.

Попри ці обмеження, команда Вашингтонського університету активно працює над вдосконаленням і розширенням можливостей TSH. Однією з їхніх головних цілей є мініатюризація технології, що дозволить легко інтегрувати її в споживчі товари, такі як навушники та слухові апарати.

Оскільки дослідники продовжують розширювати межі можливого за допомогою слухового ШІ, потенційні сфери його застосування дуже широкі – від підвищення продуктивності в відволікаючому офісному середовищі до полегшення чіткої комунікації для служб швидкого реагування та військовослужбовців у ситуаціях з високими ставками.

Майбутнє селективного слуху виглядає блискучим, і Target Speech Hearing готовий зіграти ключову роль у його формуванні.

Наші інтереси:

Цікавимося новітніми технологіями та можливостями штучного інтелекту.

В тему:

ElevenLabs створює універсальну машину дубляжу зі штучним інтелектом Штучний інтелект на полі бою. Огляд розумної зброї: Україна, Ізраїль, США, Австралія (відео)

Якщо ви помітили помилку, то виділіть фрагмент тексту не більше 20 символів і натисніть Ctrl+Enter

Теги:

Зверніть увагу

25 Січ

Біла книга «Третій ϟ Гетьманат»: Заснування держави без бюрократії та податків – архітектура, технологія, традиція (версія 1.0)

Третій Гетьманат пропонує альтернативу «цифровому концтабору» та ліволіберальному хаосу. Дана праця призначена для стратегів, інвесторів, розробників та всіх Людей Волі, які розглядають Україну як...

Останні записи

19 Тра

Комітет міністрів Ради Європи ухвалив ключове рішення, необхідне для запуску Спеціального трибуналу щодо злочину агресії РФ

15 Тра

Українські оператори дронів показали слабкі місця військ НАТО на навчаннях у Швеції

15 Тра

205 українських військовослужбовців повернулися з російського полону: Зеленський підтвердив початок обміну “1000 на 1000”

14 Тра

Навушники зі штучним інтелектом дозволяють чути голос однієї людини в натовпі

Категорія:

Світ:

Спецтема:

24061402.jpg

Зверніть увагу

Біла книга «Третій ϟ Гетьманат»: Заснування держави без бюрократії та податків – архітектура, технологія, традиція (версія 1.0)

Останні записи

Трамп, Сі та Україна: нотатки за підсумками візиту президента США до Китаю

17. Козацькі війни та сучасне етнотворення – Біла книга «Третій Гетьманат»

Каса на виході. Як збір застави для Єрмака виявив суть системи Зеленського

Путін стикається з «дуже складним вибором» через війну в Україні. Санкції кусаються – керівник розвідки Естонії

"Кожного разу, коли нам доводилося виходити з позицій, ми молилися, щоб повернутися живими," – воїн 93 бригади

Як і коли в тіло людини втілюються божественні сутності?

Комітет міністрів Ради Європи ухвалив ключове рішення, необхідне для запуску Спеціального трибуналу щодо злочину агресії РФ

Українські оператори дронів показали слабкі місця військ НАТО на навчаннях у Швеції

205 українських військовослужбовців повернулися з російського полону: Зеленський підтвердив початок обміну “1000 на 1000”

«Маніфест Палантір», філософія Ніцше, код Гітлера та індульгенція Алекса Карпа – частина 3 (подкаст)