6 проблема, с които AI се сблъсква при разпознаването на речта

Всички големи компании инвестират в разпознаване на глас и светът бавно и стабилно се приспособява към новата технология на изкуствения интелект (AI). Така че защо отнема толкова дълго, защо още не е част от ежедневния ни живот? Ето 6-те причини защо.

Отиваш в магазин, за да търсиш определен цвят и марка на даден продукт. Питате служител дали желаният продукт е наличен. Служителят отива в склада, проверява инвентара си за продукта и се връща малко по-късно, само за да ви каже, че вашият продукт вече не е наличен.

Сега си представете това, влизате в един и същ магазин и казвате на едно мъничко устройство продукта, който искате да купите. В рамките на секунда гласът ви казва точната наличност на вашия продукт и, ако няма, ви дава подробности за търговските обекти, където продуктът е наличен.

AI устройството прави това чрез вътрешно сканиране през всички цифрови системи за инвентаризация. С многобройни предимства във връзка с логистиката на разходите и по-важното удобство, защо все още не е усъвършенствано изкуството на разпознаването на реч и личните асистенти?

Когато науката постига огромни постижения в разпознаването на звукови вълни, ние разглеждаме някои от основните проблеми, с които се сблъскват изследователите, когато декодират реч в текст.

шум

Машините за запис на глас откриват звукови вълни, които се генерират чрез реч. Фоновите шумове в помещенията затрудняват системите да разбират и разграничават специфичните звукови вълни от гласа на хоста. Това замъглява звука, приет от устройствата, обърква и ограничава способността му за обработка.

ехо

Ехото са основно звукови вълни, отразени върху различни повърхности, като стени, маси или други мебели. Това води до неорганизирано връщане на звукови вълни обратно към рецепторите, като по този начин се намалява яснотата.

Акценти

Широката гама акценти на всеки език е друг фактор, който води до трудности при разпознаването на речта. Ако една и съща дума може да бъде произнесена по много различни начини, сричките и фонетиката на една и съща дума имат тенденция да варират, което затруднява обработката на машината.

Подобни звуци

Подобни звукови думи и фрази могат да попречат на правилното кодиране и декодиране на гласовото съобщение. Например „Да развалим хубав плаж“ и „Да разпознаем речта“ са фонетично много подобни и лесно могат да объркат устройството.

Грешка в машината

Нивата на точност при откриване на глас имат висока степен на грешки. Машините все още са изправени около 8% -12% от грешките, което е повече от два пъти повече, отколкото хората правят в ежедневната си реч. Грешките при кодирането на събраните данни са от решаващо значение за ефективността, тъй като това е първата стъпка, по която действат устройствата за запис на глас.

Дезорганизирана реч

Събирането на думи в ежедневните ни разговори означава, че много думи и фрази се сливат заедно. Това не е подходящо за машинно и гласово разпознаване на текст, тъй като затруднява разпознаването на конкретни думи или фрази, които ще повлияят на последващия отговор и действия на устройството.

Като цяло, без значение колко напреднали могат да бъдат тези машини, горните фактори ще продължат да бъдат пречка за развитието на асистенти в ИИ, движещи се напред. Въпреки това скоростта, с която се развиват науката и технологиите, всички големи компании се фокусират върху създаването на оптимални устройства за разпознаване на глас и рано или късно те се сгъват ще бъдат изгладени и всички ще имаме робот с активиран глас, който ще управлява нашите домове както и живота ни.

Научете повече за събитието RAF 100 и какво е STEM

Не забравяйте да ни следвате в LinkedIn, за да получите достъп до нашето изключително съдържание! # raf100event #WhatIsSTEM