Yandex va învăța mașinile să înțeleagă vorbirea umană

Yandex a lansat un serviciu cloud de recunoaștere a vorbirii SpeechKit Cloud. Cu ajutorul acestuia, dezvoltatorii, inclusiv cei din Belarus, vor putea să-și învețe produsele să înțeleagă vocea umană. Belnovosti a fost informat despre acest lucru de către serviciul de presă al companiei Yandex.

Serviciul de recunoaștere a vorbirii în cloud este deja folosit de Cubic Robotics, dezvoltatorul robotului de casă CUBIC. Droidul înțelege întrebările adresate de voce și le răspunde. Dar compania Oktell, care produce software pentru centrele de apeluri, folosește tehnologia Yandex pentru a recunoaște vorbirea unei persoane care sună la call center și pentru a-l conecta cu specialistul potrivit.

SpeechKit Cloud se bazează pe tehnologia de recunoaștere a vorbirii Yandex SpeechKit, lansată de Yandex în 2013. Acum este folosit în 400 de aplicații mobile pentru Android, iOS și Windows Phone și procesează milioane de solicitări vocale în fiecare zi. Suportul SpeechKit Cloud poate fi adăugat la o mare varietate de programe, servicii și dispozitive: de la un joc pe computer la un sistem de navigație auto.

Calitatea recunoașterii vorbirii depinde de subiectul cererii. Dacă dictezi un SMS sau o notă, este de 82%, dacă spui o cerere scurtă – 85%. Și Yandex SpeechKit înțelege interogările „geografice” (de exemplu, adresele și numele organizațiilor) cu o precizie apropiată de abilitățile umane – 95%.

„Există doar câțiva dezvoltatori de sisteme de recunoaștere a vocii în lume – unii dintre ei sunt utilizați, de exemplu, în aplicații pentru smartphone-uri și tablete. Cu toate acestea, există mult mai puține sisteme care înțeleg limba rusă: adaptarea unei astfel de tehnologii la o anumită limbă necesită mult timp, astfel încât dezvoltatorii străini „nu ajung adesea la limba noastră”, a menționat Denis Filippov, șeful departamentului de dezvoltare pentru servicii vocale. și produse la Yandex.

SpeechKit Cloud înțelege limba rusă și turcă, dar Yandex intenționează să „predeze” tehnologia în alte limbi. Solicitările vocale sunt procesate pe serverele Yandex concepute pentru sarcini mari. Recunoașterea durează aproximativ o secundă: acesta este cât timp trece din momentul în care datele sunt trimise către server și până la primirea răspunsului. Dezvoltatorii au avut posibilitatea de a folosi SpeechKit Cloud gratuit timp de o lună.