Prelucrarea Semnalelor Audio – Departamentul AII

Obiective curs

Folosirea vocii ca mijloc de comunicare între operator și sistemul de control reprezintă una dintre preocupările majore ale proiectanților și constructorilor de sisteme automate. Recepționarea vocii de către “mașină” înseamnă analiză, recunoaștere și validare de semnal vocal. Transmiterea de semnal vocal dinspre “mașină” către operator înseamnă sinteză de voce și construcție de mesaj. Suplimentar recunoașterii și sintezei vocii, prelucrarea de semnal audio este determinantă și la identificarea unor alte evenimente precum anomalii în funcționare a echipamentelor industriale, zgomote de armă, fierăstrău etc.

Obiective laborator

În contextul descris mai sus disciplina PSA își propune să ofere atât o fundamentare teoretică pentru a putea susține orice avans în domeniu (ex: cele mai noi tehnici de ML folosite) cât și o abordare practică și pragmatică pe parcursul laboratoarelor (ex: Python, API, Android, Kotlin, Tensorflow Lite).

Conținut curs

Rețele neuronale adânci folosite în recunoașterea și clasificarea vorbirii.

Sinteza semnalului vocal (a vorbirii). Prezentarea metodelor și procedurilor de sinteza a vorbirii. Sinteza prin concatenare de fragmente de vorbire memorate.

Conținut laborator

Recunoașterea și sinteza vorbirii folosind API-uri dedicate.
Experimente privind operația de eșantionare.
Studiul blocurilor CAN și a operației de cuantizare.
Proiectarea filtrelor digitale.
Implementare și analiza cepstrum.
Familiarizarea cu Android Studio și limbajul Kotlin.
Înregistrarea și redarea sunetelor pe platforme mobile Android.
Reprezentarea grafică a semnalelor audio (inclusiv sepectrograme și cepstrum) pe sisteme cu Android OS.
Clasificare sunetelor utilizând Tensorflow Lite cu suport Android.

Noțiunea de semnal audio. Definirea noțiunii de semnal. Clasificarea semnalelor. Definirea semnalelor audio/vocal ca o clasă specială de semnale.
Metode și sisteme de achiziție semnal vocal. Prezentarea unor soluții teoretice și practice de achiziție/distribuție a semnalului vocal așa încât acesta să fie compatibil cu sistemul de prelucrare.
Metode de discretizare în timp. Definirea operației de eșantionare în contextul eficienței maxime calitate/dimensiune bloc date. Precizarea restricțiilor impuse operației.
Metode de discretizare în amplitudine. Definirea operației de cuantizare în contextul reducerii erorilor de discretizare. Prezentarea unor soluții de cuantizare specifice semnalului vocal.
Semnalul vocal. Dualitatea generare-receptare a vorbirii. Prezentarea sistemului morfologic de generare a vorbirii. Surse de sunet și elemente de modulare a sunetului. Prezentarea sistemului morfologic de receptare a semnalului vocal (auzul). Relația vorbire – auz.
Metode de recunoaștere a vorbirii. Prezentarea metodelor de recunoaștere a vorbirii. Noțiunea de lanț Markov ascuns și folosirea ei în proceduri de recunoaștere. Recunoașterea cuvintelor izolate și a vorbirii fluente.
Rețele neuronale adânci folosite în recunoașterea și clasificarea vorbirii.
Sinteza semnalului vocal (a vorbirii). Prezentarea metodelor și procedurilor de sinteza a vorbirii. Sinteza prin concatenare de fragmente de vorbire memorate.

Conținut laborator

Recunoașterea și sinteza vorbirii folosind API-uri dedicate.
Experimente privind operația de eșantionare.
Studiul blocurilor CAN și a operației de cuantizare.
Proiectarea filtrelor digitale.
Implementare și analiza cepstrum.
Familiarizarea cu Android Studio și limbajul Kotlin.
Înregistrarea și redarea sunetelor pe platforme mobile Android.
Reprezentarea grafică a semnalelor audio (inclusiv sepectrograme și cepstrum) pe sisteme cu Android OS.
Clasificare sunetelor utilizând Tensorflow Lite cu suport Android.