Thesis: Integrating machine learning and physiological modeling tools for the assessment of vocal function using neck surface acceleration
Date
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Abstract
This thesis is dedicated to advancing the ambulatory assessment of vocal func tion by utilizing a neck-surface accelerometer attached directly to the skin surface of the neck. The motivation lies in the fact that a fully developed ambulatory method, capable of precisely identifying the underlying pathophysiological char acteristics of both normal and pathological vocal functions, could revolutionize clinical practices in monitoring, evaluating, and treating common voice disorders. Accordingly, this work exploits the advantages of a low-order voice production model to introduce a non-invasive technique for estimating relevant vocal func tion metrics, such as subglottal pressure, vocal fold collision pressure, and intrin sic laryngeal muscle activation of the cricothyroid and thyroarytenoid muscles, based on signals from an accelerometer sensor. In the first stage, a Bayesian framework based on a constrained extended Kalman filter is proposed to link a low-order voice production model with either a glottal area waveform extracted from high-speed video recordings or glottal airflow estimated from Rothenberg mask measurements. The results provide new insights into the capacity of the selected voice production model to replicate different phonation conditions and highlight the feasibility of using this method to estimate clinical measures that are difficult to ascertain in a clinical setting. The second stage of the thesis focuses on an alternate solution: a neural network trained exclusively with simulations from a voice production model. This nonlinear regressor maps seven input features, which can be extracted from an accelerometer signal, to the target measures of vocal function. The efficacy of this method, particularly in terms of subglottal pressure, was validated through in vivo recordings, which included synchronous measurements of oral volume velocity, intraoral pressure, microphone, and ac celerometer. This method was applied to healthy and disordered voices (unilateral vocal fold paralysis and both phonotraumatic and nonphonotraumatic vocal hy perfunction). Participants were prompted to articulate /p/-vowel syllable strings, varying loudness, vowels, pitch, and voice quality. The neural network, trained with synthetic data, demonstrated subglottal pressure estimation comparable to that of previous studies for subjects without voice disorders. However, this non linear mapping was found to be less robust in cases of pathology. In the search for more accurate subject-specific models, the final research stage focuses on re fining the neural network regressor, initially trained solely with simulations from a synthetic voice production model. This refinement is carried out by employing a domain adaptation strategy from synthetic to in vivo laboratory data, result ing in an improved estimate of subglottal pressure. This method yielded a set of subject-specific models that provided the most accurate estimation of subglottal pressure to date for both normal and disordered voices using an accelerometer. Additionally, through a case study—which, alongside the previously mentioned in vivo synchronous measurements, also incorporates fine-wire laryngeal electromyo graphy—it is demonstrated that the performance of the subject-specific regressor in estimating subglottal pressure is maintained while concurrently estimating mus cle activation of the cricothyroid and thyroarytenoid muscles. Overall, this thesis advances the field of vocal function assessment through a series of significant contributions. The proposed Bayesian framework reduces the need for multiple observations while yielding robust and reliable estimates of features that are diffi cult to measure in clinical practice. It also innovatively combines machine learning techniques with the voice production model to estimate physiologically relevant features such as subglottal pressure, vocal fold collision pressure, and laryngeal muscle activation from neck-surface accelerometers. Furthermore, this work in troduces a subject-specific nonlinear regression enhanced by transfer learning, significantly improving the estimation of subglottal pressure from neck-surface vi bration signals, with promising potential for application to other vocal function .
Esta tesis se dedica a avanzar en la evaluación ambulatoria de la función vocal mediante el uso de un acelerómetro de superficie cervical fijado directamente a la piel del cuello. La motivación radica en que un método ambulatorio completamente desarrollado, capaz de identificar con precisión las características fisiopatológicas subyacentes de las funciones vocales normales y patológicas, podría revolucionar las prácticas clínicas en la monitorización, evaluación y tratamiento de los trastornos comunes de la voz. En consecuencia, este trabajo aprovecha las ventajas de un modelo de producción de voz de orden bajo para introducir una técnica no invasiva que permita estimar métricas relevantes de la función vocal, como la presión subglótica, la presión de colisión de las cuerdas vocales y la activación muscular laríngea intrínseca de los músculos cricotiroideo y tiroaritenoideo, basándose en las señales de un sensor acelerómetro. En la primera etapa, se propone un marco bayesiano basado en un filtro de Kalman extendido restringido para vincular un modelo de producción de voz de orden bajo con una forma de onda del área glótica extraída de grabaciones de vídeo de alta velocidad o con el flujo de aire glótico estimado a partir de mediciones con máscara de Rothenberg. Los resultados aportan nuevos conocimientos sobre la capacidad del modelo de producción vocal seleccionado para replicar diferentes condiciones de fonación y destacan la viabilidad de utilizar este método para estimar medidas clínicas difíciles de determinar en un entorno clínico. La segunda etapa de la tesis se centra en una solución alternativa: una red neuronal entrenada exclusivamente con simulaciones de un modelo de producción vocal. Este regresor no lineal asigna siete características de entrada, que pueden extraerse de una señal de acelerómetro, a las medidas objetivo de la función vocal. La eficacia de este método, en particular en términos de presión subglótica, se validó mediante grabaciones in vivo, que incluyeron mediciones sincrónicas de velocidad del volumen oral, presión intraoral, micrófono y acelerómetro de CA. Este método se aplicó a voces sanas y con trastornos (parálisis unilateral de las cuerdas vocales e hiperfunción vocal fonotraumática y no fonotraumática). Se pidió a los participantes que articularan secuencias de sílabas con vocales /p/-, variando la intensidad, las vocales, el tono y la calidad de la voz. La red neuronal, entrenada con datos sintéticos, demostró una estimación de la presión subglótica comparable a la de estudios previos en sujetos sin trastornos de la voz. Sin embargo, se observó que este mapeo no lineal era menos robusto en casos de patología. En la búsqueda de modelos más precisos para cada sujeto, la etapa final de la investigación se centra en el refinamiento del regresor de la red neuronal, inicialmente entrenado únicamente con simulaciones de un modelo sintético de producción de voz. Este refinamiento se lleva a cabo mediante una estrategia de adaptación de dominio de datos sintéticos a datos de laboratorio in vivo, lo que resulta en una estimación mejorada de la presión subglótica. Este método generó un conjunto de modelos para cada sujeto que proporcionaron la estimación más precisa de la presión subglótica hasta la fecha, tanto para voces normales como con trastornos, utilizando un acelerómetro. Además, mediante un estudio de caso —que, junto con las mediciones sincrónicas in vivo mencionadas anteriormente, también incorpora electromiografía laríngea de alambre fino— se demuestra que el rendimiento del regresor específico del sujeto en la estimación de la presión subglótica se mantiene mientras se estima simultáneamente la activación muscular de los músculos cricotiroideo y tiroaritenoideo. En general, esta tesis avanza en el campo de la evaluación de la función vocal mediante una serie de contribuciones significativas. El marco bayesiano propuesto reduce la necesidad de múltiples observaciones, a la vez que produce estimaciones robustas y fiables de características que son difíciles de medir en la práctica clínica. También combina de forma innovadora técnicas de aprendizaje automático con el modelo de producción de voz para estimar características fisiológicamente relevantes como la presión subglótica, la presión de colisión de las cuerdas vocales y la activación muscular laríngea a partir de acelerómetros de la superficie del cuello. Además, este trabajo introduce una regresión no lineal específica del sujeto mejorada mediante aprendizaje por transferencia, que mejora significativamente la estimación de la presión subglótica a partir de señales de vibración de la superficie del cuello, con un potencial prometedor para su aplicación en otros parámetros de la función vocal.
