Convolutional Variational Autoencoders for Spectrogram Compression in Automatic Speech Recognition

Olga Yakovenko, Ivan Bondarenko

Результат исследования: Публикации в книгах, отчётах, сборниках, трудах конференцийстатья в сборнике материалов конференциинаучнаярецензирование

Аннотация

For many Automatic Speech Recognition (ASR) tasks audio features as spectrograms show better results than Mel-frequency Cepstral Coefficients (MFCC), but in practice they are hard to use due to a complex dimensionality of a feature space. The following paper presents an alternative approach towards generating compressed spectrogram representation, based on Convolutional Variational Autoencoders (VAE). A Convolutional VAE model was trained on a subsample of the LibriSpeech dataset to reconstruct short fragments of audio spectrograms (25 ms) from a 13-dimensional embedding. The trained model for a 40-dimensional (300 ms) embedding was used to generate features for corpus of spoken commands on the GoogleSpeechCommands dataset. Using the generated features an ASR system was built and compared to the model with MFCC features.

Язык оригиналаанглийский
Название основной публикацииRecent Trends in Analysis of Images, Social Networks and Texts - 9th International Conference, AIST 2020, Revised Supplementary Proceedings
РедакторыWil M. van der Aalst, Vladimir Batagelj, Alexey Buzmakov, Dmitry I. Ignatov, Anna Kalenkova, Michael Khachay, Olessia Koltsova, Andrey Kutuzov, Sergei O. Kuznetsov, Irina A. Lomazova, Natalia Loukachevitch, Ilya Makarov, Amedeo Napoli, Alexander Panchenko, Panos M. Pardalos, Marcello Pelillo, Andrey V. Savchenko, Elena Tutubalina
ИздательSpringer Science and Business Media Deutschland GmbH
Страницы115-126
Число страниц12
ISBN (печатное издание)9783030712136
DOI
СостояниеОпубликовано - 2021
Событие9th International Conference on Analysis of Images, Social Networks, and Texts, AIST 2020 - Virtual, Online
Продолжительность: 15 окт 202016 окт 2020

Серия публикаций

НазваниеCommunications in Computer and Information Science
Том1357 CCIS
ISSN (печатное издание)1865-0929
ISSN (электронное издание)1865-0937

Конференция

Конференция9th International Conference on Analysis of Images, Social Networks, and Texts, AIST 2020
ГородVirtual, Online
Период15.10.202016.10.2020

Предметные области OECD FOS+WOS

  • 1.02 КОМПЬЮТЕРНЫЕ И ИНФОРМАЦИОННЫЕ НАУКИ
  • 1.01 МАТЕМАТИКА

Fingerprint

Подробные сведения о темах исследования «Convolutional Variational Autoencoders for Spectrogram Compression in Automatic Speech Recognition». Вместе они формируют уникальный семантический отпечаток (fingerprint).

Цитировать