09.12 - 12:42

Алгоритм распознавания речи по звуку научил нейросеть распознавать ее по губам


 

Китайские и американские исследователи разработали новый метод обучения нейросетей для распознавания речи по губам, позволивший добиться лучших результатов, чем удавалось аналогичным алгоритмам. Они предложили брать хорошо обученный алгоритм распознавания речи по аудиозаписям и использовать его в качестве учителя для алгоритма распознавания речи по видеозаписям. Благодаря такому методу нейросеть для чтения по губам может выучить некоторые закономерности и признаки, которые сложно выучить, используя только последовательность изображений. Статья о методе будет представлена на конференции AAAI 2020.

Поскольку большие и точные нейросетевые модели, как правило, требуют больших вычислительных ресурсов, их сложно применять на смартфонах и других мобильных устройствах. Существуют методы, позволяющие фактически сжать модель, значительно уменьшив ее размер и требуемую вычислительную мощность для работы, но почти полностью сохранив точность. Один из таких методов называется дистилляцией знаний (knowledge distillation).

При дистилляции знаний разработчик берет обученную на большом количестве данных большую нейросетевую модель (модель-учитель) и создает более компактную нейросеть (модель-ученик). Суть метода заключается в том, что обе сети получают одинаковые данные и ученик пытается повторить результат работы учителя на каждой единице данных (к примеру, фотографии), причем не только на выходном слое, но и на всех промежуточных.

Группа исследователей под руководством Минли Сун (Mingli Song) из Чжэцзянского университета предложила использовать этот метод для обучения чтению по губам. В этом случае в качестве учителя выступает алгоритм распознавания речи по аудиозаписи, потому что такие алгоритмы развиты гораздо лучше, чем алгоритмы для чтения речи по движению губ.

 

В целом алгоритм можно представить в симметричном виде с двумя параллельными рекуррентными нейросетями. Стоит отметить, что входящий вектор для рекуррентной сети для распознавания по губам формируется на основе вектора со сверточной нейросети, которая обрабатывает кадры видео. Исследователи реализовали дистилляцию знаний в виде нескольких блоков, отвечающих за разные масштабы данных: кадр (или соответствующий отрезок аудио), вся последовательность данных (весь ролик) и наибольшая общая подпоследовательность.
Разработчики обучали и проверяли работу метода на стандартных для такой задачи датасетах: LRS2, содержащий более 45 тысяч предложений, произнесенных в эфире BBC, а также CMLR — крупнейший датасет для чтения по губам на севернокитайском (мандаринском) языке, содержащий более 100 тысяч предложений из эфира CNTV.

Сравнение точности распознавания на этих датасетах с лучшими на момент исследования аналогичными алгоритмами показало, что новый алгоритм справляется с распознаванием по губам на 7,66 процентов лучше на датасете CMLR (31,27 процента ошибок на уровне букв) и на 2,75 процента лучше на LRS2 (45,53 процента ошибок на уровне букв).

Движения губ ранее предлагали использовать не только для распознавания речи, но и для повышения безопасности. В 2017 году китайские исследователи предложили анализировать индивидуальную манеру движения губ при произнесении пароля в качестве дополнительного фактора, подтверждающего личность.

Григорий Копиев

https://nplus1.ru/

Ключевые слова:
Читайте также:

Как сохранить здоровье ног?

С каждым годом вы можете заметить, что ноги стали чаще уставать, чаще болеть, им требуется больше времени на отдых. Что же делать, чтобы было меньше неприятных ощущений и сохранить здоровье в будущем?
Подробнее »»

Позднюю менопаузу объяснили регулярным сексом

Изучив выборку в почти три тысячи женщин ученые пришли к выводу, что время наступления менопаузы зависит от регулярности половой жизни: чем чаще женщины в предменопаузе занимаются сексом, тем дольше у них сохраняется менструальный цикл. Возможно, дело в т
Подробнее »»

К 2028 людям подарят сердца-роботы

Это мягкое роботическое сердце использует синтетические материалы вместе со слоями клеток человека, выращенных в лаборатории.
Подробнее »»

Мышам удвоили запас яйцеклеток в яичнике

Американские ученые создали мышей с необычно большим запасом половых клеток в яичнике, для этого понадобились одна мутация и одно лекарство, которые запрещают клеткам массово гибнуть на ранних стадиях развития яичника.
Подробнее »»

Люди могли заразиться китайским вирусом от змей

На горизонте замаячило создание первой вакцины от гриппа в форме таблеток. Исследования показали, что на треть меньше людей заболевают после получения подобного рода пилюль, по сравнению с уколами.
Подробнее »»

Читайте также:
25.01 - 10:27

Доноры костного мозга передали реципиентам свои патогенные мутации

Бурая водоросль Macrocystis pyrifera защищается от своего паразита, оомицета Anisolpidium ectocarpii, с помощью аутофагии — комплекса процессов по переработке компонентов собственных клеток, сообщается в New Phytologist. Аутофагия выступает в роли двигате
Подробнее »»

25.01 - 08:33

Излечение от ВИЧ стало на один шаг ближе

На горизонте замаячило создание первой вакцины от гриппа в форме таблеток. Исследования показали, что на треть меньше людей заболевают после получения подобного рода пилюль, по сравнению с уколами.
Подробнее »»

25.01 - 06:19

Самопоедание оказалось оружием борьбы гигантских водорослей с бывшими грибами

Бурая водоросль Macrocystis pyrifera защищается от своего паразита, оомицета Anisolpidium ectocarpii, с помощью аутофагии — комплекса процессов по переработке компонентов собственных клеток, сообщается в New Phytologist. Аутофагия выступает в роли двигате
Подробнее »»

25.01 - 04:32

Ожидается появление вакцины от гриппа в таблетках

На горизонте замаячило создание первой вакцины от гриппа в форме таблеток. Исследования показали, что на треть меньше людей заболевают после получения подобного рода пилюль, по сравнению с уколами.
Подробнее »»

24.01 - 23:36

Опасная пневмония: как распознать новый вирус из Китая и чем он грозит?

В конце декабря 2019 года в Китае стал распространяться опасный вирус. Признаки были схожи с симптомами пневмонии, однако последствия более пугающие и плачевные: вирус распространяется очень быстро.
Подробнее »»

24.01 - 23:16

Аптечные средства, которые советуют для красоты: правда ли помогут?

Косметические средства порой стоят крайне дорого.
Подробнее »»

24.01 - 22:49

Пробиотики: топ-9 продуктов для здоровья кишечника

Добавляя в свой рацион больше пробиотических продуктов, мы повышаем свои шансы оставаться стройным и здоровым с возрастом, - этому способствует их оздоровляющее влияние на систему желудочно-кишечного тракта.
Подробнее »»

24.01 - 22:14

Названы продукты, которые приравняют к сигаретам

Фастфуд вреден так же, как сигареты или алкоголь.
Подробнее »»

24.01 - 21:27

Подписчицы блогера заметили на его спине подозрительную родинку – и спасли парню жизнь

Он всего лишь выложил забавное маленькое видео.
Подробнее »»

24.01 - 21:12

Прыщи на разных участках лица могут указывать на разные болезни

Британский-врач дерматолог Зоуи Дивин рассказала о существовании карты прыщей
Подробнее »»

24.01 - 20:37

Почему врачи пропускают инфекции мочевыводящих путей у женщин

Значительное количество инфекций мочевыводящих путей у женщин всё ещё пропускается врачами. Бактерии в анализах мочи часто исчезают к тому моменту, когда эти самые анализы добираются до лаборатории.
Подробнее »»

24.01 - 20:10

Продукты, которые помогут поддержать сосуды в тонусе

Для очистки сосудов врачи рекомендуют ежедневно съедать хотя бы столовую ложку меда.
Подробнее »»

24.01 - 19:58

Названы опасные последствия аборта

Аборт представляет собой искусственное прерывание беременности, которое во все времена вызывало массу споров, обсуждений и осуждений.
Подробнее »»

24.01 - 19:07

Какой уход нужен рукам зимой?

В холода рукам требуется особый уход.
Подробнее »»

24.01 - 18:47

Эксперты назвали необычные симптомы стресса

Некоторые симптомы, связанные с тем, что организм испытывает стресс, могут показаться проявлением других нарушений или следствием влияния внешних факторов, например, плохой погоды.
Подробнее »»


Загрузка...
Loading...

Справочная информация

Загрузка...