Компании Apple на Всемирной Конференции Разработчиков продемонстрировала возможности интеллектуального распознавания голоса в приложении "личный помощник Siri", в своем последнем обновлении мобильной операционной системы IOS 9.
Теперь, вместо того, чтобы просить Siri "напомнить о завтрашнем дне рождения Кевина", вы можете рассчитывать на понимание машиной контекста и просто попросить Siri "напомнить мне об этом". Однако, сказать это нужно в момент просмотра событий Facebook на дни рождения. Будьте уверены: гаджет поймет, что вы имеете в виду. Технология, внедренная в устройства Google укрепилась, благодаря OK Google, который лучше всего воплотил идею контекстно-зависимого распознавания голоса.
Но как все это работает? Почему так важен контекст и как это связать с голосом? Чтобы ответить на этот вопрос, стоит оглянуться назад, на историю распознавания голоса и такой области, как обработка живой речи
Процесс распознавания речи весьма непрост. Ведь чтобы компьютер понял, что вы имеете в виду, он должен быть в состоянии понять, что именно вы сказали. Запускается сложный процесс, который включает в себя выборки звука, выделение признаков, а затем фактическое распознавание речи, чтобы распознавать отдельные звуки и преобразовать их в текст. Исследователи уделили этой технологии много лет. Они разрабатывали методы, изучая принцип действия человеческого уха. Устройства распознавания включали в себя искусственные нейронные сети, скрытые модели Маркова и другие идеи, которые являются частью широчайшей сферы искусственного интеллекта.
Но "слышащий компьютер" - только полдела. После того, как компьютер стал способен "слышать", у него есть один только текст , который соответствует тому, что вы сказали. Следующим шагом является так называема "обработка естественного языка". После того, как машина превратила то, что вы говорите, в текст, оно должна понять, что он на самом деле означает. Этот процесс и называется "обработкой естественного языка". Это, пожалуй, еще труднее, чем процесс распознавания речи, потому что человеческий язык полон контекстных и семантических нюансов, которые усложняют процесс распознавания. Любой, кто пользовался ранними системами распознавания голоса может свидетельствовать о том, как это трудно. Ранние системы имели очень ограниченный словарный запас, и вы должны были проговаривать команды нужным образом, чтобы компьютер их понял. Это было верно не только для систем распознавания голоса, но и даже для систем ввода текста, где порядок слов и включение определенных слов с несколькими трактовками тоже играет роль.
Современные же технологии темы, однако, использовать алгоритмы "машинного обучения", и они схожи со скрытыми моделями Маркова, используемых в распознавании речи. Эти системы по-прежнему нужно изучать, но они в состоянии сделать более мягкими алгоритмы решения, основанные на взвешивании значений отдельных слов, Это позволяет делать более гибкие и даже "мультилингвистические" запросы, при которых используются разные семантические конструкции при одном и том же содержании запроса.
Срочно закупленные Польшей из-за страха перед «нападением России» истребители оказались дорогостоящи...
В недавнем исследовании, опубликованном в журнале Foods, ученые из Италии, Албании и Черногории пров...
Свидетельство о регистрации СМИ Эл № ФС77-83392 от 07.06.2022, выдано Федеральной службой по надзору в сфере связи,
информационных технологий и массовых коммуникаций. При использовании, полном или частичном цитировании материалов
planet-today.ru активная гиперссылка обязательна. Мнения и взгляды авторов не всегда совпадают с точкой зрения редакции.
На информационном ресурсе применяются рекомендательные технологии (информационные технологии предоставления
информации на основе сбора, систематизации и анализа сведений, относящихся к предпочтениям пользователей сети "Интернет",
находящихся на территории Российской Федерации)".