Привет, Алиса! Расскажи, с чего начался разговор человека с компьютером?
Информационные технологии стремительно внедряются в жизнь человека, подбираясь к самому горлу.
Как известно, в горле находятся голосовые связки, без которых человек не смог бы издавать звук. Голос человека – инструмент, посредством которого передаётся звуковая информация, для гаджета звучание человеческого голоса – команда. Настало время, подарившее возможность управлять смартфоном, ПК, ноутбуком, бытовой техникой, не прибегая к пальцам рук.
Голосовое управление значительно экономит время и упрощает выполнение повседневных задач. Голосовые помощники быстро ищут информацию в интернете, помогают управлять приложениями смартфона и различной техникой, в которую встроены голосовые помощники, стоит человеку напрячь голосовые связки.
Давайте ненадолго погрузимся в историю голосовых ассистентов и посмотрим на путь их развития.
1952 год, американская компания Bell Laboratories, система Audrey. Audrey – первая система распознавания речи, различала числа от 1 до 9, но при условии, если:
• человек ранее ознакомился с системой;
• числа диктовал мужчина;
• пауза между словами говорящего составляла 350 миллисекунд.
1962 год, фирма IBM, система Shoebox. Shoebox, помимо цифр от 0 до 9, распознавала 16 слов на английском языке.
1971-1976 годы, управление Министерства обороны США или DARPA, система Speech Understanding Research. Благодаря спонсированию Министерства обороны США, системы распознавания речи прогрессировали. К 1976 году создали шесть систем, лучшей из которых стала система Harpy. Система понимала 1011 слов – средний словарный запас трёхлетнего ребёнка, воспринимала 184 предложения слитной речи.
1980-е годы, IBM и Bell Laboratories, система Automatic Speech Recognition. С начала 1980-х годов множество производителей активно выпускали системы автоматического распознавания речи. Главную роль в развитии систем сыграл статистический метод, с помощью которого системы распознавания речи учились определять контекст на примитивном уровне, узнавать слова вопреки различным помехам таким, например, как акцент говорящего.
В 1980-е годы была предпринята попытка внедрить искусственные нейронные сети для распознавания речи, но она провалилась. Неудачной оказалась коммерческая система Text-to-speech американской компании Kurzweil. В Text-to-speech был типичный для других систем минус: необходимость надиктовки.
1987 год, американская компания Worlds of Wonder выпустила первый коммерческий продукт: куклу по имени Julie с функцией распознавания детской речи. Кукла отзывалась на происходящие с ней события: перемещение, освещённость. Она читала специальные книги из комплекта, пользуясь сенсорами на пальчиках.
1990 год, компания Nuance Communications, система Dragon Dictate. Dragon Dictate разрабатывалась для Microsoft Windows, став для неё оригинальным приложением распознавания речи. Система использовала дискретную речь: пользователь делал паузу между разговорами на каждое слово.
Позже для Windows Dragon Dictate заменили на систему Dragon Naturally Speaking. Систему приобрела компания Nuance Communications. Dragon Naturally Speaking осуществляла непрерывное распознавание речи, а также распознавала продиктованные в микрофон тексты, которые писала сама.
Первую версию системы распознавания речи MacSpeech Dictate, разработанную Mac OS X, выпустили в марте 2008 года. 20 сентября 2010 года Nuance Communications вышла новая версия системы MacSpeech с обновлённым названием «Dragon Dictate for Mac».
MacSpeech Dictate работает как приложение для Mac, используя механизм распознавания речи Dragon. Это та же технология, которая обеспечивает распознавание речи в Dragon Naturally Speaking для ПК. С одним существенным отличием от MacSpeech Dictate, система Dragon Dictate для Mac не распознаёт напечатанные слова, только произнесённые пользователем.
1996 год, американская компания BellSouth, система VAL. VAL – первая интерактивная система распознавания речи, которая обрабатывала телефонные справочные запросы.
2001 год, Microsoft, система Speech recognizer. Speech recognizer работала с Office XP. На то время передовой версией пакета офисных программ, несмотря на необходимость тренировать систему, нечёткость произношения.
2002 год, Google, система Voice Search. Голосовой поиск в интернете свернули из-за текстового режима системы. Для поиска требовалось звонить на специальный номер, что было неудобно.
2005 год, американская компания Apple, система Voice Over. Mac OS X Tiger –первая операционная система с функцией распознания речи.
Voice Over распознавала речь, при этом являлась её синтезатором, читала содержимое текстовых документов, почтовых и веб-страниц, одновременно работала с несколькими пользователями, была независима от спикера – пользоваться ей мог каждый, систему не настраивали под определённый голос. Возможность синтеза речи нашла применение для людей с плохим зрением, система читала любой текст на экране, от статей в интернете до элементов системы, например, названия файлов на рабочем столе.
2006 год, Microsoft, Windows Speech Recognition. Windows Vista – первая операционная система Microsoft с полноценной поддержкой функции распознания речи. В Windows Vista с помощью голоса можно запускать и закрывать программы, сохранять и удалять файлы, диктовать и редактировать текст.
2009 год, Google. Спустя семь лет компания Google учла ошибки прошлых лет и выпустила систему распознавания речи Voice Search для iPhone. Позже вышла версия под операционную систему Android.
В 2011 году в браузер Chrome с помощью Google Voice Search добавили функцию распознавания голоса. Благодаря многочисленным голосовым запросам пользователей, на серверах Google накопилось 230 миллиардов слов на разных языках мира.
14 октября 2011 года, американская компания Apple, система Siri. iPhone 4S стал первым смартфоном, со встроенной системой распознавания речи. Siri распознаёт естественную речь, отвечает на заданные вопросы, предоставляет рекомендации, даже развлекает. Siri – первый аналог живому общению, вскоре у неё появились последователи.
2012 год, Google, система Google Now. Система Google Now выдаёт информацию, исходя из текущего местоположения, личной информации из календаря, истории поисковых запросов, истории перемещений, истории посещённых страниц. В Google Now 36 информационных карточек, из которых пользователь выбирает соответствующие своим интересам. Например, выбором пользователя могут стать карточки, проиллюстрированные ниже.
2 апреля 2014 года, Microsoft, система Cortana. Cortana – виртуальный помощник, созданный Microsoft для Windows 10.
Если разрешить сервису доступ к личным данным – электронной почте, календарю, местоположению, Cortana предугадывает нужды пользователя. В отличие от Google Now система Cortana проработана в плане понимания контекста, также она выигрывает по количеству и качеству голосовых возможностей. Cortana устанавливает напоминания, распознаёт естественный голос, не требуя ввода текста, отвечает на вопросы, черпая информацию из поисковой системы Bing, разработанной компанией Microsoft. Cortana конкурирует с Apple Siri, Google Assistant, Amazon Alexa.
2015 год, американская компания Amazon, система Alexa. Изначально, как в случае с Siri, Alexa являлась отдельным приложением для смартфонов на iOS и Android. Затем компания представила первую в мире умную колонку с голосовым ассистентом Amazon Echo.
Голосовой помощник, встроенный в умную колонку, управляет музыкой, включает аудиокниги, новости, рассказывает о погоде, устанавливает таймеры и будильники, отвечает на справочные вопросы. С его помощью делают покупки в интернет-магазинах, управляют устройствами умного дома. Умный дом – набор устройств, помогающих выполнять повседневные задачи в доме/квартире. Например, контроль и управление освещением, температурой, влажностью, безопасностью, бытовой техникой.
2016 год компания Google следом за компанией Amazon, выпустила собственную умную колонку Google Home.
В 2018 году компания Apple выпустила умную колонку HomePod с аналогичным функционалом.
Три вышеперечисленные колонки имеют общие недостатки: отсутствие поддержки русского языка и небольшое количество совместимых устройств с умным домом.
Умные колонки пользуются популярностью. Например, согласно статистике, в США в каждом пятом доме или квартире установлена умная колонка.
12 декабря 2015 года, российский разработчик UseYoVoice, система Дуся. Дуся — это русскоязычный голосовой помощник, способный осваивать новые команды. Пользователь создаёт собственные голосовые скрипты. Скрипты – последовательность команд, использующаяся для автоматизации рутинных задач. Пример скрипта: «Дуся, открой Яндекс Такси с указанным адресом, когда я прошу вызвать такси».
2016 год, Google, система Google Assistant. Для начала работы с Google Assistant на устройстве Android, достаточно фразы «Окей, Гугл». Умный персональный помощник Google Assistant – продолжение системы Google Now. В отличие от своей предшественницы, Google Assistant отвечает на простые и сложные вопросы.
Assistant включён в приложение для мгновенного обмена сообщениями — Google Allo, в телефоны компании Google — Google Pixel, в Google Home — умный голосовой Wi-Fi динамик для управления домом, в Android Wear — умные часы от Google.
Изначально Assistant был только на смартфонах Google Pixel. Теперь персональный Assistant можно установить на платформах Android и iOS как отдельное предложение, голосовой помощник на Android находится в предустановленном приложении Google.
Кроме того, компания Google заявила о намерении заменить на всех Android-аппаратах устаревший Google Now на более современный Google Assistant. С октября 2018 года Google Assistant доступен на русском языке. Google Assistant конкурирует с Яндекс.Алисой, Siri, Alexa и Cortana.
10 октября 2017 год, российская компания Яндекс, система Алиса. Алиса — виртуальный голосовой помощник, имитирующий живой диалог. Она распознаёт естественную речь, отвечает на вопросы, развлекает. Компания Яндекс выпустила умную колонку Яндекс. Станция, в которую интегрирована Алиса.
Управляйте различными устройствами. Напрягайте голосовые связки с умом! В следующей статье подробнее расскажу о голосовых лидерах.