Диалоги человека и машины

как исследовать коммуникацию людей с Siri

16:47, 16 ФЕВРАЛЯ 2018
ФОТО:  Иллюстрация: Татьяна Сафонова
Антрополог Екатерина Хонинева защитила в Европейском университете в Санкт-Петербурге магистерскую диссертацию на основе 250 диалогов людей с Siri и другими аналогичными программами. Мы поговорили с исследователем об этнометодологии, конверсационном анализе и взаимодействии человека и машины.

– Как появилась идея этого исследования? Вы, наверное, посещали курс «Антропология киборгов» в Европейском университете, который читает декан факультета антропологии Илья Утехин?

– Была небольшая предыстория еще до этого курса. Я первое образование получила программистское и занималась компьютерной лингвистикой. Тогда начала интересоваться искусственным интеллектом: в этой области я никогда не работала, но читала определенную литературу, в основном о философии искусственного интеллекта. А потом этот интерес ушел в более приземленную область антропологии технологии. 

Я познакомилась с антропологом Ильей Утехиным на курсе семиотики, где мы обсуждали, что происходит в коммуникации между человеком и искусственной личностью. После знакомства он пригласил меня на курс по антропологии киборгов. Я прослушала весь этот курс, и тогда появилась идея писать бакалаврскую работу на эту тему, а потом уже поступать в Европейский университет и заниматься антропологией технологии более прицельно. 

В то время эта область только начинала развиваться: на рынке даже еще не было русскоязычных программ, распознающих устную речь. Если я не ошибаюсь, тогда была только «Яндекс.Диктовка» и чат-боты. Siri появилась на русском языке в 2015 году, когда я училась на первом курсе магистратуры. Тогда у меня уже сформировалась другая широкая область интересов: лингвистическая антропология и исследования коммуникации. Эти две линии идеально сошлись, и возникла идея посмотреть, что представляет собой живая коммуникация человека с машиной. Я имею в виду именно взаимодействие с помощью разговорной речи, а не диалогового окна или поисковой строки.

Меня интересовали ситуации, когда человек в реальном времени строит осмысленный диалог с программой, но во время коммуникации происходит «поломка», разрыв и непонимание. Тогда мы сможем лучше понять, что представляет собой нормальная коммуникация, каковы ее механизмы и как она устроена. Примерно этим и занимаются исследователи в области конверсационного анализа, к которому я обратилась как к методу и основной парадигме. 

– Расскажите подробнее о методе. Что такое конверсационный анализ?

– Это область исследований коммуникации, которая родилась из этнометодологии и работ социолога Гарольда Гарфинкеля. Гарфинкель предлагал новый взгляд на то, что представляет собой социология, ее предмет и метод, который должен вскрыть механизмы того, как устроено социальное действие. И если применять эту же оптику к коммуникации, повседневному разговору, то коллеги и последователи Гарольда Гарфинкеля – Эммануэль Щеглов, Харви Сакс, Гейл Джефферсон – разработали язык описания и теоретическую модель, с помощью которой можно увидеть, как люди в повседневном взаимодействии создают взаимосогласованный смысл того, что происходит в этом взаимодействии. 

Это простые правила, но они были не очевидны до этого. Например, люди во время коммуникации говорят без существенного зазора между репликами друг друга, или у нас есть специальные механизмы, с помощью которых мы демонстрируем, что слышим и понимаем собеседника.
Допустим, сейчас я буду долго говорить, не останавливаясь, но периодически вам будет казаться, что надо подтвердить, что вы меня слышите. Это важно – показать, что связь не оборвалась и вы следите за тем, что я говорю. Этими механизмами социализированные люди владеют неосознанно – они не рефлексируют над тем, что в повседневной коммуникации применяют большой репертуар подобных стратегий и это сложная система. Но если человек оказывается в ситуации, когда необходимо общаться с собеседником, который не полностью владеет всем репертуаром прагматических механизмов, ему приходится что-то делать с собственной речью. И изначально этот проект, в первую очередь, должен был быть прикладного характера.
– Я как раз думал, что к исследованию взаимодействия человека с Siri должны проявлять интерес разные IT-компании.

– У нас была идея попытаться вступить в коллаборацию с технологической компанией, которая разрабатывает голосовые ассистенты. Естественно, речь не об Apple, но, к примеру, «Яндекс» недавно выпустил «Алису» (когда появилась идея исследования, был 2015 год и об «Алисе» еще не было и речи). Я писала в «Яндекс» и предлагала сотрудничество, антропологический взгляд на то, как эти программы работают в реальности. 

В таких компаниях обычно разработка продукта происходит так: есть набор требований к тому, что программа должна делать, затем она проходит тестирование, и чаще всего оказывается, что программа удовлетворяет требованиям. Дальше она попадает на рынок, люди начинают ей пользоваться, а разработчики уже понятия не имеют, как происходит процесс взаимодействия с программой. 

Все силы программистов обычно брошены на то, чтобы создать интерфейс, обеспечить адекватное звучание и работу на уровне семантики. А уровень прагматики – как вообще может быть организован диалог, каким образом в диалог включен контекст и как осуществляются отсылки к предыдущим высказываниям – все это остается полностью вне поля разработчиков. И, на мой взгляд, это напрямую влияет на то, что эти технологии до сих пор не стали частью повседневности, как обещалось.
Изображение

Иллюстрация: Татьяна Сафонова

– Разве голосовые ассистенты уже не стали обыденностью?

– Мне кажется, нет. Существуют, конечно, «технооптимисты», которые производят радужные манифесты о том, что в ближайшем будущем искусственный интеллект станет полноценной частью нашей повседневности. Но в реальности мы видим другую ситуацию: подобными программами пользуются люди, которые считают использование подобных технологий вкладом в будущее. Они прекрасно понимают, что эта программа работает неудовлетворительно, она не справляется с задачами, для которых была создана. Но сам факт, процесс использования этой технологии дает ощущение, что ты находишься в ближайшем будущем. 

– Как было устроено ваше исследование? 

– В нем было две части. Это работа над диалогами людей с голосовыми ассистентами и конверсационный анализ, а также я брала интервью у людей и пыталась понять, зачем им это надо и какие смыслы они вкладывают в практику пользования технологией. Было трудно найти информантов, потому что ты сталкиваешься с тем, что люди не пользуются голосовыми помощниками. Они говорят что-то вроде: «А, да, я знаю, один раз попробовал, но это не работает – эта программа очень глупая». Так что найти кого-то, кто пользуется программой на регулярной основе, было проблематично. 

Информантов я находила сама. Я искала через социальные сети людей, которые либо хотят начать пользоваться этой технологией, либо уже пользуются на регулярной основе. В итоге набралась группа людей. Я попросила их записать один речевой день: в течение всего дня ходить со включенным диктофоном и по возможности пользоваться Siri. У меня было 22 информанта, и получился корпус из 250 диалогов. Определенных ограничений не было. Иногда приходилось прослушать целый день, а там всего лишь один разговор с Siri. Это тяжелая работа, но зато она позволяла посмотреть, как эти диалоги включены в повседневный контекст. Теперь у меня есть более-менее полное представление о том, когда и в каких обстоятельствах люди могут обратиться к взаимодействию с Siri, и я могу выделить определенные коммуникативные жанры этого взаимодействия.

– Корпус из 250 диалогов выглядит внушительно. Интересно узнать, о чем люди говорят с Siri и другими ассистентами, и какие «поломки» возникают? Я читал текст вашего выступления про гендерную специфику подобной коммуникации – тогда в рамках типологии вы выделили два основных жанра: функциональные взаимодействия и small talk.

– С функциональными взаимодействиями, я думаю, все понятно. Пользователи решают прикладные задачи, для которых созданы подобные ассистенты, или используют тот или иной функционал на смартфоне – например, ищут информацию в Google. И в этом случае, когда человек видит и понимает, какой он хочет получить результат, он пытается добиться его «более интенсивно». С точки зрения конверсационного анализа, это, наверное, наиболее яркие примеры того, как человек начинает адаптировать свою речь для того, чтобы эта программа, наконец, тебя поняла.

– Вы не могли бы привести пример?

– Например, если происходят ситуации непонимания, человек или собеседники прибегают к «поправке» (repair). Это стратегии, которые позволяют восстановить нарушенный порядок взаимодействия. Есть большой список вариантов, как может осуществляться эта поправка, например можно повторить реплику. Но в голосовые системы не встроили такие способы восстановления понимания. Получается, во время коммуникации с Siri есть два собеседника: один полноценно владеет стратегиями восстановления понимания, а другой не то что ими не владеет – он в принципе не может распознать их в качестве поправки.
Если человек поправляет себя, то он говорит: «Ой, нет, я не то сказал, а вот это» и предлагает новый вариант. Но Siri воспринимает предложение как запрос в Google, она отправляет его в сеть и обрабатывает – то есть поправка «нет-нет-нет» будет идти в поисковой строке. Интересный момент, который мне удалось выделить при анализе диалогов, – это то, что человек обучается. Мы можем наблюдать, даже на уровне одного речевого дня, как человек постепенно учится взаимодействовать с таким странным нетипичным собеседником, как Siri.
– Получается, что не Siri учится понимать человека, а человек – Siri?

– Да, в том-то и дело, что Siri не учится ничему – это человек в итоге начинает подстраивать свою речь под нее. Еще есть интересные вещи, связанные с контекстом. Все взаимодействие, весь диалог между человеком и Siri сейчас – это набор из множества микродиалогов. Если речь идет о человеке, то он обычно помнит, что происходило до ближайшей пары фраз в конкретном диалоге, и может отослать к нему, используя дейктические высказывания, например, «этот», «сюда» или «тогда». Но в случае с голосовым ассистентом привычные вещи, о которых мы никогда не задумываемся в повседневном взаимодействии, оказываются для нас выпуклыми. Программа никогда не сможет понять, что имеется в виду под «тогда», или «вон та», или «как в прошлый раз», потому что доступ к контексту в рамках диалога для нее закрыт. Это тоже простая, но важная проблема, решение которой позволило бы улучшить качество взаимодействия между программой и человеком. 

Человек начинает обучаться и каждый раз строить свое высказывание с нуля, как будто ничего до этого не было. Поэтому регистр взаимодействия (система отбора языковых средств в зависимости от социальной ситуации - Примеч. ред.), если вообще можно говорить о регистре общения человека с голосовыми ассистентами, характеризуется высокой синтаксической точностью и своеобразной полнотой. Реплики человека в диалоге с Siri – это всегда длинные, большие высказывания, которые исключают двусмысленность или возможность потенциального непонимания. 
Изображение

Иллюстрация: Татьяна Сафонова

– Хорошо, с функциональным взаимодействием все более-менее понятно. А что со small talk?

– Small talk – это разговор ради разговора, неформальное взаимодействие с программой. Здесь есть интересная деталь: когда человек взаимодействует с Siri или другими программами в присутствии посторонних людей, он начинает ориентироваться еще и на них, и чаще всего это взаимодействие превращается в сложную шутку. В этом случае человек не упрощает свою речь, а все ситуации непонимания с Siri и сбои приносят, скорее, удовольствие, потому что все превращается в некую шутку или в игру – насколько забавно она может ответить на тот или иной вопрос. Зачастую топики для small talk включают сексуальные домогательства, флирт, гендерно маркированные оскорбления.

– Неужели люди флиртуют с Siri?

– Да, примерно так все и обстоит. Ироничность ситуации заключается в том, что Siri никогда не будет идеально коммуникативно компетентной. Она не сможет обмануть нас, пройти тест Тьюринга – мы всегда догадаемся, что это не человек. Но какие-то ее ошибки, недостаточное соответствие человеческому облику, который она пытается имитировать, кажутся людям забавными. И если посмотреть на количественное соотношение на основе данных, которые я собрала, то больше половины диалогов, которые происходят между человеком и такой программой, заключаются в экспериментировании с ее возможностями, потехе и издевательстве над Siri или ее аналогами. В большей степени, конечно, речь идет о Siri, хотя я еще работала с Google Now и программой Cortana. Но Cortana – на английском, и там, в основном у меня все диалоги были в рамках функционального жанра. А Google Now работает исключительно в функциональном жанре – у него нет возможности поддержания small talk. 

– Насколько подобные исследования распространены у нас и за рубежом? 

– Не очень распространены. Тем не менее область исследования взаимодействия человека и искусственного собеседника в той или иной форме существует. Исторически эта область, в первую очередь, оказалась в сфере внимания компьютерных лингвистов и самих разработчиков, которые анализировали аспекты коммуникации человека и программы для того, чтобы внедрять полученные результаты в разработку.

Вторая область, в которой подобная проблематика развивалась, – это когнитивная психология и психология в целом. Это более узкое направление – то, что называется human-computer interaction, которое находится в рамках именно психологии и исследует индивидуальную вариативность поведения человека в рамках подобного взаимодействия. Чаще всего эти исследования носят характер эксперимента. Как следствие, трудно говорить о каком-то внимании к контексту, потому что людей просят что-то сделать, и в рамках задания они взаимодействуют с программой, далее анализируются речевые характеристики конкретного человека, и на их основе пытаются создать ту или иную статистику. Эти результаты, на мой взгляд, имеют мало отношения к антропологическому, социальному измерению того, что может происходить с человеком в процессе подобной коммуникации. 

Есть еще одна книга, опубликованная в 1997 году, Робина Вуффитта и коллег – известных конверс-аналитиков. У них вышла работа, где с помощью конверсационного анализа анализировались диалоги человека с речевыми системами помощи в аэропорту. У этих программ была узкоспецифичная функциональность, и разговоры были сфокусированы на одной теме. В этой работе много интересного было сказано про структуру коммуникации и о том, что подобный анализ может дать для понимания того, что такое нормальная коммуникация в принципе. Но, повторюсь, работа старая, и, насколько мне известно, после нее подобных исследований больше не было. Я имею в виду, не было работ, которые бы применяли аналитический инструментарий социальных наук для анализа данной проблемы, которая уже как будто зарезервирована за разработчиками и за когнитивными психологами. Это тоже интересный вопрос – как некоторые области оказываются в поле зрения одних исследователей и исключаются из поля зрения других.
Я не претендую на то, что мое исследование представило цельную картину, мое исследование – это задел на будущее. Но возникает вопрос – кому это нужно? С точки зрения человека, который не включен в те или иные академические области и академические институты, такая тема исследования – как человек взаимодействует с искусственным интеллектом – кажется невероятно интересной. Я со стороны слышала огромное количество похвал, видела заинтересованность в том, что же там получится, много людей хотели прочитать мою работу. 

Но с точки зрения антропологов эта тема не так интересна, потому что, например, она в большей степени заточена на прикладной результат. И если честно, диалоги человека и Siri гораздо более скучны и предоставляют гораздо меньше аналитических вызовов, в отличие, например, от сложноорганизованной коммуникации между людьми, которой обычно занимаются исследователи в области конверсационного анализа. 

Если ориентироваться на аналитический результат, лучше взять другой кейс, потому что взаимодействие человека и технологии с точки зрения жадного до изысканной теоретической рефлексии антрополога не так интересно, как, к примеру, взаимодействие врача и пациента в медицинских контекстах. Последнее – богатая тема, ей много занимаются и постоянно что-то новое находят. Очевидно, что человеческая речь гораздо более сложная, чем то, что может сейчас дать нам Siri. С другой стороны, есть еще потенциальные коммерческие заказчики подобных исследований, но и они пока еще недостаточно заинтересованы, чтобы на последние появился спрос. Поэтому мне трудно сказать, что будет с этой областью, потому что она «маргинальна» сразу в нескольких смыслах.

– Вы отметили, что недостаток этой области исследований отчасти заключается в том, что диалоги человека с Siri, как правило, значительно беднее, чем диалоги людей друг с другом. Но помимо этого вы также брали и интервью у информантов о том, как они взаимодействуют с Siri. Может быть, там было что-то интересное и важное для анализа?

– Да, брать интервью было неплохой идеей, потому что изначально я планировала сосредоточиться только на анализе диалогов людей с Siri. У меня было два пула вопросов: первый касался коммуникации, а второй – практик использования. 

Анализировать разговоры с информантами забавно, потому что в них можно заметить частые перескоки от того, что реально происходило в их взаимодействии с Siri, того, как они ей пользуются, к тому, как это представлено, например, в фильмах. Получается зыбкая грань между тем, что человек рассказывает непосредственно о себе, и тем, как оно должно быть на самом деле.

Что касается обсуждения коммуникации, то там прослеживалась интересная тенденция. Во время интервью информанты начинали осмыслять свое речевое поведение во взаимодействии с технологией практически в терминах конверсационного анализа. Они обсуждали свой опыт и описывали его, используя, например, такие понятия, как «последовательность», не обращая внимания на то, что нормальной человеческой коммуникации вообще-то и свойственна последовательность. То есть мы помним о том, что происходило до этого высказывания, мы примерно представляем, что будет далее, и мы это вместе согласовываем. Затем в интервью отмечаются такие вещи, что мы можем отсылать к своему личному опыту. То, что мы можем использовать слова, которые упрощают нашу речь: «это», «то» и все прочее.

– Когда я читал статьи, в которых используются техники конверсационного анализа, то запомнил, что в них большое внимание уделялось фиксации в транскриптах интервью пауз в ходе разговора, смеха и других невербальных реакций. В вашем случае все было устроено аналогичным образом?

– В данном случае речь идет скорее о фиксации и попытке объяснить, какую роль в коммуникации играют разные мелкие элементы и фрагменты речи, которые на первый взгляд кажутся незначимыми. 

Например, при анализе диалогов с Siri можно заметить, что люди полностью избегают пауз, хезитаций (Остановка в речи, связанная с поиском соответствующего слова, грамматической формы. Часто сопровождается эканьем, использованием слов-паразитов. – Примеч. ред.) и повторов слов – совершенно нормальных структурных элементов в нашей повседневной речи. Допустим, сейчас я долго говорю и периодически мне, чтобы построить мысль, нужна пауза. Или, если я начинаю произносить некое высказывание, но понимаю, что я могу его лучше переформулировать, обрываю свою речь – это называется самопоправка – и продолжаю так, как мне бы хотелось ее завершить. Это возможно, когда я разговариваю с человеком, но невозможно, если я разговариваю с искусственной личностью, потому что она не может обработать самопоправки человека.
Видите, сейчас мою речь нельзя было бы представить в разговоре с Siri. Я должна была бы заранее продумать всю фразу, нажать кнопку и отослать ее программе. Интересно, что это речевое поведение близко к письменному регистру, который также в сравнении с разговорной речью отличается высокой синтаксической строгостью и продуманностью высказываний.
И здесь можно предположить, что регистр общения человека с голосовой системой посредством устной речи повторяет процедуру формулировки запроса в текстовом виде, как они обычно бывают адресованы поисковикам. Человек экстраполирует свой опыт взаимодействия с привычной компьютерной технологией – «Яндексом» или Google – на коммуникацию с голосовым ассистентом. Получается такой «устно-письменный» регистр.
Изображение

Иллюстрация: Татьяна Сафонова

– А в принципе все люди одинаково говорят с Siri, или есть гендерные либо возрастные различия? Те же дети, как я понимаю, говорят с искусственным собеседником иначе, чем взрослые.

– Это хороший вопрос. Специфика отбора информантов для моего исследования была такой, что мне нужно было найти хотя бы кого-то, кто пользовался этими технологиями. Естественным образом, у меня получилась выборка из молодых людей. В принципе, среди моих информантов нет никого, кто был бы старше 35 лет, – именно эти люди используют такие технологии. 

Исследователи часто обращаются к дихотомии digital Immigrants и digital natives. Natives – это те, кто вырос вместе с технологиями, те, кто привык включать их естественным образом, и они буквально растворяются в пользовательском опыте. А те, кого называют immigrants, – это старшее поколение, они освоили интерактивные технологии уже в более позднем возрасте, и им нужны специальные усилия для того, чтобы включать их в свою повседневность. И они не всегда видят в этом смысл. 

У меня есть несколько разговоров с Siri детей 11 лет. И именно на структурном уровне все стратегии, все мои наблюдения оказались общими как для человека 30 лет, так и для ребенка 11 лет. Только одни осваивают эти стратегии чуть медленнее других.

– Медленнее осваивают взрослые или дети?

– Дети. Они мгновенно функциональное взаимодействие переводят в жанр шутки. И мне кажется, что они гораздо меньше усилий привлекают для того, чтобы обеспечить результат, потому что для них сам процесс превращается в игру. Чаще всего там было несколько детей, и это все сводилось к тому, что они друг у друга вырывали телефоны, начинали орать на Siri и обзывать ее. Цель была не в том, чтобы быстро достичь какого-то результата, а в том, чтобы, например, она наконец-то выдала им абсолютно все видео Ивангая, и этот список никогда не смог бы их удовлетворить. Тогда я узнала, кто такой Ивангай. 

– В заключение хотел задать вопрос про дальнейшие планы. Ваша кандидатская диссертация посвящена другой теме – изучению русских католиков. Вы пока решили отложить дальнейшее исследование взаимодействия человека с Siri?

– Да, я занимаюсь теперь другой темой, хотя меня не покидает интерес к лингвистической антропологии. В антропологии религии, которой я сейчас занимаюсь, меня интересуют различные аспекты в области семиотических идеологий, лингвистических идеологий, того, как они могут быть представлены в религиозных сообществах. Я не поменяла тему – поменяла только кейсы. Но тема с Siri, мне кажется, пока не диссертабельная – трудно представить себе место, где я могла бы защититься с такой темой в России.

– В России многие темы – не диссертабельные.

– Это правда. Но еще казалось, что у меня недостаточно материала для того, чтобы это превратилось в интересное исследование и большой текст кандидатской диссертации. На уровне магистерской диссертации этого, наверное, достаточно, но на некоторых этапах я чувствовала сложности. Особенно когда мои коллеги, которые уезжали в поле на два-три месяца, привозили тонну материала, который они зачастую не могли полностью затранскрибировать, и этот материал предоставляет простор для теоретических изысканий. А у меня каждый фрагмент был буквально на вес золота.


Кажется, что это исследование имеет смысл пока отсрочить, отложить до момента, когда эти технологии станут работать лучше. А на том уровне, как они работают сейчас, думаю, у меня получилось выжать из материала все, что можно было выжать.