«Они полны грязных мыслей»

Урбанистика
Фото: Олег Никишин / Getty Images

Автор бестселлера «Все лгут. Поисковики, Big Data и интернет знают о вас все» приезжал на пару дней в Москву, чтобы выступить в Институте «Стрелка». МОСЛЕНТА воспользовалась случаем и выяснила у Сета Стивенс-Давидовица, как сегодня простому пользователю анализировать большие объемы информации и стоит ли переживать из-за того, что «большой брат» смотрит за нами?

Сет Стивенс-Давидовиц
специалист Google по Data Science, автор книги «Все лгут»
К

Когда начинаешь исследовать Big Data и работать с анализом поисковых комбинаций, то узнаешь, что люди, оказывается, полны грязных мыслей. Но это - не преступление, и не должно рассматриваться, как преступление.

Как работать с Big data

В последней главе вы пишете, что все еще не женились. За тот год, когда «Все лгут» стала мировым бестселлером, у вас что-нибудь поменялось на этом фронте?

У меня все по-прежнему, я еще холостой. Так вы дочитали до конца? Приятно, а то в наши дни никто, по-моему, не дочитывает.

Меня удивило, что, хоть это и ваша первая книга, вы называете ее своим главным творением, magnum opus.

Да, есть такое ощущение.

Ближе к концу «Все лгут» вы объясняете, что основной ее смысл – в том, чтобы с примерами показать: общественные науки сегодня становятся все ближе к точным.

Конечно, ведь теперь можно обрабатывать большие объемы поисковых запросов, другую информацию, которая доступна исследователям Big data (больших объемов цифровых данных, - англ.) и получать вполне конкретные ответы на заданные вопросы.

Поделитесь лайфхаком: как простому пользователю искать и анализировать Big data сегодня?

Вы можете для этого пользоваться Google correlate. Самый мощный источник, на мой взгляд – это Google trends. Достаточно посмотреть результаты по конкретному поисковому слову или теме, понять, где они наиболее популярны, и уже на основании этого сделать первые выводы.

50b101cefe4e42480d3e1ae1a91d4461a67490d2
Фото: Adam Berry / Getty Images

Например, вам просто интересно, кто в мире больше всех сходил с ума по Чемпионату мира по футболу. Вы просматриваете данные по разным странам, залезаете в Россию, смотрите по регионам, определяете таким образом, кто сильнее всего проявлял интерес к теме.

Каждый может начать исследовать данные таким образом, дополнительного образования и навыков для этого не требуется. А начав, вы поймете, что у вас в руках – невероятно мощный инструмент, а раньше подобного источника информации просто не существовало.

Брутальный анализ

Да, специального образования не нужно, но в каждой главе вы говорите, что результаты надо перепроверять, сравнивать с другими источниками. Какие ошибки при обработке Big data наиболее распространены и как их избежать?

Вообще, я так доверяю Big data, потому что интуиция нас подводит. И если доверять только своим наблюдениям, мы допускаем очень много ошибок. Нам часто кажется, что мир работает так, а на самом деле все устроено иначе, - множество книг об этом написано. И работая с Big data ты себя от таких ошибок ограждаешь. Но это в теории.

7dcdd8fd4f31a6d0dd03ce1e4a712f240811fe6e
Фото: Daniel Berehulak / Getty Images

Проблема в том, что ошибиться можно, и работая с большими объемами данных. Можно, глядя на цифры, посчитать, что нашел факты, которые подходят к твоей истории. При этом не обратив внимание на то, сколько дыр и недоработок в этой истории. Так что лучшие из ученых, которые работают с Big data, постоянно выискивают проблемы в найденных данных, пытаясь проанализировать и понять, почему их выводы могут быть неверными. Надо быть скептиком, обсуждать результаты с коллегами, прислушиваться к их мнению, проверять их теории. И только, когда ваши выводы пережили такой брутальный анализ, этим результатам можно доверять.

Бывает, что поиск по нескольким каналам не дал результатов, и кажется, что – все, тупик. Какие альтернативные источники и способы поиска вы посоветуете на такой случай?

Где-то рассчитывать на Big data стоит, а где-то – нет. Предположим, вы хотите предсказать, каким будет мир через 20 лет. Не думаю, что Big Data поможет вам в этом. Можно, конечно, выстроить какую-нибудь сумасшедшую модель, потратить на исследование кучу денег, но, по-моему, вы только будете дурачить себя и окружающих. Наш мир - слишком сложная система, чтобы можно было дать точный прогноз на 20 лет. Такой тип вопросов не решается ни при помощи анализа Big Data, ни каким-либо другим типом исследования. В таком случае надо быть честным и признаться: Big Data здесь не работает.

Но если говорить о вопросах более простых и конкретных, которые касаются политики или экономики, то здесь Big Data обычно дает возможность найти что-то, от чего можно оттолкнуться.

«Большой брат» смотрит

В наши дни, когда видеокамер вокруг становится все больше, а история поисковых запросов любого пользователя может быть вскрыта и проанализирована, стоит ли переживать о том, что «большой брат» смотрит за нами? А выходя в город, на всякий случай одевать темные очки и маску из аптеки?

Если обратиться к истории, то можно видеть, что сильные правительства творили зло вне зависимости от того, был у них доступ к анализу Big Data, или нет.

A9989bcd7e449b8e28726ccbf4e1b0206953e817
Фото: Athit Perawongmetha / Reuters

Не думаю, что на сегодняшний день можно говорить о тотальной слежке, вряд ли это под силу хоть какому-то из современных правительств. Да, повсюду камеры, но они просто передают и фиксируют происходящее. Слишком сложно было бы одновременно распознавать и отслеживать множество лиц и фигур в городском потоке.

Но можно выбирать мишени, и наблюдать за действиями конкретного человека, дожидаясь, пока найдется что-то, что можно было бы ему инкриминировать. Ведь никто не идеален, особенно в частной жизни. И каждый совершает поступки, которыми невозможно гордиться.

Лично я верю в то, что Big Data помогает не разрушать, а улучшать жизнь. И в книге и в лекциях я в основном говорю о позитивных вещах, которые могут делать энтузиасты, организации и правительства, работая с большими объемами информации. И в здравоохранении, и в образовании, и в других областях.

А в области безопасности? Давайте рассмотрим пример из вашей книги: мужчина убил бывшую одноклассницу, и расследование показало, что всю неделю перед этим он сотни раз набирал поисковую комбинацию «как убить человека», часто в сочетании с ее именем. Вы там размышляете, что девушку можно было бы спасти, если бы для таких случаев существовала система анализа и предупреждения.

265f3d7dd71aece98e08ca8e5661db5ecb8cc5ff
Фото: Стрелка

Знаете, когда начинаешь исследовать Big Data и работать с анализом поисковых комбинаций, то узнаешь, что люди, оказывается, полны грязных мыслей. Но это - не преступление, и не должно рассматриваться, как преступление. Не стоит приравнивать ввод поисковой комбинации «как убить жену» к намерению совершить это преступление. Если судить так строго, то большинство пользователей стоит посадить за решетку на основании поисковых комбинаций, которые они когда-либо вбивали.

Процент правды

Прежде, чем ехать в Россию, вы же наверняка попробовали составить представление о стране на основе анализа Big Data. Интересно, какую картину вы получили?

Знаете, анализируя поисковые запросы из разных стран, я убедился, что люди везде ведут себя очень похоже. Что бы не происходило в политике и в экономике, люди повсюду ищут в сети развлечения: игры, новости, порнографию. На этом фоне выделяется, что в июне-июле вся Россия следила за Чемпионатом мира по футболу. Но это и так очевидно, и без анализа Big Data.

Можете дать практические рекомендации, как простым пользователям и государству в России пользоваться результатами анализа Big Data. Ведь это революционный, очень мощный инструмент.

Я бы каждому порекомендовал вести блог или видео-блог. Это позволяет оформлять и развивать собственные идеи, дает стимул учиться и все лучше работать с анализом больших объемов данных.

А для государства очень действенной мерой было бы проводить и анализировать по всей стране замеры состояния здоровья населения. Например, полезно было бы выяснить, где самый высокий уровень депрессии и тревожности. Сегодняшние способы работы с Big Data позволяют при необходимости рассматривать неблагополучные места в сильном приближении. А зафиксировав проблему, уже можно искать пути ее решения. Так что на государственном уровне, я думаю, это отличный инструмент для диагностирования социальных проблем и проблем в области здравоохранения.

Ваша книга с одной стороны вдохновляет, а с другой - разочаровывает. Потому что доказывает: двойная мораль теперь повсюду, и все врут, как написано на обложке.

Слушайте, жизнь всегда была такой. В ежедневном общении люди не говорят друг другу всей правды, что-то скрывают. В наши дни анализ Big Data позволяет увидеть и исследовать это второе дно. Ложь не нова, просто теперь мы можем лучше оценить и измерить процент правды.