К примеру, подходит к вам цыганка и говорит: «Я тут прочла твой твиттер и ясно вижу — помирать тебе от сердечной недостаточности». Вряд ли вы станете золотить ей ручку. Однако, если допустить, что цыганка эта знакома с исследованием пенсильванских ученых, то, может статься, она не только окажется права, но еще и подведет под свое предсказание убедительную научную базу.

Как вообще можно установить связь между твитами и болезнями сердца? Исследователи из Пенсильвании, на которых могла бы сослаться образованная цыганка, взялись решать эту задачу с размахом. Они собрали 148 млн твитов, написанных американцами за 10 месяцев и разделили их по округам (округа меньше штатов, но больше городов). В каждой группе твитов посчитали частоту упоминания слов, выражающих всевозможные эмоции, от ненависти до сюсюкающего восторга, а также фраз, характеризующих отношения с другими людьми. Для каждого показателя уже давно созданы отдельные словари, так что исследователям даже не пришлось ничего изобретать.

За факторы риска сердечных заболеваний ученые приняли обилие негативных эмоций и признаки плохих взаимоотношений с окружающими. В итоге они получили общую картину, отражающую, в каких округах люди теоретически должны чаще умирать от подобных болезней. Затем они сравнили свои цифры с данными центров по контролю и профилактике заболеваний США, которые уже давно подсчитали уровень смертности от коронарной недостаточности в разных округах.

Следовательно, анализируя твиты жителей определенных территорий, можно довольно точно предсказывать уровень смертности от сердечных болезней. Как минимум от коронарной недостаточности. Результат, если вдуматься, немного странный, ведь среднему пользователю твиттера в Америке всего 31 год, а умирают от сердечной недостаточности в гораздо более почтенном возрасте. Получается, что твитят одни, а умирают другие.

На деле же никакой мистики здесь нет, если посмотреть на результаты чуть шире, принимая во внимание целое сообщество, а не отдельных его представителей. В любой группе людей создается определенная обстановка — внутренний климат. Это происходит и в компаниях из трех человек, и в целых странах. Люди влияют на обстановку, обстановка влияет на людей: на их эмоциональное состояние, поведение, уровень стресса и в конечном итоге здоровье.

Поэтому когда какой-нибудь 20-летний студент из Нью-Йорка пишет в твиттер, как он ненавидит все сущее, это свидетельствует о том, что обстановка в этом месте та еще и где-то по соседству в данный момент преждевременно умирает от сердечной недостаточности 50-летний водитель автобуса. А мог бы и не умереть, живи он, например, где-нибудь на побережье в штате Мэн. Да и нытик студент, живи он там, вряд ли стал бы писать о том, как он всех ненавидит.

С другой стороны, в штате Мэн этот студент вполне мог бы впасть в депрессию и стать подопытным кроликом исследователей из Microsoft Research. Они заинтересовались проблемами чересчур меланхоличных соотечественников, которых в Америке насчитывается 27 миллионов, и решили прошерстить их твиттер. Ученые предположили, что социальная сеть может дать куда более точные сведения о душевном здоровье людей, нежели классические тесты, построенные на субъективной оценке своего состояния.

Они кинули клич на краудсорсинговой платформе, предложив всем желающим за 90 центов вознаграждения пройти тест на выявление уровня депрессии, а затем сообщить свой никнейм в твиттере. 489 человек диагностировали у себя начало депрессии за последний год, но не позднее 3 месяцев до начала исследования. Ученые собрали их твиты за 3 месяца уныния и принялись анализировать.

Разумеется, первым делом они обратили внимание на употребление слов, связанных с негативными эмоциями. Помимо этого, учитывалось время написания твитов, стилистика, частота постов, количество ретвитов, реплаев, расшаренных ссылок, подписчиков и подписок.

Депрессивные твиты отличаются обилием всевозможных hate, shit, nobody, suck и alone. Выяснилось, что авторы таких постов обычно делают записи в твиттере реже большинства. У них мало подписчиков, как, впрочем, и подписок. Люди с депрессией чаще других пишут твиты от первого лица и делают это обычно по ночам.

Научившись распознавать депрессию, эта же группа исследователей озадачилась вопросом, можно ли предугадать ее начало. На этот раз они заинтересовались твиттером дам, пребывающих в послеродовой депрессии — малоприятном расстройстве, косящем от 12 до 20 % молодых мам (во всяком случае, американских, поскольку это данные все тех же центров по контролю и профилактике заболеваний США).

Они собрали твиты 376 недавно родивших женщин за 6 месяцев: 3 дородовых и 3 послеродовых. Твиты после рождения ребенка помогли установить, кто впал в депрессию, а кто нет. Это позволило обнаружить в дородовых твитах меланхоличных мамаш признаки надвигающегося расстройства.

Так, например, женщины, склонные к послеродовой депрессии, еще до родов реже публикуют посты и отвечают на реплаи. У них мало подписок (число подписчиков не имеет значения), они чаще всего пишут о себе и от первого лица. Если же брать в расчет твиты не только за предродовые 3 месяца, а, скажем, за год до появления ребенка, то можно легко найти признаки других факторов риска: недостаток поддержки извне, проблемы с партнером и предыдущие депрессии.

В итоге исследователи разработали модель, которая с вероятностью 71 % позволяет предсказать, впадет ли беременная женщина после родов в депрессию или нет, основываясь на ее сообщениях в твиттере, размещенных  до появления ребенка.

Поскольку в твиттер любят писать не только молодые мамы, а вообще все, то тут для ученых открываются необозримые горизонты. Скажем, по обилию твитов про плохое самочувствие в отдельно взятой местности можно идентифицировать вспышку гриппа на несколько дней раньше, чем это сделают официальные инстанции – естественно, микроблогеру сообщить общественности о своей высокой температуре проще и быстрее, чем пойти к доктору.

Примерно тем же занимаются сотрудники Research at Google с той лишь разницей, что они анализируют поисковые запросы, в которых содержатся упоминания симптомов гриппа и лекарств от жара. Они также обнаруживают вспышки болезни как минимум на день раньше центров по контролю и профилактике заболеваний США.

С помощью модели ATAM (Ailment Topic Aspect Model) можно по твитам выяснить, в каких областях больше курят, — в проведенных исследованиях эти данные совпали с официальной статистикой по заболеваемости раком. А высокая частота упоминаний в твиттере физических упражнений согласуется с медицинскими данными о низкой заболеваемости в отдельно взятых городах.

Когда речь заходит об исследованиях, в которых информация добывается с помощью твиттера, неизменно встает вопрос этичности использования личных данных. С одной стороны, твиттер — вещь априори публичная, и, уж если вы решили сообщить миру о заусенце, странно жаловаться на то, что мир это прочел и принял к сведению. Другое дело, что, делясь незначительными, с вашей точки зрения, мелочами, вы сообщаете и о том, о чем, возможно, не хотели бы: о склонности к унынию, низкой социализированности или, скажем, зависимости от сериалов.

Впрочем, у вас есть возможность узнать, какую неочевидную правду может предательски поведать ваш твиттер. Для этого существует общедоступная программа Linguistic Inquiry and Word Count (LIWC), разработанная техасским социальным психологом Джеймсом Пеннебейкером и содержащая, помимо прочего, русский словарь. Готовы? Вот вам ссылка.