Разбираем алгоритм Twitter

Маск сдержал обещание и опубликовал код работы алгоритма Twitter. Это первый случай, когда крупная платформа показывает свои алгоритмы. Вроде бы как это сделано с целью улучшить работу рекомендаций. Я же вижу в этом большую угрозу и в конце покажу, как можно «взломать алгоритм».

Речь в статье и разборе алгоритма пойдёт именно о вкладке «Для вас», то есть лента рекомендаций. Каждый раз, когда пользователь открывает вкладку, системы создаёт список из 1500 лучших твитов. Далее они делятся 50/50 между аккаунтами, на которые подписан пользователь и внешними источниками. После фильтрации контента создаётся подборка из 50 твитов, которые пользователь и увидит. А дальше начинается интересное.

На охваты влияет соотношение подписчиков и исходящих подписок. То есть аккаунты с большим количеством исходящих подписок и малым числом аудитории имеют меньший охват. Условно назовём их «массфоловеры», хоть это и некорректно. 

Пример: у профиля А 100 подписчиков и 1000 исходящих подписок. У профиля Б 1000 подписчиков и 100 исходящих подписок. Профиль Б для алгоритма более важен, чем профиль А.

Пользователи с Twitter Blue действительно имеют приоритет в охвате. 

При условии подписки пользователя на меня, то эффект влияния платной галки х4, если не подписан то х2 (относительно пользователя без Twitter Blue).

Алгоритм разделяет 4 типа страниц (этого кода сейчас нет в репозиторий, где он изначально был. Либо удалили, либо добавили по ошибке).

— опытные пользователи (хз что это значит, возможно давно зарегистрирован или имеет большую аудиторию)

— Демократы

— Республиканцы 

— Илон Маск (не шутка, это отдельный тип страницы) 

Факторы, влияющие на отображение твита во вкладке «Для вас»: 

— если у пользователя есть вероятность поставить лайк/ретвит этому сообщению 

— открывает ваш твит и остаётся там 2 минуты (зачем? ну разве что реплаи почитать, это объясняет высокие охваты у тредов) 

— переходит в ваш аккаунт 

Зато картинка или видео в твите повышают его видимость.

В паре источников я нашёл упоминания о том, что внешние ссылки снижают видимость, но в коде я этого нормально не увидел и не понял.

Кроме того, слова, которые алгоритм помечает как «неизвестный язык», получают множитель 0,01, что просто убивает ранжирование. То есть слова с ошибками и какие-то сложные новые термины могут убить охват. .

Плюс в той же статье нашли упоминания о снижении видимости твитов про крипту. Я не нашёл.

Что влияет на снижение репутации, а следовательно, и охватов: 

— вас блокируют 

— вас мьютят 

— жалобы на нарушения 

— жалобы на спам 

— отписки (но влияние меньше, чем у прошлых пунктов) 

В описании к коду есть интересная подробность. Twitter учитывает отписки только 90 дней, из-за лимитов баз данных. И не даёт вечный теневой бан.

Насколько сильно эти факторы влияют на охваты? ОЧЕНЬ СИЛЬНО.

Разберём этот блок с описанием весов сигналов алгоритма.

ДействитеЭффектВлияние
Лайк Положительный0,5
РепостПоложительный1
Пользователь открыл Твит, ответил/лайкнул его или остался там более 2 минут.Положительный11
Пользователь открыл профиль, перешёл в твит, лайкнул/ответил на негоПоложительный12
Ответ на твит (комментарий или реплай, как их принято называть)Положительный27
Пользователь прокомментировал твит и вы ему ответилиПоложительный75
Пользователь скрывает твит/автора, блокирует его Отрицательный-74
Жалоба на твитОтрицательный-369

Пользователь, переход на ваш твит и остаётся там более 2 минут, получает в 22 раза больший вес, чем тот, кто просто лайкнул ваш твит. Если он зайдёт в ваш профиль через ваш твит и лайки/ответы на твит = в 24 раза больше, чем обычный лайк. Если он ответят на ваш твит? В 54 раза больше, чем лайк. Если они ответят на ваш твит *и* вы ответите на их ответ? В 150 раз больше, чем лайк.

То есть я сделал тред про SMM, пунктов на 20. Юзеры заходят в него, лайкают, читают. Я им отвечаю на их ответы = ГИГАНТСКИЙ ОХВАТ. Просто невероятный.

Жалоба на твит даёт эффект равным — 738 эффекту лайка. Не совсем понятно, учёт идёт всех жалоб или нет.

В алгоритме Twitter есть специальное условие для «обращений государства». То есть буквально прописано, что по запросу органов можно изменять видимость.

Алгоритм снижает актуальность твита на 50% каждые 6 часов.

Сколько твитов публиковать эффективно?

В системе есть параметр ранжирования Tweepcred. Это аналог Google PageRank, который работает для ранжирования страниц в поисковой выдаче. Что он делает.

У каждого аккаунта в Twitter есть своя оценка, грубо говоря, карма аккаунта. Она зависит от количества и качества его взаимодействий с другими пользователями: выше оценка, больше влиятельности в бездушных глазах соцсети есть у этого аккаунта. То есть его контент важен и нужен другим.

Насколько я понял, базовая оценка проводится на простых параметрах: дата регистрации аккаунта, количество подписчиков и устройство (хз).

Дальше оценка корректируется на основе соотношения количества подписчиков к количеству подписчиков.

Окончательная оценка по шкале от 0 до 100 — это Tweepcred оценка, отражающая репутацию пользователя в Твиттере.

Эта оценка используется для определения того, каким пользователям следует порекомендовать подписаться или контент каких пользователей должен быть выделен.

И причём тут частота твитов? А всё просто, если Tweepcred выше 65, то можно твитить сколько угодно, всё будет получать охват. Если ниже 65, то алгоритм рекомендаций будет брать только 3 твита в день.

Самый важный вопрос: как узнать свой Tweepcred? Никак. Возможно умельцы запилят потом ботов каких-то для проверки, но сейчас чекнуть не получится.

Почему раскрывать алгоритм плохо?

Подобрались к самому интересному. Ещё в момент анонса я был против этого. В чём проблема?

  1. Зная точно, как работает алгоритм, я могу его использовать в своих целях. Мои цели благородные, а чьи-то не очень.
  2. Получается есть реальный смысл накручивать ботов и потом их отписывать массово, это снижает охваты у аккаунта, который является целью атаки.
  3. Надо писать треды. Это и без того было понятно, но сейчас всю контент-стратегию в Twitter я бы переориентировал только на них. Гигантские охваты.
  4. Накрутки, по идее, работают.

Зная вес, зная влияние всех факторов, что мешает их использовать? Особенно, если у меня плохие умыслы.

Алексей Ткачук

Digital-блогер, SMM-стратег, создатель блога Dnative.ru, сооснователь подкаст-платформы mave.digital и сервиса для поиска блогеров ВКонтакте statama.ru

В SMM с 2013 года

Это я написал статью. И весь блог.

© 2016-2024 Dnative 

ИП Ткачук А.С. ИНН 780454926191

Close