Python, Аналитика | Альбина Анисимова, Олег Брагинский
Система интернет-бронирования отелей Booking.com обратилась с задачей безлюдного определения эмоциональной окраски отзывов. Отказавшись от лингвистического подхода, нашли интересную закономерность: на любом языке негативный пост содержал больше знаков препинания.
Не все бизнесы могут похвастаться столь большими массивами данных, поэтому основатель «Школы траблшутеров» Олег Брагинский и ученица Альбина Анисимова расскажут о более простом способе разделения комментариев по группам благожелательности и выкашивании троллей на Youtube. С помощью программы на Python…
…выкачали 4’000 ссылок (1) на ролики (2) первого соавтора:
Сохранили…
… для всех видео (3) 11’542 текста комментариев (4) с данными авторов (5):
Провели нормализацию высказываний, приведя слова к начальной форме (6):
Лексемам (7) рассчитали суммарную встречаемость (8) в комментариях канала. При положительной или отрицательной эмоциональной окраске установили признак «Значимость=1» (9), остальные обозначили нулём. Позитивным проставили «Оценка=5», негативные пометили единицей (10):
На базе оценки слов (10) выяснили позитивность фраз (11), рассчитав (12) как среднее арифметическое (12) для значимых (9):
Аналогичным образом определили негативные комментарии (13), установив границей отсечения среднюю оценку в три балла (14):
Просуммировали эмоциональность авторов (15), рассчитав среднюю позитивность комментариев (17). Предсказуемо, отзывчивые писали чаще остальных (16) и подбадривали (17):
Негативщиков решили не пиарить, поэтому таблицу не приводим. Отметим только, что набравшие по шкале отзывчивости менее полутора баллов были нещадно заблокированы: нечего плодить злобу.
Несмотря на то, что привели пример на основе анализа постов видеохостинга, утверждаем, что подобный подход сработает для социальных сетей, форумов и чатов. Теперь дело за вами!