Python, Навыки | Альбина Анисимова, Олег Брагинский
Представьте знания листами бумаги. Мысленно соедините в книги. Расставьте в шкафу. Библиотека ответит на любой вопрос при достижении внутренней полноты. Основатель «Школы траблшутеров» Олег Брагинский и ученица Альбина Анисимова оценили связность умений.
1’137 навыков (1), преподаваемых в Школе траблшутеров, и темы, планируемые к изучению, искали в Википедии, чтобы сформировать ссылку (2) на описание (3). При совпадении названия и страницы ставили значение «Истина» в столбец проверки (4) и «0» в необходимость правки (5):
Значением «1» отмечали минимальное перефразирование, дополнение, перевод:
- Adobe Premiere – Adobe Premiere Pro
- Big Data – Большие данные
- 6 сигм – Шесть сигм.
«2» отвели под более существенные правки:
- Анализ рынка – Исследование рынка
- Язык жестов – Жестовые языки
- Янте – Закон Янте.
«3» обозначили строки, модификация которых не помогла найти страницу описания. Оказалось, что 6% изучаемых в Школе умений (6) всё ещё не обзавелись собственными страницами Википедии:
Вторым шагом отыскали 129’510 страниц (8), на которые ссылаются обнаруженные описания (7):
Построили сводную таблицу новых элементов (9), подсчитали встречаемость (10), оценили полезность (11) в качестве навыка. Наиболее частые находки свелись к упоминанию национальных и государственных библиотек, что делает честь редакторам, ссылающимся на источники:
Сформировали перечень из двух сотен навыков к рассмотрению для добавления в учебный план Школы траблшутеров и/или для съёмок обучающих роликов:
Оценили связность уже преподаваемых умений и планируемых к изучению. Обнаружили, что «Теория заговора», «Вирусы», «Права человека», «Фолк-хистори», «Мифология», «Философия», «Мировоззрение» и «Бактерии» упоминают грандиозное количество внешних источников:
На третьем шаге количество страниц, на которые ссылаются обнаруженные описания достигло 169’846, что добавило к рассмотрению очередные 200 потенциально полезных умений. Шаг четвёртый завершился на 188’672 описаниях и следующих двух сотнях навыков к рассмотрению.
Пятым шагом финализировали количество тем, полезных траблшутерам на уровне 1’850 штук:
При этом, доля навыков, не имеющих страниц в Википедии, упала в полтора раза – до 4% (12):
Количество перекрёстных ссылок превысило 607 тысяч:
Стала очевидной необходимость изучения биографий и трудов 74 исследователей и учёных:
В погоне за всеохватностью проявилась тенденция к расширению областей интереса. Если до эксперимента первенство отводили навыкам, то статистический подход добавил к рассмотрению новые категории. Определяя с чем имеем дело, выкачали первые абзацы (13) страниц Википедии…
… и выполнили типизацию (14), которая дала следующее распределение:
Термины, теории, науки, дисциплины, системы, методики, концепции и программы планировались к изучению, но оказалось, что виды промышленности, состояния людей, чувства и эмоции рассматривались фрагментарно. Восстановим справедливость и скорректируем учебный план.
Добавление 713 тем (62%) повысило системность знаний на 478 тысяч ссылок (534%). И если раньше расписание Школы траблшутеров основывалось на логике, теперь к ней добавилась полнота связности. Хотя Википедия – не лучший инструмент для решения подобных задач.
Интересно:
- Пришлось отказаться от рассмотрения множественных ответвлений мировых религий.
- Значительная часть ранее не охваченных тем касалась психологии и философии.
- Описание взаимодействий с клиентами дают мало ссылок на внешние страницы.
- Блоки текста, касающиеся персоналий, часто помечены как недостоверные.
- Свежие страницы обнаружились у теорий и экономических терминов.
- Информация по управлению, праву и системам обновлялась давно.
- Короткими описаниями щеголяют свободы, издержки, энергетика.
- Длинные страницы достались информации и анализу.
Для пытливых приведём фрагменты Python-кода:
- Выкачка начальных страниц по навыкам Школы траблшутеров:
- Сбор ссылок на упоминаемые страницы:
- Сохранение первых абзацев описаний для последующей типизации:
Не удержались, построили облако тегов по обновлённому перечню тем для изучения в Школе траблшутеров: