Полгода назад я писал про то, как мы участвовали в конкурсе по открытым данным с проектом "Московские школы". Потом было исследование московских результатов ЕГЭ, московских кружков и секций. Недавно удалось собрать все результаты в одном месте и аккуратно оформить:
Я хотел бы подробно рассказать про процесс сбора и обработки школьных данных. Оказывается, что для каждой школы в Москве публикуется достаточно много информации: результаты ЕГЭ, ГИА и олимпиад, профили учителей, бухгалтерская отчётность и списки кружков.
Рейтинги
Департамент Образования Москвы каждый год составляет рейтинг школ. Доступны срезы за 2015, 2014 и 2013 годы. Можно посмотреть не только на каком месте находится школа сейчас, но и на динамику. Если лень разбираться в разных версиях названий школ, например «Специализированный учебно-научный центр (факультет) — школа-интернат имени А.Н.Колмогорова» и «СУНЦ МГУ», можно взять сводную таблицу из репозитория obr.msk.ru.
Нужно учитывать две вещи:
- Рейтинг может меняться по не зависящим от школы причинам. Например, приписали к школе вечёрку — рейтинг упал, хотя хуже учить не стали.
- К рейтингу есть вопросы с точки зрения математики. Например, в описании есть такая строчка «За каждого учащегося, который по каким-либо трем предметам на ЕГЭ набрал не менее 220 баллов, начисляется 1 балл». Пускай в одной школе ЕГЭ сдавало 100 человек и >220 набрало 10, а в другой сдавало 10 человек и >220 набрал 1. И там и там >220 набрало 10%, но первая школа получит 10 баллов, а вторая 1. Также интересно как они подбирают коэффициенты, почему за победителя Всеросов дают именно 10 баллов, а за призёра — 5.
И вообще, школа — очень сложная вещь: десятки учителей, сотни учеников, корпуса, кружки и секции. Как это можно свести к одной цифре? В топе рейтинга, действительно, хорошие школы. При этом низкая позиция ещё не означает, что школа плохая.
Сайты школ
В Москве почти все школьные сайты хостятся на одной платформе. Это очень удобно. Список школ со ссылками есть на obr.msk.ru. На сайтах школ есть много полезного:
- Списки корпусов. У школы есть юридический адрес и обычно его наносят на карту. Но это не совсем корректно. У 80% московских школ больше одного корпуса. Да, в 80% случаев эти корпуса находятся рядом (меньше 1.5 км), но бывает и так:
- В каких корпусах кто учится. 95% школ учат с 1 по 11 класс. Почти у всех есть ещё детские сады. Но часто начальным классам и, конечно, садикам выделяют отдельные здания. Поэтому может оказаться, что школа близко от дома, а нужный корпус далеко.
- Публичный доклад. На каждом сайте есть специальный раздел, куда директор каждый год выкладывает отчёт о работе школы. В половине случаев это актуальный содержательный документ, где в произвольной форме описывается всё: результаты проверок и мониторингов, успехи на олимпиадах, отчёты о поездах и праздниках. Кстати, это единственный открытый источник баллов по ЕГЭ по отдельным предметам.
- Фотки. 95% школ выкладывают на сайт фотографии с разных мероприятий и праздников. Иногда с их помощью можно получить представление о школьной инфраструктуре.
- Профили учителей. Больше 75% школ выкладывают на сайты списки учителей. Для каждого указана квалификация, стаж, образование и награды.
data.mskobr.ru
Пару месяц назад разработчики платформы, на которой работают все школьные сайты, запустили справочник data.mskobr.ru. На первый взгляд ничего особенного, но если присмотреться можно найти вещи, которых нигде больше нет:
- Мобильные телефоны и личные емейлы сотрудников администрации. Директора не очень довольны, наверное, скоро данные уберут.
- Число учеников и учителей. Можно измерять число учеников на одного учителя. Если оно больше 12-15, это странно.
- Сколько пришло в первый класс, сколько из них учились в садике при школе. Если, например, 80% первоклашек приходит из садика при школе, значит хорошо бы заранее записаться именно в этот садик.
- Средние зарплаты учителей и администрации. Если зарплата больше 75 000р., значит нагрузка на учителей выше среднего или школа хорошо зарабатывает на дополнительных услугах.
data.mos.ru
В начале 2016 года на Портале открытых данных Правительства Москвы появилось три датасета: результаты ГИА, результаты ЕГЭ и победители олимпиад.
ЕГЭ
Вообще результаты ЕГЭ для отдельных школ публикуются очень редко. Обычно это большой секрет. По Москве данные представлены в супер-агрегированном виде, для каждой школы известно только три числа: «сколько одиннадцатиклассников сдавало ЕГЭ», «сколько набрали >150 баллов по результатам трёх экзаменов», «сколько набрали >220 баллов». Сначала кажется, что данных слишком мало и ничего не выйдет, но это не так. С помощью серии вычитаний и сложений для каждой школы получаем три числа: «сколько одиннадцатиклассников набрали <150 баллов», «сколько от 150 до 220», «сколько >220». На эти три точки натягивает бета-распределение и рисуем графики. Получается достаточно информативно:
Нужно понимать две вещи:
- ЕГЭ — это очень высокоуровневый показатель, но если результаты значительно хуже средних, наверное, лучше в такую школу не идти.
- Нельзя просто так вычесть из всех сдававших тех, кто набрал >150 баллов и получить число тех, кто набрал <150. Некоторые одиннадцатиклассники сдают два экзамена. Иногда к школе приписывают пересдающих, их тоже надо исключать. К сожалению, таких данных нет и приходится немного корректировать результаты по запросу администраций школ.
Олимпиады
Табличка по олимпиадам на Портале открытых данных странная. Например, у Второй школы куча призёров и победителей по математике в старших классах, на портале указано всего 6 человек. Но есть прекрасный сайт — Единая Система Регистрации на олимпиады школьников. Особенно мне нравится их капча:
Там можно найти пофамильные списки победителей и призёров с указанием этапов олимпиад:
Финансы
Ещё один прекрасный сайт — bus.gov.ru. Для 90% школ там можно найти актуальную бухгалтерскую отчётность. Небольшой хак: не надо пытаться искать школу по названию, это бесполезно:
Сразу вбивайте ИНН, его можно найти на data.mskobr.ru:
Затем делаем несколько неочевидных кликов:
И вуаля, можно посмотреть, какую долю доходов школа получает «от оказания платных услуг (работ)», сколько тратит в расчёта на одного ученика. Иногда можно даже посмотреть зарплату директора:
ВКонтактик
Чтобы собрать профили московских школьников и выпускников, можно воспользоваться поиском. Проблема в том, что АПИ позволяет получить только первые 1000 результатов, а нужных профилей примерно 1000 000. Поэтому нужно сделать не один запрос, а много: «лицей 1535 мальчики 15 лет», «лицей 1535 девочки 15 лет», «лицей 1535 мальчики 16 лет» и так далее.
Удобно, что прямо в результатах поиска пишется вуз пользователя. Таким образом можно прикинуть, куда поступаю ученики школы. Для этого даже не нужно прокачивать профили. Правда, нужно быть аккуратным с МГУ и некоторыми другими вузами на букву «А». 90% пользователей ВК указывают именно их. Иногда уже в 5 классе.
Также очень удобно собирать отзывы о школах. Создаёшь голосование, id всех проголосовавших известны, кто в какой школе учится известно:
Потом можно выводить статистику по школам:
Самые основные показатели из упомянутых источников собраны на obr.msk.ru. Если вдруг кому-то надо, код открыт github.com/alexanderkuk/moscow-school2.
Автор: alexkuku