Если вы заняты однообразным процессом, велики шансы, что его можно автоматизировать. AngelList — платформа, соединяющая инвесторов и стартапы. В России на AngelList зарегистрировано 1300+ стартапов, и работать с ними напрямую через сайт можно, но не получится искать по разным параметрам и управлять списком.
Существует 2 простых известных мне способа собрать базу стартапов c AngelList.
Способ первый, простой. Требует минимальных навыков программирования
У AngelList есть свой Restful API. Если навыков программирования нет, советую таки найти умелого человека и делегировать задачку ему. Решение сильно упростит вам жизнь, а работы тут немного.
1. Регистрируем приложение, получаем токены.
2. Далее для простоты качаем c GitHub простую библиотеку на Python.
3. Затем указываем свои токены
4. Переписываем метод getTagsStartups, чтобы можно было переходить на следующие страницы в выдаче
def getTagsStartups(self, access_token = None, tag_id = None, page=None):
self.check_access_token(access_token)
if tag_id is None:
raise AngelListError("the tag_id param is required for this api call.")
return self.do_get_request('%s/1/tags/%s/startups?access_token=%s&page=%s' % (self.API_ENDPOINT, tag_id, self.access_token, page))
5. Вызываем метод getTagsStartups(tag_id='1677'), чтобы получить JSON с первой выдачей компаний в России. Для других стран id должен быть другой: 1717 для Франции, 2215 для Греции, 1682 для Сингапура и т.д.
6. Смотрим, сколько получилось страниц в выдаче
7. Вызываем метод с параметром page в цикле столько раз, сколько получилось страниц, параллельно записывая все в файл.
Готово. Результаты сохранены в json, который вполне читабелен. Если кто-то найдет способ сконвертировать его в более удобный формат, будет здорово это увидеть в комментариях.
Способ второй, мучительный. Требует терпения
Существует стартап Import.io. Компания предоставляет бесплатное приложение для скрэпинга информации с сайтов. На сайте есть подробная инструкция, как собрать информацию о сотрудниках с AngelList.
После часа работы с приложения я сдался, так как первый способ и без того хорошо работал. Сумел вытащить только 50 компаний. Но если навостриться, то процесс пойдет быстрее. В любом случае, над продуктом работают. Будем надеяться, что приложение будет работать лучше.
Автор: Finick95