Небольшая история о парсинге социальной сети и полезном практическом применении полученной RSS ленты.
Самая популярная сеть Вконтакте, весьма плохо индексируется поисковиками. На это есть множество объяснений: закрытые сообщества, не валидный код, да и объемы контента (как правило, весьма посредственного качества и содержания) растут с огромной скоростью.
Маленькими островками в океане месива из низкопробного контента попадаются вполне хорошие сообщества с уникальным содержанием. Зачастую, это профессиональные тематические группы и паблики, которые наполняют сами участники и/или несколько администраторов. Хорошо бы его собрать в RSS ленту и добавить к себе в «читалку».
Поиски навели меня на интересных проект Blogspot | GitHub готовый скрипт парсера «стен» групп Вконтакте в RSS ленту. Написан на языке python и адаптирован для работы на Google App Engine . Опубликованный пример автора не работает, сам парсер работает с ошибками и содержит не все функции которые мне хотелось. Решил сделать форк и дописать его под себя.