Поиск сайтов не в индексе
RSS подписка

 

Введите Ваш e-mail:


 

Поиск сайтов не в индексе

 
Поиск сайтов не в индексе

Полезные сервисы

drivelink.ru - проверка ссылок
letusindex.com - ускорение индексации ссылок
sebot.in - автокомментарии ЖЖ
cooltext.com
- создание кнопок/лого
sayts.ru - автосоздание саттелитов
p9r.ru - поиск боусников
dropbox.com - онлайн флешка
share42.com - создание кнопок для соцзакладок
barykin.com/speed - Ускоритель Яндекса
pixlr.com/editor/ - онлайн фотошоп
domainexposer.com - подбор доменов
www.prospero.ru - дешевые твиты

Авторы скриптов


Восстановление сайтов не в индексе из вебархива

Срд, 09/22/2010 - 21:14 - wshurik

Сегодня расскажу как я нахожу контент для своих блогов, сплогов и прочих бело-серых ресов. Тема не сказать, что очень новая, но я ее немного доработал и чуток автоматизировал, так что очень многим будет полезна. Суть идеи такова: есть сайт http://web.archive.org, который собирает в свой архив содержимое почти всех сайтов аж с 1996 года. Очень многие из этих сайтов уже закрылись/проэкспайрились/побанились, но их содержимое все еще бережно хранится этим замечательным сервисом. Как вы уже догадались будем выковыривать оттуда непроиндексированный гуглом уникальный контент. Наверное можно придумать не один способ как сделать это быстро и максимально качественно, но я пользуюсь своей методикой и она меня устраивает, сейчас опишу что и как я делаю:

1. Чтобы быть почти уверенным, что контент на сайтах уникальный, я ищу только проэкспайтенные домены, которых уже нет в индексе гугла. Поскольку мне нужен не любой контент, а только интересующей меня тематики я отбираю домены по кейвордам в них содержащимся. Специально для этого написал небольшую утилиту, для упрощения поиска таких доменов. Скачать.

Программа для скачивания с вебархива

Программа парсит список проэкспайреных .com доменов с сайта JustDropped.com и отфильтровывает подходящие нам домены. В поле «Дата» вбиваем ту дату в которую мы хотели бы найти подходящие домены. В поле «Кейворды» вбиваем по одному на строку кеи которые нам хотелось бы чтобы содержались в имени домена. Давим «Получить список», немного ждем пока скачается список и жмем «Отфильтровать», если количество доменов нас устраивает переходим к пункту 2, если же нет – повторяем еще раз со сменой даты или кеев. Домены будут дописываться в текущий список с каждой фильтрацией.

2. Теперь нам нужно проверить, содержатся ли какие-то из этих доменов в архиве web.archive.org. Под это дело я тоже написал небольшую программу, но надобность в ней отпала когда я узнал как это можно делать с помощью SeoQuake. Устанавливаем SeoQuake. Жмем правой кнопкой мыши на сеоквейковской иконке и выбираем «Ckeck/Compare URLs and domains…»

Поиск сайтов для восстановления из вебархива

В появившееся поле вбиваем отпаршенные домены и жмем OK. Теперь, когда список загружен нам нужно проверить все эти домены на наличие в архиве. Для этого жмем вопросительный знак рядом с колонкой Age и ждем некоторое время пока идет проверка и сортируем по убыванию. Долно получиться что-то вроде этого:

Поиск сайтов для восстановления из вебархива

Если у домена стоит дата, то это значит, что он содержится в архиве. Жмем по дате, получаем что-то подобное:

Адсенс вебархив

3. Теперь уже тут давим по датам и смотри содержание сайта. Проверяем уникальность контента и нагребаем его лопатами. При хорошей усидчивости можно в день особо не напрягаясь доставать по 100-150 разнотематических уникальных статей. Я уже дошел до того, что просто складываю в отдельные файлы на будущее, т.к. девать уже некуда. Буду рад комментариям, замечаниям или идеям об использовании такой, или какой-либо другой схемы.

Автора автора

Голосов пока нет