Posts Tagged ‘идея’

Новый сервис iDomain

Переписал свой комплекс регистрации доменов. Убрал регистрацию, подбор и тд, оставил только отсев свободных по параметрам.  И представляете, выложил результаты в паблик)). Итак, встречаем, Новый сервис iDomain. Скрипт парсит истекающие домены на пиар и дмоз, проверяет количество ссыолк по гуглу и яху. К тому времени как домен полностью освобождается, парсить уже бесполезно, гугл отдает все  входящие ссылки на сайт по нулям, а яху чуть позже обнуляет. Потом из отобранных доменов в нужную дату освобождения домен проверяется. Если он ушел на аукцион, или продлен, ну что поделаешь. А вот если он освободился, ммм, ну дальше сами понимаете)). Нужно правда учитывать, что домен может быть клеенный и входящих ссылок не иметь, соотвественно в следующий ап пиар обнулится. Нужно все проверять вручную. Сегодня взял се неплохой домен с пиар 2 и кучей входящих ссылок. 5 баксов за домен com с пиаром и ссылками, мне кажется очень неплохо. Но мне повезло, в основном домены идут хуже, но за свою цену они стоят того. Правда ща вот ломаю голову как развивать домен, чтоб ссылки старые не сняли)).

Новый скрипт, новый дизайн и пару вопросов

Решил себе на блоге диз сменить, долго мучался. Подбирал темы, редактировал под себя, начинал заново. Дизайн не мой конек)). В итоге остановился на том, чо просто взять тему, сменить шапку и подогнать под технические запросы. Что Вы сейчас и видите. Недельку погоняю, если все будет ок, то так и оставлю.

Дальше, решил восстановить свой скрипт, еще далеко 2008 года. Он проверяет истекающие домены на пиар, дмоз, ссылки, склейку  и если они не зарегестрированы в данный момент после истечения срока, то выдает их списком. Проблема вылилась в то, что гугл не дает фактически сделать больше 3000 запросов на пиар, потом надо ждать или менять ип.  При том, что я делаю на каждый дадацент всего раз в минуту запрос. В 2008 году все было куда интереснее, я останавливал запросы к датацентру, когда количество переваливало за 5000 и ждал час, просто ради того, чтоб гугл, как я думал, мной не интересовался. Проблем не возникало.  Если пробовать через soap запрашивать, то там всего тысяча запросов в сутки. Подумываю проксы прикрутить, но придется наверно долго мучаться и проксы брать из других проектов. Но тогда проект уже не будет бесплатным.

Вот, в итоге вопрос, как кто справляется с парсингом гугла? и стоит ли вообще этим заниматься?

Ладно, терь о доли позитива в нашей жизни. Как некоторые наверно знают, по инету пошло мощное продвижение Артиста Эдуарда Хиля. Мне кажется прекрасный пример того, как на волне эмоций народа делают деньги. Открылся сайт, его продвигают и с него толкают эту песню. РАО наверно негодует. Скоро наверно еще футболки пойдут, надо успевать вливаться )). Сам Эдуард походу тоже не унывает и начинает втягиваться в эту волну. Гдето проскакивала инфа, что будет совместный концерт когото и Эдуарда Хиля.  У комсомольской правды есть видео интервью, в котором хиль дает комментарии о пародиях на его выступление. На мой взгляд очень профессионально и с юморком оценил пародистов, причем не сказав о них ничего плохого.

Идеальный автоблоггер

Размышлял над тем, что требуется от идеального автонаполнителя сайтов, сделал небольшое ТЗ для себя, надеюсь Вам будет тоже интересно и Вы добавите некоторые пункты, чтобы Вам хотелось в идеале.

  1. Получение контента
    1. Источники
      1. Прописанные Рсс (R)
      2. Динамические рсс по кейвордам с поисковиков
      3. Обход заранее прописанных сайтов по и копирование контента по сигнатурам.
      4. Обход заранее прописанных сайтов, без сигнатур,
      5. Обход случайных сайтов и выдирание самого большого куска текста
    2. Ходить на сайты из пермалинков рсс и выдирать полные новости (R)
    3. Работа с проксями
    4. Получение тегов из рсс (R)
    5. Проверка не закачивался ли раньше файл по хешу (R)
    6. Частота опроса  (R)
  2. Фильтрация контента
    1. Порог входа
      1. Запрещенные слова(R)
      2. Обязательно нужные слова  (R)
      3. Контент только со страницы, а не из рсс  (R)
      4. Минимальное количество символов (R)
      5. Ссылки на сайты в блеклисте
    2. Работа с текстом
      1. Очистка от тегов, все кроме разрешенных (R)
      2. Синонимизация контента(R)
      3. Подсветка кейвордов
      4. Перевод текста из одного языка в другой
      5. Двойной перевод для уникализации
      6. Очистка от предопределенных распространенных фраз, например копирайты плагинов. (R)
      7. Замена указанных фраз на нужные
      8. Вставка тега <!more> в середину, соблюдая последовательность тегов
    3. Работа с титлом
      1. Обрезание титла по длине  (R)
      2. Синонимизация титла  (R)
    4. Работа с тегами
      1. Поиск тегов по шаблону популярных движков  (R)
      2. Поиск тегов при помощи Яху апи (R)
    5. Работа с изображениями
      1. Кеширование изображений к себе на сервер (R)
      2. Добавление альтов и титлов к изображениям  (R)
      3. Создание превью картинок
      4. Кеширование изображений на сторонние хостинги
    6. Темплейты
      1. {text}{url} (R)
      2. %text%%url% {qw|wq|qwq}
    7. Мешап
      1. Youtube видео
      2. Flickr фотографии
  3. Постинг
    1. XmlRpc
      1. Вордпресс, блоггер (R)
      2. Урл блога, логин, пароль, типа блога, статус поста  (R)
        1. Использовать дату с источника (R)
        2. Использовать случайное время, прибавленное или убавленное к времени источника  (R)
        3. Автоматом создавать категории (R)
        4. Добавлять к загружаемым изображениям хеш в имя.(R)
        5. Расписание постинга, эмуляция человека
        6. Максимум постов в день на блог
    2. В файл для распарсивания
    3. Посылать по почте
    4. Послать на урл в POST

iMoney 0.20

Выпустил новую версию.
Добавил поддержку пхп вставок, даже сделал проверку синтаксиса, типа если не валидный синтаксис, то не запустится код. Но если уже ктото умудриться завалить блог, например вызовом левого класса или чемто подобным, вызывающим фатал эррор, то сами себе злобные буратины. Причем даже в этом случае надо будет просто в пхпмайадмине подчистить опцию в базе. Также обновил перевод, все словосочетания в русской версии по русски показываются.

Уже несколько дней думаю выпустит свой iFoxy в паблик. Это серфис многофункционального граббера контента с фильтрацией и постингом в блоги по xmlrpc. Написал простенький фронтенд для него. Раньше он не нужен был, все настройки вручную прописывал в базе. Для своих тоже все вручную прописывал, но все были довольны. Сам скрипт берет контент из прописанных рсс каналов или с поиска при указании ключевиков. Ходит на сайты, чтоб взять полную новость, причем не надо прописывать регулярки, все сделает сам. Дальше идут всякие проверки на правильность текста, типа количество символов, слова из блеклиста и тд. Чистка от опасных тегов, настроки опциональны. Потом ищутся теги контента через свои функции и через яху апи. Дальше идет сильная синонимизация инглиш онли. Потом в зависимости от настроек, из сорса выдераются ссылки на картинки и картинки заливаются в базу. Подсвечиваются кейворды. Всякие ютубы, фликры по вкусу и переводы  через гугл по вкусу. После фильтрации на блог заливается пост, создаются автоматом категории, залюваются картинки в виде аттачей к посту.

iSape 0.67

Обновил iSape. Из нового только дебаг.  Должен быть стабильнее старых версий, тк код основан на стабильно iMoney. Также в процессе, нашел баг в имоней, который не запрашивал создание папки сейпа при настройке. В следущей версии устранено будет. По идее папки народ создавал и вручную, но через настройки плагина быстрее и удобнее.

Еще наткнулся в блогах фармасеошников на теорию, что прежде чем забанить аптеку, негр заходит на вхуиз, чтоб выяснить как легче забанить, через серп или через регистратора. Если вхуис делают через whois.domaintools.com, то на сайт приходит посетитель с реффером оттуда. Посмотрел свои логи, чтото дофига кто мной интересуется при таком раскладе. Хотя яндекс мой блог не очень любит, в отличии от гугла, но я не в бане. Из наблюдения логов можно сделать выводы и при заходах с домайнтулса сворачивать противопоисковую деательность, притворясь белым сеошником.

Планы

В планах у меня доделать свой синимайзер английского текста, и доделать регалку и постилку по социалкам. База синонимайзера оптимизируется уже довольно таки долгий срок, и все таки, я считаю, что придется еще много дорабатывать. У AntiSocial (рабочее название) сделаны основные модули, тестовый плагин для mister-wong.com. Автоматом регается, вручную распознаю капту, автоматом постит. По идее есть у меня идея использовать мой OCR скрипт двухлетней давности на нейронках для распознавания каптчи на мейле, можно будет доделать да и прикрутить или возпользоваться сервисами ручного распознования, благо АПИ у них есть, антикапча и им подобные. Есть собранный готовый список из 1600 социалок, иногда лениво пополняю. Но он бесполезен, пока не напишу автоматическое создание плагинов по входным параметрам из этого списка, чтоб автоматически регался и постил потом в социалку. Сегодня поставил себе игру Mirror’s Edge, прошел несколько уровней, весьма понравилась. Пожалел, что не сделал раньше саттелит на тему этой игры, хотя такая идея была. Чувствую, что игрушка утянет все время на хобби, а тк скрипты это хобби, то скрипты писать не буду некоторе время )).

Интересный способ наращивания ссылок.

Недавно логи смотрел по некоторым блогам на предмет подозрительных действий, из просмотра появилась некоторая закономерность. Вообщем видимо jacksoft написали бота который проходит по блогам из списка, регится там, активируют акканут, а потом по xmlrpc постит посты или чтото подобное, насчет постов я не уверен, тк по умолчанию у меня вновь созданные пользователи не имеют прав на запись. Бот на пхп, в пользу этого говорят заголовки при обращении к rpc “Incutio XML-PRC”, и возможно ошибки при создании адреса, вида “//xmlprc.php” и “/wp-login.p/xmlprc.php”. Кстати довольно интересная идея, может даже спалил чего, тк защиты особой от этого нет, и если по умолчанию народ может постить в блог , то соотвественно бот сделает свое дело. Также допускаю возможность, что бот делает какиенибудь деструктивные действия или ссылки размещает. Как разпознать бота хз, единственное, что он xml-rpc обращается и еслиб не прошелся по нескольким моим блогам, я даже бы и не запалил закономерности. Хотя может у меня опять паранойя, пойду их блог почитаю, вроде интересно с первого взгляда. У когонить были похожие случаи?

', ) widget init imoney_adsense_2 sapecontext worked links in content worked sapecontext worked beforecontent and aftercontent is empty sapecontext worked beforecontent and aftercontent is empty sapecontext worked beforecontent and aftercontent is empty sapecontext worked beforecontent and aftercontent is empty sapecontext worked beforecontent and aftercontent is empty sapecontext worked beforecontent and aftercontent is empty iMoneyDebugLogEnd --->