Posts Tagged ‘идея’

Планы

В планах у меня доделать свой синимайзер английского текста, и доделать регалку и постилку по социалкам. База синонимайзера оптимизируется уже довольно таки долгий срок, и все таки, я считаю, что придется еще много дорабатывать. У AntiSocial (рабочее название) сделаны основные модули, тестовый плагин для mister-wong.com. Автоматом регается, вручную распознаю капту, автоматом постит. По идее есть у меня идея использовать мой OCR скрипт двухлетней давности на нейронках для распознавания каптчи на мейле, можно будет доделать да и прикрутить или возпользоваться сервисами ручного распознования, благо АПИ у них есть, антикапча и им подобные. Есть собранный готовый список из 1600 социалок, иногда лениво пополняю. Но он бесполезен, пока не напишу автоматическое создание плагинов по входным параметрам из этого списка, чтоб автоматически регался и постил потом в социалку. Сегодня поставил себе игру Mirror’s Edge, прошел несколько уровней, весьма понравилась. Пожалел, что не сделал раньше саттелит на тему этой игры, хотя такая идея была. Чувствую, что игрушка утянет все время на хобби, а тк скрипты это хобби, то скрипты писать не буду некоторе время )).

Интересный способ наращивания ссылок.

Недавно логи смотрел по некоторым блогам на предмет подозрительных действий, из просмотра появилась некоторая закономерность. Вообщем видимо jacksoft написали бота который проходит по блогам из списка, регится там, активируют акканут, а потом по xmlrpc постит посты или чтото подобное, насчет постов я не уверен, тк по умолчанию у меня вновь созданные пользователи не имеют прав на запись. Бот на пхп, в пользу этого говорят заголовки при обращении к rpc “Incutio XML-PRC”, и возможно ошибки при создании адреса, вида “//xmlprc.php” и “/wp-login.p/xmlprc.php”. Кстати довольно интересная идея, может даже спалил чего, тк защиты особой от этого нет, и если по умолчанию народ может постить в блог , то соотвественно бот сделает свое дело. Также допускаю возможность, что бот делает какиенибудь деструктивные действия или ссылки размещает. Как разпознать бота хз, единственное, что он xml-rpc обращается и еслиб не прошелся по нескольким моим блогам, я даже бы и не запалил закономерности. Хотя может у меня опять паранойя, пойду их блог почитаю, вроде интересно с первого взгляда. У когонить были похожие случаи?

Новая волна взломов вордпресс блогов с OsCommerce

Иногда слежу за такого рода тенденциями со взломами блогов.

Интересуют всякие эпидемии типа екибастоса или например вот, которые использовали  permalink bug до вордпресс 2.8.4.

Сейчас распространяется, чтото новое. Инфы очень мало. Те кто его исследовал называют его “Exploit minisuhosin“. Название идет от того, что файл притворяется секьюрити патчем suhosin. Уязвимость связана скорей всего с тем, что OsCommerce требует register_globals=on в связке в вордпрессом. Вордпресс 3.0.5 тоже были взломаны. Америкосы пишут, что используется только линукс из-за /tmp, но встречал шеллы и на винде. Видимо пробная часть атаки была гдето в декабре 2010, а сейчас распространяется основная волна с конца января 2011. Хотя возможно и то, что только сейчас стали  обнаруживать. Также по следам первых авторутеров идут какието исламские хакеры, дефейсят и пишут, чтото про Аллаха.

Сам вектор атаки  и уязвимые скрипты не ясны. Можно судить лишь по симптомам.

  1. Создается файл с именем /tmp/25454b22bf39c75795851f39d5e347c4, возможно есть другие имена, но не встречал
  2. В .htaccess прописывается AddType application/x-httpd-php .php .phtml .php3 .php4 .php5 .htm .html
    php_value auto_prepend_file /tmp/25454b22bf39c75795851f39d5e347c4
    Тем самым запуская все запросы к скриптам через злонамеренный файл.
    В гугле сейчас 36к страниц с ошибками, связанными с этим файлом.
  3. Сам файл, маскируясь под suhosin, проверяет ип посетителя, и если  ипа нету в блеклисте ставит куки и выдает злонамереннй джаваскрипт. Сайт в джаваскрипте у мя уже не резолвится, в кеше гугла похож на связку сплоитов.
  4. Встречал установленные шеллы (с99 и 3gayskeeters), но возможно это от других товарищей.

Для лечения и противодействия возможны следующие действия.

  1. Удалить из .htaccess строки, созданные злоумышленником
  2. Сделать бекап
  3. После этого обновить версии вордпресса и плагинов
  4. Сменить пароли
  5. Поставить права только для чтения на .htaccess
  6. Если не используете пермалинки от .htaccess вообще можно избавиться
  7. Проверить файл /tmp/25454b22bf39c75795851f39d5e347c4, возможно создать пустой, с правами только для чтения, чтоб при взломе дальше этого не ушло.
  8. Если есть доступ, поставить бит запрета исполнения файлов на /tmp

Если ребята русские, то наверно надо посоветовать им сделать проверку на то, создан ли их файл. То больно много блогов ща просто с ошибкой валятся, когда тот файл удаляют.Не продумано, хотя наверно атака уже окупилась.

Ну вообщем вроде все, новое чтонить узнаю, может распишу.

Incoming search terms:

Новый сервис iDomain

Переписал свой комплекс регистрации доменов. Убрал регистрацию, подбор и тд, оставил только отсев свободных по параметрам.  И представляете, выложил результаты в паблик)). Итак, встречаем, Новый сервис iDomain. Скрипт парсит истекающие домены на пиар и дмоз, проверяет количество ссыолк по гуглу и яху. К тому времени как домен полностью освобождается, парсить уже бесполезно, гугл отдает все  входящие ссылки на сайт по нулям, а яху чуть позже обнуляет. Потом из отобранных доменов в нужную дату освобождения домен проверяется. Если он ушел на аукцион, или продлен, ну что поделаешь. А вот если он освободился, ммм, ну дальше сами понимаете)). Нужно правда учитывать, что домен может быть клеенный и входящих ссылок не иметь, соотвественно в следующий ап пиар обнулится. Нужно все проверять вручную. Сегодня взял се неплохой домен с пиар 2 и кучей входящих ссылок. 5 баксов за домен com с пиаром и ссылками, мне кажется очень неплохо. Но мне повезло, в основном домены идут хуже, но за свою цену они стоят того. Правда ща вот ломаю голову как развивать домен, чтоб ссылки старые не сняли)).

Новый скрипт, новый дизайн и пару вопросов

Решил себе на блоге диз сменить, долго мучался. Подбирал темы, редактировал под себя, начинал заново. Дизайн не мой конек)). В итоге остановился на том, чо просто взять тему, сменить шапку и подогнать под технические запросы. Что Вы сейчас и видите. Недельку погоняю, если все будет ок, то так и оставлю.

Дальше, решил восстановить свой скрипт, еще далеко 2008 года. Он проверяет истекающие домены на пиар, дмоз, ссылки, склейку  и если они не зарегестрированы в данный момент после истечения срока, то выдает их списком. Проблема вылилась в то, что гугл не дает фактически сделать больше 3000 запросов на пиар, потом надо ждать или менять ип.  При том, что я делаю на каждый дадацент всего раз в минуту запрос. В 2008 году все было куда интереснее, я останавливал запросы к датацентру, когда количество переваливало за 5000 и ждал час, просто ради того, чтоб гугл, как я думал, мной не интересовался. Проблем не возникало.  Если пробовать через soap запрашивать, то там всего тысяча запросов в сутки. Подумываю проксы прикрутить, но придется наверно долго мучаться и проксы брать из других проектов. Но тогда проект уже не будет бесплатным.

Вот, в итоге вопрос, как кто справляется с парсингом гугла? и стоит ли вообще этим заниматься?

Ладно, терь о доли позитива в нашей жизни. Как некоторые наверно знают, по инету пошло мощное продвижение Артиста Эдуарда Хиля. Мне кажется прекрасный пример того, как на волне эмоций народа делают деньги. Открылся сайт, его продвигают и с него толкают эту песню. РАО наверно негодует. Скоро наверно еще футболки пойдут, надо успевать вливаться )). Сам Эдуард походу тоже не унывает и начинает втягиваться в эту волну. Гдето проскакивала инфа, что будет совместный концерт когото и Эдуарда Хиля.  У комсомольской правды есть видео интервью, в котором хиль дает комментарии о пародиях на его выступление. На мой взгляд очень профессионально и с юморком оценил пародистов, причем не сказав о них ничего плохого.

Идеальный автоблоггер

Размышлял над тем, что требуется от идеального автонаполнителя сайтов, сделал небольшое ТЗ для себя, надеюсь Вам будет тоже интересно и Вы добавите некоторые пункты, чтобы Вам хотелось в идеале.

  1. Получение контента
    1. Источники
      1. Прописанные Рсс (R)
      2. Динамические рсс по кейвордам с поисковиков
      3. Обход заранее прописанных сайтов по и копирование контента по сигнатурам.
      4. Обход заранее прописанных сайтов, без сигнатур,
      5. Обход случайных сайтов и выдирание самого большого куска текста
    2. Ходить на сайты из пермалинков рсс и выдирать полные новости (R)
    3. Работа с проксями
    4. Получение тегов из рсс (R)
    5. Проверка не закачивался ли раньше файл по хешу (R)
    6. Частота опроса  (R)
  2. Фильтрация контента
    1. Порог входа
      1. Запрещенные слова(R)
      2. Обязательно нужные слова  (R)
      3. Контент только со страницы, а не из рсс  (R)
      4. Минимальное количество символов (R)
      5. Ссылки на сайты в блеклисте
    2. Работа с текстом
      1. Очистка от тегов, все кроме разрешенных (R)
      2. Синонимизация контента(R)
      3. Подсветка кейвордов
      4. Перевод текста из одного языка в другой
      5. Двойной перевод для уникализации
      6. Очистка от предопределенных распространенных фраз, например копирайты плагинов. (R)
      7. Замена указанных фраз на нужные
      8. Вставка тега <!more> в середину, соблюдая последовательность тегов
    3. Работа с титлом
      1. Обрезание титла по длине  (R)
      2. Синонимизация титла  (R)
    4. Работа с тегами
      1. Поиск тегов по шаблону популярных движков  (R)
      2. Поиск тегов при помощи Яху апи (R)
    5. Работа с изображениями
      1. Кеширование изображений к себе на сервер (R)
      2. Добавление альтов и титлов к изображениям  (R)
      3. Создание превью картинок
      4. Кеширование изображений на сторонние хостинги
    6. Темплейты
      1. {text}{url} (R)
      2. %text%%url% {qw|wq|qwq}
    7. Мешап
      1. Youtube видео
      2. Flickr фотографии
  3. Постинг
    1. XmlRpc
      1. Вордпресс, блоггер (R)
      2. Урл блога, логин, пароль, типа блога, статус поста  (R)
        1. Использовать дату с источника (R)
        2. Использовать случайное время, прибавленное или убавленное к времени источника  (R)
        3. Автоматом создавать категории (R)
        4. Добавлять к загружаемым изображениям хеш в имя.(R)
        5. Расписание постинга, эмуляция человека
        6. Максимум постов в день на блог
    2. В файл для распарсивания
    3. Посылать по почте
    4. Послать на урл в POST

Incoming search terms:

iMoney 0.20

Выпустил новую версию.
Добавил поддержку пхп вставок, даже сделал проверку синтаксиса, типа если не валидный синтаксис, то не запустится код. Но если уже ктото умудриться завалить блог, например вызовом левого класса или чемто подобным, вызывающим фатал эррор, то сами себе злобные буратины. Причем даже в этом случае надо будет просто в пхпмайадмине подчистить опцию в базе. Также обновил перевод, все словосочетания в русской версии по русски показываются.

Уже несколько дней думаю выпустит свой iFoxy в паблик. Это серфис многофункционального граббера контента с фильтрацией и постингом в блоги по xmlrpc. Написал простенький фронтенд для него. Раньше он не нужен был, все настройки вручную прописывал в базе. Для своих тоже все вручную прописывал, но все были довольны. Сам скрипт берет контент из прописанных рсс каналов или с поиска при указании ключевиков. Ходит на сайты, чтоб взять полную новость, причем не надо прописывать регулярки, все сделает сам. Дальше идут всякие проверки на правильность текста, типа количество символов, слова из блеклиста и тд. Чистка от опасных тегов, настроки опциональны. Потом ищутся теги контента через свои функции и через яху апи. Дальше идет сильная синонимизация инглиш онли. Потом в зависимости от настроек, из сорса выдераются ссылки на картинки и картинки заливаются в базу. Подсвечиваются кейворды. Всякие ютубы, фликры по вкусу и переводы  через гугл по вкусу. После фильтрации на блог заливается пост, создаются автоматом категории, залюваются картинки в виде аттачей к посту.

iSape 0.67

Обновил iSape. Из нового только дебаг.  Должен быть стабильнее старых версий, тк код основан на стабильно iMoney. Также в процессе, нашел баг в имоней, который не запрашивал создание папки сейпа при настройке. В следущей версии устранено будет. По идее папки народ создавал и вручную, но через настройки плагина быстрее и удобнее.

Еще наткнулся в блогах фармасеошников на теорию, что прежде чем забанить аптеку, негр заходит на вхуиз, чтоб выяснить как легче забанить, через серп или через регистратора. Если вхуис делают через whois.domaintools.com, то на сайт приходит посетитель с реффером оттуда. Посмотрел свои логи, чтото дофига кто мной интересуется при таком раскладе. Хотя яндекс мой блог не очень любит, в отличии от гугла, но я не в бане. Из наблюдения логов можно сделать выводы и при заходах с домайнтулса сворачивать противопоисковую деательность, притворясь белым сеошником.