Archive for May, 2009

Идеальный автоблоггер

Размышлял над тем, что требуется от идеального автонаполнителя сайтов, сделал небольшое ТЗ для себя, надеюсь Вам будет тоже интересно и Вы добавите некоторые пункты, чтобы Вам хотелось в идеале.

  1. Получение контента
    1. Источники
      1. Прописанные Рсс (R)
      2. Динамические рсс по кейвордам с поисковиков
      3. Обход заранее прописанных сайтов по и копирование контента по сигнатурам.
      4. Обход заранее прописанных сайтов, без сигнатур,
      5. Обход случайных сайтов и выдирание самого большого куска текста
    2. Ходить на сайты из пермалинков рсс и выдирать полные новости (R)
    3. Работа с проксями
    4. Получение тегов из рсс (R)
    5. Проверка не закачивался ли раньше файл по хешу (R)
    6. Частота опроса  (R)
  2. Фильтрация контента
    1. Порог входа
      1. Запрещенные слова(R)
      2. Обязательно нужные слова  (R)
      3. Контент только со страницы, а не из рсс  (R)
      4. Минимальное количество символов (R)
      5. Ссылки на сайты в блеклисте
    2. Работа с текстом
      1. Очистка от тегов, все кроме разрешенных (R)
      2. Синонимизация контента(R)
      3. Подсветка кейвордов
      4. Перевод текста из одного языка в другой
      5. Двойной перевод для уникализации
      6. Очистка от предопределенных распространенных фраз, например копирайты плагинов. (R)
      7. Замена указанных фраз на нужные
      8. Вставка тега <!more> в середину, соблюдая последовательность тегов
    3. Работа с титлом
      1. Обрезание титла по длине  (R)
      2. Синонимизация титла  (R)
    4. Работа с тегами
      1. Поиск тегов по шаблону популярных движков  (R)
      2. Поиск тегов при помощи Яху апи (R)
    5. Работа с изображениями
      1. Кеширование изображений к себе на сервер (R)
      2. Добавление альтов и титлов к изображениям  (R)
      3. Создание превью картинок
      4. Кеширование изображений на сторонние хостинги
    6. Темплейты
      1. {text}{url} (R)
      2. %text%%url% {qw|wq|qwq}
    7. Мешап
      1. Youtube видео
      2. Flickr фотографии
  3. Постинг
    1. XmlRpc
      1. Вордпресс, блоггер (R)
      2. Урл блога, логин, пароль, типа блога, статус поста  (R)
        1. Использовать дату с источника (R)
        2. Использовать случайное время, прибавленное или убавленное к времени источника  (R)
        3. Автоматом создавать категории (R)
        4. Добавлять к загружаемым изображениям хеш в имя.(R)
        5. Расписание постинга, эмуляция человека
        6. Максимум постов в день на блог
    2. В файл для распарсивания
    3. Посылать по почте
    4. Послать на урл в POST

', ) widget init imoney_adsense_2 sapecontext worked links in content worked iMoneyDebugLogEnd --->