Идеальный автоблоггер
Размышлял над тем, что требуется от идеального автонаполнителя сайтов, сделал небольшое ТЗ для себя, надеюсь Вам будет тоже интересно и Вы добавите некоторые пункты, чтобы Вам хотелось в идеале.
- Получение контента
- Источники
- Прописанные Рсс (R)
- Динамические рсс по кейвордам с поисковиков
- Обход заранее прописанных сайтов по и копирование контента по сигнатурам.
- Обход заранее прописанных сайтов, без сигнатур,
- Обход случайных сайтов и выдирание самого большого куска текста
- Ходить на сайты из пермалинков рсс и выдирать полные новости (R)
- Работа с проксями
- Получение тегов из рсс (R)
- Проверка не закачивался ли раньше файл по хешу (R)
- Частота опроса (R)
- Источники
- Фильтрация контента
- Порог входа
- Запрещенные слова(R)
- Обязательно нужные слова (R)
- Контент только со страницы, а не из рсс (R)
- Минимальное количество символов (R)
- Ссылки на сайты в блеклисте
- Работа с текстом
- Очистка от тегов, все кроме разрешенных (R)
- Синонимизация контента(R)
- Подсветка кейвордов
- Перевод текста из одного языка в другой
- Двойной перевод для уникализации
- Очистка от предопределенных распространенных фраз, например копирайты плагинов. (R)
- Замена указанных фраз на нужные
- Вставка тега <!more> в середину, соблюдая последовательность тегов
- Работа с титлом
- Обрезание титла по длине (R)
- Синонимизация титла (R)
- Работа с тегами
- Поиск тегов по шаблону популярных движков (R)
- Поиск тегов при помощи Яху апи (R)
- Работа с изображениями
- Кеширование изображений к себе на сервер (R)
- Добавление альтов и титлов к изображениям (R)
- Создание превью картинок
- Кеширование изображений на сторонние хостинги
- Темплейты
- {text}{url} (R)
- %text%%url% {qw|wq|qwq}
- Мешап
- Youtube видео
- Flickr фотографии
- Порог входа
- Постинг
- XmlRpc
- Вордпресс, блоггер (R)
- Урл блога, логин, пароль, типа блога, статус поста (R)
- Использовать дату с источника (R)
- Использовать случайное время, прибавленное или убавленное к времени источника (R)
- Автоматом создавать категории (R)
- Добавлять к загружаемым изображениям хеш в имя.(R)
- Расписание постинга, эмуляция человека
- Максимум постов в день на блог
- В файл для распарсивания
- Посылать по почте
- Послать на урл в POST
- XmlRpc
А что отмечено буквой “R”? (в конце некоторых стоит “(R)”)
R = Ready = Реализовано.
А как это чудо можно получить.
Можно ли принять участие в разработке?
Получить никак, в разработке – тоже пока сам справлюсь.
Можно веб интерефейс сервиса потрогать, нужны будут ленты, откуда парсить, логины пароли для пользователя блога, который имеет доступ на добавление статей. И время от времени на блог будут падать статьи, пока без крона скрипты запускаю. Можно настроить, чтоб в черновики писалось, чтоб потом вручную на них смотреть и разрешать публикацию. Если контент английский, то будет хорошо синонимизирован. Русского синонимайзера пока не прикручено. В паблик конечно не буду такое выпускать, знакомым нравится, кто тестил. Есть пожелания, их добавляю в тз и потихоньку реализовываю.
Кстати советую посмотреть http://www.nulled.ws/showpost.php?p=1007181&postcount=19 и http://www.nulled.ws/showthread.php?t=73160 (Первый переделка второго), на предмет поиска текста. Есть интересные идеи там)
Ага, прикольно. Я пока фильтры добиваю, то все стоит. Доделаю и можно будет дальше наполнять блоги. Потом возьмусь за расширение средств получения контента. А у Вас как дела продвигаются с Вашим скриптом?
Да я ща вот пока просматриваю интересные скрипты, пока только многопоточное получение рсс-кок, сегодня вот хочу сделать по идее SIbir:text market (2 ссылка) и Web Grabber(1 ссылка) получение контента без регулярок, тоже многопоточно.
У мя скрипт до альфа стадии дошел. Народ потестит и буду дорабатвать по их проблемам.
Щас пишу что-то похожее. Стоит проблема с синонимайзером английским. Русский уже прикрутил, а вот подходящий англ. не могу подобрать. Может посоветуешь, или ты свой какой-то прикручивал?
Свой у меня самописный, раньше апи к нему раздавал, но сейчас мощностей и для себя уже не хватает. Проверка на валидность синонимайзинга слова очень много ресурсов отнимает, но зато дает высокий процент человекочитаемости.
Что бы я забацал еще, так это закрытие текста в noindex и уникализация тескта в % соотношении. то есть не все синонимы заменять а например только 20%. ведь бредятина получаеться если все. Еще что можно сделать название картинок по ключевикам или же по заглавиям постов. Так же синонимация или уникализация текстов не всех подряд а по очереди. Каждый пятый синонимируется или каждый второй. Ведь не обязательно весь контент должен быть уникальным. Русский синонимайзер то сама собой надо бы. еще замена букв на русские или английские. если нет картинки в посте что бы он сам грабил картинку с гугль картинки или яндекс и вставлял в начале поста. Думаю что была бы хорошо опция добавления только картинки на отдельную страницу + пару слов описания как писалось выше с ключевиков или название поста.
возможно мои дополнения помогут )))
Не плохой вариант вставка фоток на место некоторых слогов. ))) это конечно если сильно заморачиваться )
И где такое чудо можно взять?
Это сервис, инвайты раздавались на нулледе.