Пишу анти-спам (буду называть его "бот"). Программа должна за минимальное количество обработанных сообщений распознавать спам это или нет. Тоесть, например, есть сообщение. Бот его анализурует и принимеат решение, какая вероятность того что это спам (вероятность - это какое-то количество "баллов"). Например, 0-40 - не спам, 40-60 - не знаю, 60-100 спам. Сложность заключается в том, что для реализации этой программы нам надо анализировать сообщение не только на спам слова ("win","won","prize" и т.п.) а ешё и анализировать предложения, т.к., при получении сообщения типа "незнаю", пользователь должен сам определить спам это или нет, после чего бот должен проанализировав это сообщение "обучиться".
Я думаю смысл вы поняли. Я не буду сейчас рассказывать про чёрные и белые списки почтовых адресов и словари.
У кого есть проедложение по реализации данной программы?
Можете писать на мыло
[email protected] или стучите в асю 481799069
Примечание:
Дорогой OCTAGRAM. По-моему я не ставил вопрос о лучшем/худшем анти-спаме. У меня довольно конкретный вопрос, я спрашиваю о реализации "бота", или, если хотите, "СППР" основанного на использовании нейронных сетей.
Примечание:
Пост 1.2.))
OCTAGRAM, эта программа - мой диплом, тему которого я сам и придумал.
Вы написали: "Вся эта эвристика, нейронные сети, спам/не спам..." - Вы что-то имеете против нейронных сетей? Или может против определения спам/не спам? По-моему это очень интересное направление. В данной области очень мало действительно хорошего ПО. "... — всё это отнимает слишком много сил и у программистов,..." - да, может и занимает, но это есть его работа, не сантехника, не строителя а именно разработчика ПО. Дальше вы написали: "...и у пользователей,.." - очень интересно. Какие силы забирает? Если ПО работает как СППР, причём работет корректно, никаких сил пользователь не тратит. Идём дальше "... да и на 100% не функционирует." - Да, не функционирует. Особенно первое время, когда система обучается. Зато в конечном результате определение спам/не спам будет приближатся к 100%.
Вы рассуждаете очень странно. Аналогично можно говорить и о антивирусах: "всё это отнимает слишком много сил и у программистов, и у пользователей, да и на 100% не функционирует". Так давайте от них откажемся. Будем просто форматировать.
Пост 2.
Дорогой OCTAGRAM !
"Вот, например, эта сложность откуда берётся? Спамеры не факт, что пишут предложениями. Им не сложно расставить знаки препинания как попало." - спаисбо за информацию. Вы считаете что я этого не знал?
Дальше Вы цитировали:
"Ещё одна идея, которую я так и не попробовал — фильтровать не отдельные слова, а пары или даже тройки. Это должно повысить точность оценки вероятности. Например, сейчас в моей базе данных слово "offers" имеет вероятность .96. Если учитывать вероятность пар слов, "special offers" [специальные предложения] и "valuable offers" [стоящие предложения] будут иметь вероятность .99, а, например, "approach offers" [подход позволяет] будет иметь вероятность .1 или ниже.
Причина, по которой я так и не сделал это, в том, что фильтр, основанный на одиночных словах, и без того работает хорошо." - и что?? Что вы этим хотели сказать? Тут написано как мужик не поставил эксперимент потому, что ему было слом, т. к. когда сообщение анализирывалось по словам он посчитал что всё и так гуд.
Спасибо за пост, оч информативно.
RPI.su - самая большая русскоязычная база вопросов и ответов. Наш проект был реализован как продолжение популярного сервиса otvety.google.ru, который был закрыт и удален 30 апреля 2015 года. Мы решили воскресить полезный сервис Ответы Гугл, чтобы любой человек смог публично узнать ответ на свой вопрос у интернет сообщества.
Все вопросы, добавленные на сайт ответов Google, мы скопировали и сохранили здесь. Имена старых пользователей также отображены в том виде, в котором они существовали ранее. Только нужно заново пройти регистрацию, чтобы иметь возможность задавать вопросы, или отвечать другим.
Чтобы связаться с нами по любому вопросу О САЙТЕ (реклама, сотрудничество, отзыв о сервисе), пишите на почту [email protected]. Только все общие вопросы размещайте на сайте, на них ответ по почте не предоставляется.