СППР. Анти-спам (фильтр, бот.. наывайте как хотите) ) с использованием ИИ . Вопрос внутри.

компьютеры программирование алгоритмы ИИ нейронные сети

im.mstrmnd, 561 просмотр

Пишу анти-спам (буду называть его "бот"). Программа должна за минимальное количество обработанных сообщений распознавать спам это или нет. Тоесть, например, есть сообщение. Бот его анализурует и принимеат решение, какая вероятность того что это спам (вероятность - это какое-то количество "баллов"). Например, 0-40 - не спам, 40-60 - не знаю, 60-100 спам. Сложность заключается в том, что для реализации этой программы нам надо анализировать сообщение не только на спам слова ("win","won","prize" и т.п.) а ешё и анализировать предложения, т.к., при получении сообщения типа "незнаю", пользователь должен сам определить спам это или нет, после чего бот должен проанализировав это сообщение "обучиться".
Я думаю смысл вы поняли. Я не буду сейчас рассказывать про чёрные и белые списки почтовых адресов и словари.
У кого есть проедложение по реализации данной программы?
Можете писать на мыло [email protected] или стучите в асю 481799069

Примечание:
Дорогой OCTAGRAM. По-моему я не ставил вопрос о лучшем/худшем анти-спаме. У меня довольно конкретный вопрос, я спрашиваю о реализации "бота", или, если хотите, "СППР" основанного на использовании нейронных сетей.

Примечание:
Пост 1.2.))
OCTAGRAM, эта программа - мой диплом, тему которого я сам и придумал.
Вы написали: "Вся эта эвристика, нейронные сети, спам/не спам..." - Вы что-то имеете против нейронных сетей? Или может против определения спам/не спам? По-моему это очень интересное направление. В данной области очень мало действительно хорошего ПО. "... — всё это отнимает слишком много сил и у программистов,..." - да, может и занимает, но это есть его работа, не сантехника, не строителя а именно разработчика ПО. Дальше вы написали: "...и у пользователей,.." - очень интересно. Какие силы забирает? Если ПО работает как СППР, причём работет корректно, никаких сил пользователь не тратит. Идём дальше "... да и на 100% не функционирует." - Да, не функционирует. Особенно первое время, когда система обучается. Зато в конечном результате определение спам/не спам будет приближатся к 100%.
Вы рассуждаете очень странно. Аналогично можно говорить и о антивирусах: "всё это отнимает слишком много сил и у программистов, и у пользователей, да и на 100% не функционирует". Так давайте от них откажемся. Будем просто форматировать.
Пост 2.
Дорогой OCTAGRAM !
"Вот, например, эта сложность откуда берётся? Спамеры не факт, что пишут предложениями. Им не сложно расставить знаки препинания как попало." - спаисбо за информацию. Вы считаете что я этого не знал?
Дальше Вы цитировали:
"Ещё одна идея, которую я так и не попробовал — фильтровать не отдельные слова, а пары или даже тройки. Это должно повысить точность оценки вероятности. Например, сейчас в моей базе данных слово "offers" имеет вероятность .96. Если учитывать вероятность пар слов, "special offers" [специальные предложения] и "valuable offers" [стоящие предложения] будут иметь вероятность .99, а, например, "approach offers" [подход позволяет] будет иметь вероятность .1 или ниже.

Причина, по которой я так и не сделал это, в том, что фильтр, основанный на одиночных словах, и без того работает хорошо." - и что?? Что вы этим хотели сказать? Тут написано как мужик не поставил эксперимент потому, что ему было слом, т. к. когда сообщение анализирывалось по словам он посчитал что всё и так гуд.
Спасибо за пост, оч информативно.

Ответы:

Иван Левашев

Вся эта эвристика, нейронные сети, спам/не спам — всё это отнимает слишком много сил и у программистов, и у пользователей, да и на 100% не функционирует.

Ant1973

Описанное очень похоже на встроенный спам-фильтр The Bat!
Может, не стоит изобретать велосипед? :)

Иван Левашев

Тогда я не понимаю. Программа академическая или нет?

unr303

Может действительно не стоит изобретать велосипед, а имеет смысл его разобрать и попытаться что-либо улучшить (какую-либо из характеристик)? Для примера тот-же открытый и обучаемый фильтр в thunderbird. И нейронные сети не должны быть притянуты за уши (например, сразу встает вопрос "какие именно нейронки? многослойные? с прямым распространением или обратным?" и т.д. и т.п.), скорее инструмент должен выбираться под конкретные требования: то же дообучение в нейронках может быть проблематично и они далеко не единственный обучаемый вариант.

Иван Левашев

=Вы что-то имеете против нейронных сетей?=
Я не согласен с таким подходом. Взять идею и вставить её куда попало, безотносительно к тому, как она туда подходит, и какие действительно стоящие идеи есть в этой области.

objMihail

Нейронную сеть тут имхо, по крайней мере в обычном виде, не получится использовать, т.к. надо на все слова (или даже лексемы), встречающихся в письмах, сделать входной нейрон во входном слое. Сеть тогда будет огромной, обучить её наверно только на суперкомпьютере можно будет... И кроме того нужно будет огромное количество обучающего материала.

Без имени

Дружище! Мой Вопрос Тут: http://otvety.google.ru/otvety/thread?tid=4285cde230973d79 - Может Лучше Совместно Решим Эту Проблему? Не Поленись - Посмотри! Подумай! Ответь! Если Сделаем - Нас Майл (Юзвери) НА РУКАХ НОСИТЬ БУДУТ! ;) Насчёт Администрации - НЕ УВЕРЕН! :) Но Мне Пох На Них! :)))

16 лет назад

RPI.su - самая большая русскоязычная база вопросов и ответов. Наш проект был реализован как продолжение популярного сервиса otvety.google.ru, который был закрыт и удален 30 апреля 2015 года. Мы решили воскресить полезный сервис Ответы Гугл, чтобы любой человек смог публично узнать ответ на свой вопрос у интернет сообщества.

Все вопросы, добавленные на сайт ответов Google, мы скопировали и сохранили здесь. Имена старых пользователей также отображены в том виде, в котором они существовали ранее. Только нужно заново пройти регистрацию, чтобы иметь возможность задавать вопросы, или отвечать другим.

Чтобы связаться с нами по любому вопросу О САЙТЕ (реклама, сотрудничество, отзыв о сервисе), пишите на почту [email protected]. Только все общие вопросы размещайте на сайте, на них ответ по почте не предоставляется.