Задача распознавания имён существительных в тексте

программирование математика информация язык словари

Можете дать идею/алгоритм для программы, находящей в тексте имена существительные.
Входные данные: текст на русском языке, орфографически правильный.
Выходные данные: все имена существительные из текста.
Использования базы всех имён существительных запрещено! Разрешается использовать вспомогательные базы приставок, суффиксов, корней, окончаний и отдельных слов исключений.

Примечание:
Теория русского языка:
Имена существительные отвечают на вопрос Что? Кто?
Имеют 6 падежей, отвечающих на вопросы соответственно:
Именительный Кто? Что?
Родительный Кого? Чего?
Дательный Кому? Чему?
Винительный Кого? Что?
Творительный Кем? Чем?
Предложный О ком? О чём?

3 рода: мужской, женский, средний
3 склонения:
- I склонение включает существительные мужского рода с нулевой флексией в именительном падеже единственного числа: стол, конь; среднего рода с флексией -/о/ (орф. -о и -е): окно, поле; мужского рода с той же флексией: домишко, волчище, подмастерье.
- II склонение включает существительные женского, мужского и общего рода с флексией -/а/ (орф. -а и -я) в именительном падеже единственного числа: карта, земля, юноша, сирота.
- III склонение включает
o существительные женского рода с основой на мягкую согласную или на шипящую и с нулевой флексией в именительном падеже единственного числа: область, ночь и т. п.;
o существительное мужского рода путь;
o существительные среднего рода бремя, время, вымя, знамя, имя, племя, пламя, семя, стремя, темя и дитя.
Ответы:
Я понял вопрос, бросьте вы это дело - это даже Microsoft не по зубам, на английском, про русский вообще скромно умолчу.
База приставок выглядит излишней.
> 01.11.2008 16:00:16 Gurusik
Ну нет! Иначе наречия из сущ. с предлогом (в обтяжку, вразбивку, вразнобой) будут (когда пред лог перешёл в приставку) тоже выдаваться!
Пожалуй (без тотального сличения с "полным" словарём), легко выковырять (вычислить) только отвлечённые понятия: на: -ость; -стье; -изм; -ист; -логия и так далее. Прочее же критически неоднозначно (с вероятностью 1 невычислимо).
(Вот в УСТНОЙ - но правильной! - речи, там да, процентов 90 выудить можно.)
P/s: а Вам, извините, коллекция имён существительных, что ли, нужна?
колесо вовсе не обязательно изобретать заново, есть громадная куча работ по теме, начните здесь.  Работа ведётся четырьмя разными типами учёных (компьютерщики, филологи, инженеры и математики) и все называют это дело слегка по разному.  По последним данным, точность алгоритмов превышает 98%
Легче всего определить прилагательное (по окончанию). Его можно спутать только с причастием. Кстати, прилагательные часто можно выкинуть из текста, при этом текст останется грамотным и осмысленным.
Кстати, никто сейчас не пишет синонимайзер или генератор текста?
Если да, было бы интересно пообщаться.
[email protected]
> 04.11.2008 2:19:12 skipjack
Прилагательное не так уж редко (в художественной литературе) являтся частью именного сказуемого. Выкидывать его при этом — это как выкинуть предложение.
В существительное (как и в английском) могут перейти многие части речи: и частица (авось), и прилагательное (раненый), и причастие (умалишённый), а также все собственные имена (Гусь-Хрустальный, Пушкин).
В общем, необходимо (для 90-% надёжности хотя бы) смотреть и контекст, а не только состав слова. Юмор в том, что словарь гораздо удобнее, чем все эти премудрости анализа.


16 лет назад

RPI.su - самая большая русскоязычная база вопросов и ответов. Наш проект был реализован как продолжение популярного сервиса otvety.google.ru, который был закрыт и удален 30 апреля 2015 года. Мы решили воскресить полезный сервис Ответы Гугл, чтобы любой человек смог публично узнать ответ на свой вопрос у интернет сообщества.

Все вопросы, добавленные на сайт ответов Google, мы скопировали и сохранили здесь. Имена старых пользователей также отображены в том виде, в котором они существовали ранее. Только нужно заново пройти регистрацию, чтобы иметь возможность задавать вопросы, или отвечать другим.

Чтобы связаться с нами по любому вопросу О САЙТЕ (реклама, сотрудничество, отзыв о сервисе), пишите на почту [email protected]. Только все общие вопросы размещайте на сайте, на них ответ по почте не предоставляется.