Доброго здоровья всем.
Суть задачи в следующем:
Есть программа, которая читает предложение, определяет какой частью речи является каждое слово, в какой форме оно приведено (Род, Число, Падеж, Лицо, Время, Наклонение, Число...) и на какой вопрос отвечает.
Можно ли имея приблизительно такую схему предложения, как приведена ниже - построить связи (или зависимости) между словами? Нужны строгие правила, потому, что делать это будет программа.
Предложение:
Он любил расхаживать по комнате, постукивая пальцами красивых и маленьких рук по табакерке с русским табаком. (И. С. Тургеньев, из воспоминаний о В. Г. Белинском)
Схема:
[Кто] [Что делал] [Что делать] по [Чему], [Что делая] [Чем] [Каких] и [Каких] [Чего] по [Чему] с [Каким] [Чем].
Требуется получить:
Он любил
Любил расхаживать
Расхаживать по комнате
Расхаживать постукивая
Постукивая пальцами
Пальцами рук
Красивых рук
Маленьких рук
Постукивая по табакерке
По табакерке с табаком
Русским табаком
Спасибо.
Примечание:
Pharmakis, спасибо, поищу литературу. Если у вас найдется время узнать у друга - авторов и названия литературы, где затрагивается этот вопрос - напишите, пожалуйста здесь или на
[email protected]
Примечание:
crimaniak, Спасибо, про когнитивный анализ текста слышу впервые, очень интересно.
"Программа, которая определяет параметры слов, называется морфологический словарь. И это самая простая часть работы."
Вот эту программу уже написал. :)
Насчет модели обучения, когда программа спрашивает о связях, где не может определить их сама - тоже задумывался. Попробую.
А что касается множеств - здесь сложнее. Нужно где-то добывать информацию, что Киев и Ростов нужно отнести к одной категории, а канарейку и коллибри к другой.
Еще раз спасибо.
Примечание:
propheticoleg, спасибо, остается непонятным, как именно выделять эти цепочки.
Суть вопроса в общем в том, чтобы найти какие-то базовые правила, как могут и как НЕ могут строится эти связи, но правила доступные не только человеку, но и машине, то есть строгие правила.
Морфологический словарь выдает часть речи и точную форму слова (Падеж, Род, Число, Лицо...).
Не решены только проблемы определения каким членом предложения является слово (Подлежащее, Сказуемое...) и между какими словами есть связь, как описано выше.
Примечание:
Всем спасибо за советы. Есть очень ценная информация.
Лучшим решением проблемы на данный момент считаю построение связей всех слов со всеми, и выбор наиболее часто встречающихся связей. При анализе большого числа документов это должно дать плоды.
В дальнейшем, когда все базовые проблемы будут решены - буду писать более интеллектуальный разбор, с семантическим анализом (связями типа является, относится, состоит из...).
RPI.su - самая большая русскоязычная база вопросов и ответов. Наш проект был реализован как продолжение популярного сервиса otvety.google.ru, который был закрыт и удален 30 апреля 2015 года. Мы решили воскресить полезный сервис Ответы Гугл, чтобы любой человек смог публично узнать ответ на свой вопрос у интернет сообщества.
Все вопросы, добавленные на сайт ответов Google, мы скопировали и сохранили здесь. Имена старых пользователей также отображены в том виде, в котором они существовали ранее. Только нужно заново пройти регистрацию, чтобы иметь возможность задавать вопросы, или отвечать другим.
Чтобы связаться с нами по любому вопросу О САЙТЕ (реклама, сотрудничество, отзыв о сервисе), пишите на почту [email protected]. Только все общие вопросы размещайте на сайте, на них ответ по почте не предоставляется.