на php:
<?php
$test_text=file_get_contents($url); // получить файл по ссылке $url
?>
Далее необходимо очистить файл от лишних элементов. Для простоты удалим из текста лишние html теги. Удаление других элементов текста оставим читателю.
<?php
$text=strip_tags($test_text); // удалим теги с помощью функции php
?>
Определим необходимые переменные
<?php
$i=0;$j=0;
$hesh_word=array(); // массив слов
$hesh_string=array(); // массив подстрок
$hesh_mass=array(); // массив значений хеш подстрок
$tmp=»;
?>
Создадим массив из слов. В качестве критерия разделения используем пробел.
<?php
$hesh_word = explode(« », $text); // опять стандартная функция php
?>
Сформируем массив подстрок. В этой функции мы просто складываем слова по пять штук вместе.
<?php
foreach ($hesh_word as $word)
{
$tmp.=$word;
if($j==4)
{
$hesh_string[$i]=$tmp;
$i++;
$j=0;
$tmp="";
}else $j++;
};
$hesh_string[$i]=$tmp;
?>
Сформируем массив хеш значений:
<?php
$i=0;
foreach ($hesh_string as $string)
{
$hesh_mass[$i]=hash(«md5″,$string);
$i++;
};
?>
В качестве функции сравнения воспользуемся простым перебором В результате работы функции выводится процент совпадений.
<?php
$similar_counter=0;
foreach ($hesh_mass1 as $var1)
{
foreach ($hesh_mass2 as $var2)
{
if($var1==$var2)
{
$similar_counter++;
break;
}
}
}
echo 'Процент совпадения: '.$similar_counter*100/size($hesh_mass1);
?>
RPI.su - самая большая русскоязычная база вопросов и ответов. Наш проект был реализован как продолжение популярного сервиса otvety.google.ru, который был закрыт и удален 30 апреля 2015 года. Мы решили воскресить полезный сервис Ответы Гугл, чтобы любой человек смог публично узнать ответ на свой вопрос у интернет сообщества.
Все вопросы, добавленные на сайт ответов Google, мы скопировали и сохранили здесь. Имена старых пользователей также отображены в том виде, в котором они существовали ранее. Только нужно заново пройти регистрацию, чтобы иметь возможность задавать вопросы, или отвечать другим.
Чтобы связаться с нами по любому вопросу О САЙТЕ (реклама, сотрудничество, отзыв о сервисе), пишите на почту [email protected]. Только все общие вопросы размещайте на сайте, на них ответ по почте не предоставляется.