Всем привет!
Обращаюсь с такой проблемой:
я пишу парсер, который собирает фотки с разных фотосайтов. Парсинг происходит с помощью DOM (loadHTML) и xpath пути (т.е. парсятся обычные HTML страницы).
Мне надо получать ссылки на картинки + название картинок+названия категорий, в которых они находятся.
Все названия на английском (или транслитом) парсятся и отображаются корректно, но как только попадается русский текст - начинаются кракозябры разные....
Проблемы эти возникают с сайтами, которые не на UTF-8 (KOI8-U,cp1251 и т.д.).
Пробовала разные варианты функций iconv и encoding. Ничто не спасает
Вообще печалька
Кто сталкивался с такой проблемой? Как это лечится?
Может есть способ, чтобы сразу переопределить кодировку на UTF-8 и дальше её использовать для своих манипуляций в DOMe?
P.S. Сразу предупрежу: скрипт парсера находится в HTML коде с кодировкой UTF-8.
Примечание:
Epsiloncool ,
не подскажите как сделать этот анализ заголовка ответа сервера?
Примечание:
crimaniak , попробовала ваш вариант - не сработало....теперь вообще контент парсищейся не выводит....чистый лист(((
возможно, что iconv обо что-то ломается?
какие еще варианты можно попробовать?
RPI.su - самая большая русскоязычная база вопросов и ответов. Наш проект был реализован как продолжение популярного сервиса otvety.google.ru, который был закрыт и удален 30 апреля 2015 года. Мы решили воскресить полезный сервис Ответы Гугл, чтобы любой человек смог публично узнать ответ на свой вопрос у интернет сообщества.
Все вопросы, добавленные на сайт ответов Google, мы скопировали и сохранили здесь. Имена старых пользователей также отображены в том виде, в котором они существовали ранее. Только нужно заново пройти регистрацию, чтобы иметь возможность задавать вопросы, или отвечать другим.
Чтобы связаться с нами по любому вопросу О САЙТЕ (реклама, сотрудничество, отзыв о сервисе), пишите на почту [email protected]. Только все общие вопросы размещайте на сайте, на них ответ по почте не предоставляется.