Парсер на РНР - поломка в кодировке

Без имени, 383 просмотра

Всем привет!
Обращаюсь с такой проблемой:
я пишу парсер, который собирает фотки с разных фотосайтов. Парсинг происходит с помощью DOM (loadHTML) и xpath пути (т.е. парсятся обычные HTML страницы).
Мне надо получать ссылки на картинки + название картинок+названия категорий, в которых они находятся.
Все названия на английском (или транслитом) парсятся и отображаются корректно, но как только попадается русский текст - начинаются кракозябры разные....
Проблемы эти возникают с сайтами, которые не на UTF-8 (KOI8-U,cp1251 и т.д.).
Пробовала разные варианты функций iconv и encoding. Ничто не спасает
Вообще печалька

Кто сталкивался с такой проблемой? Как это лечится?
Может есть способ, чтобы сразу переопределить кодировку на UTF-8 и дальше её использовать для своих манипуляций в DOMe?

P.S. Сразу предупрежу: скрипт парсера находится в HTML коде с кодировкой UTF-8.

Примечание:
Epsiloncool ,
не подскажите как сделать этот анализ заголовка ответа сервера?

Примечание:
crimaniak , попробовала ваш вариант - не сработало....теперь вообще контент парсищейся не выводит....чистый лист(((
возможно, что iconv обо что-то ломается?
какие еще варианты можно попробовать?

Ответы:

Анатолий К

В принципе скрипты автоопределения кодировки есть, но они не 100% эффективны.
Если можете парсить meta encoding, думаю будет лучше

Epsiloncool

Нужно анализировать заголовок ответа сервера, искать там кодировку. Потом делать iconv всей страницы в utf-8 и вуаля.

Есть еще стопроцентный вариант, ставить быстро устаревающую куку при посещении страниц сайта и отдачу картинок производить при ее наличии

Определяем кодировку пришедшей страницы, если не UTF-8, то конвертируем ее при помощи iconv(). Как определять - по ссылке.

Enyby

Только для UTF-8, windows-1251:

14 лет назад

RPI.su - самая большая русскоязычная база вопросов и ответов. Наш проект был реализован как продолжение популярного сервиса otvety.google.ru, который был закрыт и удален 30 апреля 2015 года. Мы решили воскресить полезный сервис Ответы Гугл, чтобы любой человек смог публично узнать ответ на свой вопрос у интернет сообщества.

Все вопросы, добавленные на сайт ответов Google, мы скопировали и сохранили здесь. Имена старых пользователей также отображены в том виде, в котором они существовали ранее. Только нужно заново пройти регистрацию, чтобы иметь возможность задавать вопросы, или отвечать другим.

Чтобы связаться с нами по любому вопросу О САЙТЕ (реклама, сотрудничество, отзыв о сервисе), пишите на почту [email protected]. Только все общие вопросы размещайте на сайте, на них ответ по почте не предоставляется.