안드로이드 개발 질문/답변
(글 수 45,052)
RSS를 파싱으로 읽으니 내용 부분은 잘려있고..
link값이 있길래 보니 URL값이였습니다..
http://www.sportsseoul.com/rss/rss.asp?cp_flag=1&cat_flag=1 이게 RSS주소 인데요
소스를 보시면 link값이 URL주소로 있습니다.
이 URL의 소스를 읽어서 정규식으로 끄집어 낼려고 합니다
정규식을 사용 하는 방법은 알고 있지만 소스를 어떻게 보는지 모르겠네요...
고수분들의 도움 부탁 드립니다~~
>더 좋은 방법 있으시면 추천도 해 주세요 ...
2010.09.02 10:51:54
html원본 읽어 오는 방법
0. rss에서 해당 링크를 추출한 후
1. html 다운로드한다.
- 직접 소켓 프로그램을 짜서 로 htlm을 다운로드 받는다.
-httpclient 라이브러리(아파치)로 html을 다운로드 한다.
2. html파싱한다.
-내용을 보니 <p>태그로 시작되는 부분만 컨텐트이고 그 부분만 가져오면 됨
- 정규 표현식의 경우 전체 문자셋을 기준으로 하고 반복을 하면서 처리하기 때문에 복잡하지 않은 문서에서 사용하는 것은 좋지 않음
-- 혹은 html을 읽으면서 바로 파싱처리를 하면 될 것 같습니다.
0. rss에서 해당 링크를 추출한 후
1. html 다운로드한다.
- 직접 소켓 프로그램을 짜서 로 htlm을 다운로드 받는다.
-httpclient 라이브러리(아파치)로 html을 다운로드 한다.
2. html파싱한다.
-내용을 보니 <p>태그로 시작되는 부분만 컨텐트이고 그 부분만 가져오면 됨
- 정규 표현식의 경우 전체 문자셋을 기준으로 하고 반복을 하면서 처리하기 때문에 복잡하지 않은 문서에서 사용하는 것은 좋지 않음
-- 혹은 html을 읽으면서 바로 파싱처리를 하면 될 것 같습니다.
XML파싱으로 검색해보시면 간단하고 쉬운예제들이 많이 있을겁니다...