안드로이드 개발 질문/답변
(글 수 45,052)
html을 dom(tree) 구조로 파싱하는법이 있을까요?
제가 구글링 해본 결과 sax나 dom은 xml구조를 파싱할때 사용하는 것으로 알고있는데요
m.naver.com와 같은 html 구조는 tree구조로 dom 파서와 같이 파싱을 할려고 하면 어떻게 해야할까요;
제리코 파서는 그냥 원하는 태그의 값만 뽑아 오는거고
htmlcleaner는 원하는 태그를 제거하기도 하고 well-formed(?)모양으로 만든다는데
정확히 작동하는것 같지도 않더라구요;
m.naver.com의 html구조를 dom parser처럼 한번에 쫙 파싱한다음 node형식으로 접근할 수 있는 파서가 있을까요?
없다면 어떤식으로 만들어야 할까요 ㅠㅠ
2013.02.12 09:45:00
제리코 파서로 하시면 하위구조까지 한꺼번에 가지고 옵니다.
디버깅하시면서 찍어보시면 알수 있습니다..
즉, table 태그로 가져오시면 그 밑에 TR, TD, TH 등 한꺼번에 가져옵니다.
저같은경우는 TABLE 태그로 Element 로 가져오고 그 다음에 하위 태그로 읽고 있습니다^^
2013.02.12 19:34:10
매뉴얼에 이렇게 되어 있네요..ㅋㅋㅋ
A visual representation of the document element hierarchy can be obtained by calling:
getSourceFormatter()
.
setIndentAllElements(true)
.
setCollapseWhiteSpace(true)
.
setTidyTags(true)
.
toString()
맨 처음이나 끝부터 스택에 넣으면서 한블록 끝날때마다 트리에 붙이면 되는거 아닌가요?