html을 dom(tree) 구조로 파싱하는법이 있을까요?

 

제가 구글링 해본 결과 sax나 dom은 xml구조를 파싱할때 사용하는 것으로 알고있는데요

 

m.naver.com와 같은 html 구조는 tree구조로 dom 파서와 같이 파싱을 할려고 하면 어떻게 해야할까요;

 

제리코 파서는 그냥 원하는 태그의 값만 뽑아 오는거고

htmlcleaner는 원하는 태그를 제거하기도 하고 well-formed(?)모양으로 만든다는데

정확히 작동하는것 같지도 않더라구요;

 

m.naver.com의 html구조를 dom parser처럼 한번에 쫙 파싱한다음 node형식으로 접근할 수 있는 파서가 있을까요?

 

없다면 어떤식으로 만들어야 할까요 ㅠㅠ