일단 제리코 파서를 이용해 해당 사이트의 소스를 긁어와 텍스트만 그대로 뿌려줬습니다. 그런데 이것들을 분류별로 즉 아이템별로 나눠서 딱딱 뿌려줘야 하는데 구글링을 아무리 해봐도 방향제시가 없더군요 ㅠ 리스트뷰로 이 값을 상품마다 뿌려줘야 하는데 보시다시피
시간은 시간끼리 제목은 제목끼리 나열해버립니다.
그렇다고 소스코드를 보시면 참 난해합니다. 다른 제리코파서 소스들을 참고하면 <td>로 분류를 해주는데 이 html소스들은
도대체 어떤 종류인지;;
결과적으로 질문입니다.
아이템별로 분류를 하고 리스트뷰로 뿌려주려면 어떻게 소스를 작성해야 하는지 구체적으로 알고 싶습니다.
아래는 뿌려준 화면과 해당 사이트의 소스보기 중 일부입니다.
그리고 제가 쓴 소스입니다.
package com.kfiop;
import java.net.URL;
import net.htmlparser.jericho.HTMLElementName;
import net.htmlparser.jericho.Source;
import android.app.Activity;
import android.os.Bundle;
import android.widget.TextView;
public class JerichoActivity extends Activity {
/** Called when the activity is first created. */
@Override
public void onCreate(Bundle savedInstanceState) {
super.onCreate(savedInstanceState);
setContentView(R.layout.main);
String yourUrl = "http://www.ticketmonster.co.kr/now/?ar=92&tz=&page=1";
TextView tv = (TextView)findViewById(R.id.textView1);
tv.setText(getHtmltoText(yourUrl));
}
public String getHtmltoText(String sourceUrlString){
Source source = null;
String content = null;
try{
source = new Source(new URL("sourceUrlString);
source.fullSequentialParse();
content = source.getTextExtractor().toString();
}catch(Exception e){
e.printStackTrace();
}
return content;
}
}





html을 파싱한다는거 자체가 노가다입니다.
이걸 어떻게 해야 한다는거 자체가 없습니다.. 그냥 소스보고 알아서 잘 찾아내는 수밖에요..
대부분 td로 구분하였다는건 html에서 표를 그릴때 테이블 태그를 사용하는데 테이블 태그의 형태가 <table> <tr> <td> </td> </tr> </table> 이기 때문입니다. table이 테이클 태그의 시작이고.. tr이 한 행을 시작하는 태그이고 td가 그 행안에 있는 열입니다.
즉.. 님이 보신 데이터들이 표안에 들어있고.. 각 행의 각 열에 있는 데이터를 뽑아서 그럴겁니다.
예를 들어.. 게시판을 파싱하는건.. 거의다 table , tr, td로 분류할겁니다.. 게시판 자체가 표형태이기 때문이겠죠..
그리고.. 게시판은 무조건 이 3개로 파싱이 되는게 아니라.. 안에있는 태그를 잘 분류해서 잘 뽑아써야 됩니다..
어떠한 방법보다는.. 그냥 경험상 익숙해 지는수 밖에 없지 않을까 하는 초보의 생각이었습니다..