0 thoughts on “GuestBook”

  1. 나 16일 오전 9시 55분에 LA(LAX)공항으로 가는데.. 픽업좀 부탁해.. 그리고.. 전화번호좀 갈켜주라.. 잃어버렸어.. 메신저에 띄워놓든지.. 좀 부탁하께

    희상

  2. Hey TA,
    Seem that your wedding is coming up, huh?
    I cant read korean at all. But i know that you are very exciting, right?
    Hope you have a lovely wedding!
    Remember to post lots of pixs here so i can see your beautiful fiance (soon to be wife), huh?

  3. 정윤. 안녕? 안부 전하는게 몇년만인지 모르겠네. 유진이 홈피 갔다가 보고 찾아왔어. ^^;; 너 LA에 있다는 이야기는 한국에서부터 들어서 알고 있는데. 이제서야 안부 묻는다. 결혼 했구나…늦었지만 축하한다. 싸이에 전화번호 있던데, 언제 전화한번 하마. 건강하고. 잘 지내라.

  4. 이박사님 날쎄~ 질문좀 할께요
    libfm 가지고 놀아보는 중이에요. 편의상 음슴체로 할께.

    조건 : train과 test가 있고, item 10, user10이 있어요.

    그룹 파일(-meta)에 대해 : 행렬에 user와 item이 구분없이 들어가는데 그룹파일로 구분지어주면 맞나요?
    BS extention에 대해 : train, test, group(meta) 패키지 일 뿐 다른 건 아닌가요?

    test에 대해 :
    – 입력(train) 데이터가 5 – 0:1 1:2 (평점 – 사용자 번호 – 아이템 번호) 이렇게 들어갔어요
    – test 데이터에 0 – 0:2 1:2 이렇게 넣으며 0으로 넣은 평점을 추정하여 출력 주는게 맞나요?
    – test 데이터에 1 – 0:2 1:2 이렇게 넣으면 내가 넣은 평점 1은 그냥 버려지는지 뭔가 의미하게 되는지.. 즉슨 train 셋트와 연산을 하여 새로운 train 컨텍스트를 만들어버리는 것인지..

    – test 데이터에 train 데이터에 있는 사용자 정보를 그대로 넣어도 유사할 뿐 passthrough 되지는 않는 것 같은데 맞나요? 아마도 패쓰쓰루되면 알스퀘어 1이고 잔차 0인 완전 오버핏이라고 해석될 수도 있겠네..

    추천기에 대해:
    전체 아이템에 대해 추천을 시행해서 상위 10만 뽑는다 치면 test 데이터에 전체 아이템을 넣는 것이 맞나요?

    증분(incremental) 방식 train은 불가능할까요? 예를 들어 train 된 상황에서 추가 데이터를 더 넣어서 기존 train 된 컨텍스트를 유지하며 데이터를 넣는 일.. 그리고 이 때 데이터가 추가됨에 따라 train 컨텍스트의 용량이 증가한다면 이것은 못 써먹을 것 같고 (메모리 넘쳐서) train 컨텍스트의 용량이 어느정도 수렴해 간다면 그냥 써도 될 것 같고.. 증분 방식이 아예 불가능하다면 증분 방식은 포기하는 것이 맞을 것 같고..

    매번 도움 감사합니다. 동생님아~

    해피 뉴이얼!

    1. 1. 그룹파일은 직접 안 써봐서 메뉴얼 외의 내용은 모르겠어요.
      2. 테스트에 대한 설명은 맞아요. 테스트 파일의 타겟값은 무시됩니다.
      3. 트레인에 있는 데이터를 그대로 테스트에 넣더라도 pass-through안하고 정상처리합니다 – MCMC, SGD, ALS 학습 방식 때문에 에러율이 0이 되지 않는 경우도 있지만 어찌되었건 예측성능은 overestimate되겠죠.
      4. 추천기에 대한 설명도 맞습니다. 다 넣어줘야해요.
      5. libFM은 모델을 따로 저장하지 않는 것으로 알고 있어요 (이 부분은 업데이트가 되었는지 모르겠네요). 훈련한 모델을 저장하는 경우에는 증분 방식으로 훈련할 수 있어요.
      도움이 되셨길 바래요. 새해 복 많이 받으세요~!

      1. 와 많은 도움이 되었습니다! libfm 요즘 보니까 모델 저장 / 로드 기능이 추가되었네요. 그리고 fastFM은 특정 조건에서 libFM보다 신뢰도가 떨어진다는 그래프를 봤는데 출처를 까먹었네;;

        그리고 libFM의 brp 익스텐션은 이미 멀티쓰레드를 지원하고 있어요.
        http://www.fabiopetroni.com/Download/manual_libFM_with_BPR_extension.pdf / brp은 베이지안 개인화 랭킹이라는데 논문은 이해못하겠고 -_-; 여튼 추천/랭킹에서 써먹을 수는 있는 듯..

        http://arogozhnikov.github.io/2016/02/15/TestingLibFM.html
        이건 libFM의 파이썬 구현은 대용량에서 느리고, 죽는다는 결론이 포함된 내용.

        이박사도 새해 복 많이 받아요~!

  5. 이박사님 또 질문~ ^^;

    요즘 크리테오 2014 (자네가 2등먹은!!) 구현 방법과 facebook 광고 예측 논문(https://pdfs.semanticscholar.org/daf9/ed5dc6c6bad5367d7fd8561527da30e9b8dd.pdf) 같은 걸 보고 있는데 이해를 잘 몬해서.. 헤메고 있어요.
    xgboost 같은 걸 그냥 써보려고 하는데, 윗분들한테 우리가 이쪽 원리를 어느정도 이해하고 있다는 것을 증명해야 구현 레벨로 넘어갈 수가 있음.

    크리테오 2014 우승자의 방식, Practical Lessons from Predicting Clicks on Ads at
    Facebook 에서 언급된 방식, GBDT 라는 것이 지금 헷갈려하는데,

    부스팅 트리를 써서 -> 트리가 root 부터 leaf 까지 path가 나오면 이 path를 feature로 보겠다는 뜻인가? 통상적으로 예측을 위해 사용하려던 leaf값은 버리고, path가 형성된 조건만 보겠다는 것으로 이해가 됐어요, 이를 통해 얻을 수 있는 것은 카테고리형 피쳐를 축소시키거나, 연속값형 피쳐를 범주형 피쳐로 전환하되 그 조건 값을 구해준다. 로 해석하면 맞을까?

    페이스북 논문에서는 이렇게 부스팅 트리를 돌리고 -> leaf 까지의 path를 구해서 feature로 부여하고 -> raw 데이터를 까서 path상의 조건에 대입하여 해당 feature에 in 하면 1, out 이면 0으로 이진화를 취해서 매트릭스를 재가공한다음 -> 이걸 BOPR이라는 일종의 변형 로지스틱 리그레션에 넣은 것으로 보여요.

    이렇게 얻은 것은 부스팅 트리를 통해 피쳐를 엄선/축소/군집화 하여 이진화 매트릭스로 생성하고, 이렇게 이진화 매트릭스로 로지스틱 리그레션을 돌렸더니 그냥 돌리는 것 보다 결과가 좋더라. 이런 논문이 페이스북 논문… 같아.

    이해를 잘 했는지, 따로 읽어볼 것 까진 없고, 이런 어프로치나 이해가 맞는지 답변해주시면 감사감사 굽신굽신!!
    참고로 xgboost에서는 저렇게 해서 feature의 인덱스까지 걍 뽑아주는 것 같음~

    1. 감사!! 역시 풰퉤디의 위엄! 위 링크에 있는 페이스북 논문을 구현하려면 leaf가 나온 트리의 트래버싱의 컨디션들을 raw 데이터에 적용해서 raw 데이터 -> leaf index의 one-hot-encoded 값으로 변환해서 LR을 넣어야겠군! 글고 xgboost 편하당..

      매번 고마워~

Leave a Reply

Your email address will not be published. Required fields are marked *