Я использовал LDA для корпуса документов и нашел несколько тем. Результатом моего кода являются две матрицы, содержащие вероятности. одна вероятность темы документа, а другая вероятность темы слова. Но я на самом деле не знаю, как использовать эти результаты, чтобы предсказать тему нового документа. Я использую выборку Гиббса. Кто-нибудь знает, как? Благодарность

2
Hossein 7 Апр 2011 в 18:39
Я собирался предложить stats.stackexchange.com, когда заметил, что вы уже разместили там вопрос.
 – 
NPE
7 Апр 2011 в 18:53
Вы просматривали mblondel.org/journal /2010/08/21/… (есть ссылка на образец кода) и blog.josephwilk.net/projects/…
 – 
Philip Southam
7 Апр 2011 в 21:06
Ваше описание немного сбивает с толку, поскольку вы написали, что использовали LDA для поиска тем в документах. Насколько я помню свои лекции по информационному поиску, LDA — это продвинутый метод сглаживания для предсказания вероятностей слов, содержащихся в запросе, но отсутствующих в документе, на основе вероятности того, что слово будет сгенерировано определенным тема-модель. Так что было бы очень полезно, если бы вы предоставили дополнительную информацию о том, что вы уже сделали.
 – 
das_weezul
11 Апр 2011 в 17:44
Что вы хотите сделать с новым тестовым документом? Узнать вероятность темы для него? Или на самом деле узнать, из какой темы было создано каждое слово?
 – 
abhinavkulkarni
30 Апр 2013 в 08:55

1 ответ

Реализация Java http://www.arbylon.net/ В проектах/lda-j/lda-j-src-20050325.zip есть короткий пример программы в src\org\knowceans\lda\SearchEnglet.java. Я надеюсь, что вы немного знакомы с java, и код поможет вам.

Оригинал документа http://jmlr.csail.mit.edu/papers/ Volume3/blei03a/blei03a.pdf описывает выводы в разделах 5.1 и 5.2.

3
rocksportrocker 14 Апр 2011 в 12:45
Извините, я не вижу смысла в этом коде, а использование Java делает его еще более сложным
 – 
Hossein
13 Апр 2011 в 12:31
Формулы вывода для lsa немного сложны, взгляните на английскую страницу википедии об lsa. возможно, код из nlp.fi.muni.cz/projekty/gensim/# тебе лучше читать.
 – 
rocksportrocker
14 Апр 2011 в 12:39