Итак, немного предыстории: я пытаюсь обучить систему машинного обучения отвечать на вопросы о событиях, где и описания событий, и вопросы сформулированы на естественном языке; описания событий ограничиваются отдельными предложениями.

До сих пор основная проблема заключалась в нахождении корпуса, описывающего события с достаточно ограниченным словарным запасом, чтобы ставить аналогичные вопросы по всем событиям (например, если все события были связаны с шахматами, я мог бы разумно спросить «какая фигура переместилась?» И ответ может быть получен из приличного процента предложений с описанием события).

Имея это в виду, я надеюсь найти текстовый источник, который был бы сосредоточен на описании событий в рамках некоторой довольно ограниченной темы (например, больше в духе шахматных комментариев, чем шахматного форума).

Хотя мне немного повезло с корпусом диалогов авиадиспетчеров, большинство предложений нетипично для английского языка (в них много Чарли, Танго и т. д.). Однако, если формат такой, как я описал, тогда актуальная тема не имеет значения, если она есть.

Поскольку я планирую построить свой собственный корпус из этого текста, теги не требуются.

1
zergylord 29 Авг 2011 в 23:02

2 ответа

Лучший ответ

Корпус Reuters имеет довольно однообразное содержание (коммерческие новости; назначения генеральных директоров, слияния и поглощения, крупные сделки и т. Д.); Я больше знаком с многоязычным v2, но IIRC корпус v1 был одноязычным английским. Это будут новостные статьи, состоящие из нескольких предложений, но в соответствии с журналистскими традициями, вы можете ожидать, что первое предложение сформирует разумную суть всей истории. http://about.reuters.com/researchandstandards/corpus/

Вы также можете посмотреть другие материалы конкурса TREC и особенно MUC; http://en.wikipedia.org/wiki/Message_Understanding_Conference

2
tripleee 1 Сен 2011 в 06:36

Вы рассматривали Usenet? У него есть множество собственных идиосинкразических соглашений, но что-то вроде rec.food.cooking, похоже, в целом соответствует вашему описанию. http://groups.google.com/group/rec.food.cooking/ Взгляните, например, на rec.sports.hockey или rec.games.video.arcade тоже. Существует также корпус из 20 групп новостей, если вы ищете канонический, хорошо известный корпус, и он содержит по крайней мере некоторые материалы групп новостей, связанных со спортом. http://people.csail.mit.edu/jrennie/20Newsgroups/

(Может быть, в вашей стране «широкая публика» довольна бейсболом. Здесь это был бы футбол, знаете ли, такой, где нельзя использовать руки.)

0
tripleee 31 Авг 2011 в 20:29