Wikipedia日英京都関連文書対訳コーパス(PDIC/Unicode形式)

Wikipedia日英京都関連文書対訳コーパス(PDIC/Unicode形式)

【内容】 このファイルは、以下の手順で作成したものです。 1. 独立行政法人情報通信研究機構が作成・公開されている『Wikipedia日英京都関連文書対訳コーパス Version 2.01』(約50万文対)(http://alaginrc.nict.go.jp/WikiCorpus/)をダウンロード。 2. 上記1番のファイルから以下2種類のタグを含むデータレコードだけを抽出。    <j>日本語原文</j>    <e type="check" ver="1">最終翻訳文</e> 3. 上記2番のファイルを、検索ソフト『PDIC/Unicode』(http://pdic.la.coocan.jp/unicode/)で検索できるようにするために、PDIC1行テキスト形式に変換。(ただし、PDICの仕様に合わせて、英文の長さが500バイト超のデータを除外)    データフォーマットは、「英文 /// 和文」 4. PDIC/Unicode にて、DIC形式に変換。(43万7939件の対訳データが生成された) ------------------------------------------ 本サービスで使用しているデータはWikipediaの日本語文を独立行政法人情報通信研究機構が英訳したものを、Creative Comons Attribution-Share-Alike License 3.0による利用許諾のもと使用しております。詳細はhttp://creativecommons.org/licenses/by-sa/3.0/およびhttp://alaginrc.nict.go.jp/WikiCorpus/をご覧下さい。 ------------------------------------------ 【販売価格】 無料 【圧縮形式】 ZIP (解凍すると、Wikipedia日英京都関連文書対訳コーパスV201.DIC というファイルが復元されます) 【使い方】 検索ソフト『PDIC/Unicode』の作者のウェブサイト(http://homepage3.nifty.com/TaN/unicode/)、または同ソフトのヘルプをご参照ください。 【サポート】 一切ありません。当方に質問をされても回答できませんのでご了承ください。

【内容】 このファイルは、以下の手順で作成したものです。 1. 独立行政法人情報通信研究機構が作成・公開されている『Wikipedia日英京都関連文書対訳コーパス Version 2.01』(約50万文対)(http://alaginrc.nict.go.jp/WikiCorpus/)をダウンロード。 2. 上記1番のファイルから以下2種類のタグを含むデータレコードだけを抽出。    <j>日本語原文</j>    <e type="check" ver="1">最終翻訳文</e> 3. 上記2番のファイルを、検索ソフト『PDIC/Unicode』(http://pdic.la.coocan.jp/unicode/)で検索できるようにするために、PDIC1行テキスト形式に変換。(ただし、PDICの仕様に合わせて、英文の長さが500バイト超のデータを除外)    データフォーマットは、「英文 /// 和文」 4. PDIC/Unicode にて、DIC形式に変換。(43万7939件の対訳データが生成された) ------------------------------------------ 本サービスで使用しているデータはWikipediaの日本語文を独立行政法人情報通信研究機構が英訳したものを、Creative Comons Attribution-Share-Alike License 3.0による利用許諾のもと使用しております。詳細はhttp://creativecommons.org/licenses/by-sa/3.0/およびhttp://alaginrc.nict.go.jp/WikiCorpus/をご覧下さい。 ------------------------------------------ 【販売価格】 無料 【圧縮形式】 ZIP (解凍すると、Wikipedia日英京都関連文書対訳コーパスV201.DIC というファイルが復元されます) 【使い方】 検索ソフト『PDIC/Unicode』の作者のウェブサイト(http://homepage3.nifty.com/TaN/unicode/)、または同ソフトのヘルプをご参照ください。 【サポート】 一切ありません。当方に質問をされても回答できませんのでご了承ください。