G検定カンペ用語集

自分用G検定用チートシート。

2022年08月


音声認識分野において、音声データとテキストを組み合わせたデータベースである音声コーパスのひとつ。
1990年代に構築され、500人超の話者と300万超の単語を収録。
英語での2人の電話での会話と、その書きおこしを行ったデータ。






無料で使用できる形態素解析器。
奈良先端科学技術大学院大学情報科学研究科自然言語処理学講座(松本研究室)が開発。
JUMANをベースにしているが、統計的な手法を用いており、解析速度と使い勝手の向上を目指している。
現在はIPA品詞体系を使用しており、JUMAN とはその方向性が異なっている。
→サイト







Javaで開発された、オープンソース日本語形態素解析エンジン。
日本語のテキストを形態素と呼ばれる単語に分割する。
→サイト




オープンソースの形態素解析エンジン。
奈良先端科学技術大学院大学出身、現GoogleソフトウェアエンジニアでGoogle 日本語入力開発者の一人である工藤拓氏によって開発されている。
言語、辞書、コーパスに依存しない汎用的な設計を基本方針としている。
名前は作者の好物が和布蕪(めかぶ)であることに由来する。
→ダウンロード




日本語形態素解析システム。
京都大学黒橋・褚・村脇研究室で開発されている。
2016年に後継のディープラーニングによる Juman++ が公開された。
人手で整備した辞書に基づいており、ChaSenの元となったシステムである。




↑このページのトップヘ